新智元报道
作者:张乾
【新智元导读】近日,智能决策公司启元世界在ACM挑战赛期间亮相,并举办了基于《星际争霸II》的AI人机协作挑战赛。挑战中,AI能与人相互协作、理解、感知,胜率达到48.8%。启元世界是由前阿里认知计算实验室资深总监、淘宝推荐算法创始人袁泉创办,目前已获数千万天使轮融资。
去年乌镇围棋峰会上,AlphaGo作为队友加入古力对阵连笑之后,国内就很少再有人机协作的新闻了。但人机协作能力的提升,对人类和AI的相互学习、互相借力,使得人类自身潜能不断释放都有着重要意义。柯洁虽败于AlphaGo但棋力大涨就是最好的说明。
本周,国内领先的智能决策公司启元世界在ACM挑战赛期间亮相,并举办了基于《星际争霸II》的AI人机协作挑战赛。在比赛中,展示了人和AI之间实现实时的互相感知、互相理解、互相协作完成复杂任务的能力。
启元世界是由前阿里认知计算实验室资深总监、淘宝推荐算法创始人袁泉,前阿里搜索广告架构负责人龙海涛共同发起成立,以认知决策智能技术为核心,这次发布的人机协作挑战赛,也是今年国内公司在决策智能上的第一次尝试。
AI是人的“神队友”:走位配合、东西分头并进,干扰和阻挡对手
本次举办的人机协作挑战赛规则为,A队为1人1智能体协作;B队为机器和机器两智能体协作;在规定时间内采集水晶矿多的一方获得比赛胜利,水晶总数40个。 全天比赛下来共收集209局的有效数据,经统计,A队获胜102局,胜率48.8%,B队获胜83局,胜率39.7%;平局24局,平手率11.5%。 A队人机队相对于B队机机队展现了一定的优势;更重要的是AI与人在比赛中表现出的若干协作行为,如走位配合、东西分头并进,对对手的干扰和阻挡等,是协作智能的集中体现。
人机协作比赛排行榜前五名
人机队前五名排行榜如下:“Human”为人类选手的得分,“AI”为队友的得分。北京大学一位同学(PKU2)经过不懈努力终于力压第二名(S),摘取首日比赛的桂冠。S同学单局采矿23枚创造了人类选手的纪录;与S同学在第二名局次中配合的AI,以单局采矿17枚,创造了AI的纪录。
过去几年,AI在视觉认知、语音识别等领域取得了巨大进展,并在包括Atari视频游戏、围棋和德州扑克等比赛中击败人类,但在像星际争霸这种即时策略游戏中,由于充满了大量不确定因素以及需要在关键时机决策等情况,AI面临较大挑战。在去年11月人与AI的一次。遭遇战中,韩国的专业玩家在星际争霸游戏中以4:0的比分战胜了AI。
星际争霸是训练和验证决策智能技术的绝佳平台,蕴含了当下人工智能在认知决策层面还没有很好解决的问题:在不完全信息下如何做推理与规划、多智能体协作完成复杂任务、短中长期收益平衡等。相比人工智能下围棋这样的完全信息博弈,星际争霸的决策空间要更大,决策时机更复杂。
在启元世界AI人机协作挑战赛中有两项赛题:
1. 人机协作 vs 机机协作 水晶采集赛
在规定时间内,分为A、B两队,每队两个单位分别收集地图上的蓝色水晶。A队为1人加1个具备协作能力的AI智能体;B队为两个具备协作能力的AI智能体。 比赛的关键在于A队中的人和AI能否实时观察、理解对方的意图与行动,并能采取有效的行为进行合理分工,采集到更多的水晶。
2. 人机对抗赛:Reaper争霸
玩家与AI分布操控5个星际争霸II中独具特色一类角色——收割者Reaper,在广袤的场地上进行对抗博弈。Reaper可发射一般子弹,也可以扔出手雷。选手需要审时度势,根据不同的游戏场景,采取灵活的协作博弈策略,操控己方的单位对AI一方进行攻击,取得比赛的胜利。
人机协作(解说版)
多智能体协作(解说版)
“人机协作和机机协作各有千秋,机机协作的通讯速度和模型共享更具优势,人机间的沟通和协作成本高了不少,但能引入人的创造力想象力。启元世界的这次人机协作赛往此方向的探索迈出了重要一步”,CMU经济学教授张凯夫点评道。
在去年的 2017 中国(深圳)IT 领袖峰会上,马云评价AlphaGo:So TM What?
马云认为,人们应当多花点时间在 Machine Intelligence(即机器智能)上,让机器人成为人类更好的合作伙伴,而不是人类的对手。
的确,人类之所以智慧,是因为人类理解社会和协作智能,而这种智能也是实现通用人工智能(AGI)宏伟目标的基础。让机器超越人类远远不如让机器为人类赋能带来的价值更大,影响更深。
袁泉认为,过去几年中国大量出现计算机图像、视觉、语音等公司,人工智能的感知技术有了大幅度提高、部分领域实力已经达到国际先进水平;认知技术也有了长足的发展,这为发展决策智能创造了条件。人工智能将经历从感知智能到认知智能再到决策智能的过程,但决策智能目前仍是一个世界级的难题,决策过程也是人脑中最复杂的一种能力。
纵观AI数十年发展史来看,决策智能实现主要有以下几方面的问题需要解决:
决策过程是主观与客观、理智与情感相融合的过程,目前计算机擅于处理的是理性可计算部分,因此需要更好的建模和逼近路径;
影响决策的因素非常多,人是在多源信息密布的环境中进行决策,需要有效甄别和提取有效信息,同时对未知信息进行推理和假设。
各个行业运用决策智能的场景往往是要求实时决策,甚至是高并发决策,如互联网中通常需要在毫秒级返回给用户的推荐结果,因此对系统架构上挑战也很大。
目前,DeepMind、Facebook、微软等公司都在研究如何在星际争霸中赋予AI更多的决策能力,增强AI智能体的通用能力,让AI更像人。
马云虽然对AlphaGo的并没有表现出多大兴趣,但他忽略了重要的一点:去年乌镇围棋峰会上,除了AlphaGo大战柯洁之外,AlphaGo还与古力组成的PairGo与连笑对阵。
这是一次具有重要意义的人机协作事件。在古力的“Pair Go”中,与古力搭档的AlphaGo想认输,但古力仍想继续比赛。直到棋盘上的优势越来越小,古力才认输,最终意识到AlphaGo之前打算认输的理由。
人机协作过程中不仅要求AI能够进行判断与决策,还要学会与人进行配合,这是更高级别的决策智能。
谷歌去年上线“Pair”项目,它代表了“People + AI Research”,目标是“研究并重新设计 AI 系统与人交互的方式”。除了谷歌外,马斯克创办的nurolink也在通过脑机接口的方式实现人机协作。
本次启元世界举办的基于星际2的AI人机协作挑战赛,是继去年乌镇之后,今年国内首个人机协作挑战赛,试图从算法层面探索未来AI与人协作的新方式。
而星际2是能够训练算法的最佳场景。
去年8月,DeepMind联合暴雪游戏发布专门针对认知决策AI开源星际2的训练平台SC2LE,相比星际1,其最大的一个优势是提供了很多端到端的内容操作的接口,发展出来可以通过接口像人一样打星际进行控制,这种接口是在之前的星际1平台上不提供的。
袁泉在接受新智元采访时认为,未来有可能大家可以会看到机器人像人一样坐在电脑前,操作鼠标打星际和高手对决,对机器人等相关领域也是很好的促进。
启元世界创始人兼CEO袁泉过去十余年一直从事互联网中最重要的辅助决策系统——个性化推荐算法的研究,并在淘宝和天猫的上亿用户场景中,进行了一系列成功的落地应用。例如2015、2016年双11中上线的基于在线学习的实时推荐,是辅助决策智能在国内、乃至世界范围内最大规模的一次应用。
在阿里担任认知计算实验室负责人期间,袁泉团队与UCL汪军老师团队合作发表论文,介绍了多智能体双向协调网络(BiCNet ),它由策略网络(actor)和Q值网络(critic)组成,两者均基于双向RNN。策略网络用于独立智能体做出行动决策。因此,独立智能体能够保持自己的内部状态,同时能够与其他合作者共享信息。
目前,该论文的一作彭鹏也是启元世界的团队成员。
联合创始人兼CTO龙海涛曾任IBM研究院最年轻的科学家,对互联网广告、电信、能源等多个行业的系统架构上颇有建树,尤其是近年来完成对国内价值最大的在线广告系统——阿里妈妈搜索广告的重构,是互联网时代最大的工程挑战之一,也为架构下一代智能决策系统积累了经验。
团队还吸引了多位名牌大学的博士和硕士加入,并拥有伯克利、CMU、UCL等知名机构的特聘顾问。
目前,启元世界已完成数千万人民币天使轮投资,投资方为高榕资本。公司目标是“打造决策智能、构建平行世界、激发人类潜能”,希望通过新一代的认知决策智能技术,更好的理解AI、理解AI和人之间的联系,最终能帮助到人类自身。这次发布的人机协作挑战赛,也是在决策智能上的第一次尝试。
启元世界此次举办基于《星际争霸II》的AI人机协作挑战赛,也是第42届ACM-ICPC国际大学生程序设计竞赛全球总决赛上的赞助环节,希望推动和发展人机之间互相理解、互相协作,完成复杂任务的决策技术,让机器智能和人类潜能互相碰撞、激发出更广阔的应用前景。