袁泉创办国内首家决策智能公司,ACM全球总决赛发布星际争霸II赛题(附视频)-新智元-八卦帝

新智元报道

作者：张乾

【新智元导读】近日，智能决策公司启元世界在ACM挑战赛期间亮相，并举办了基于《星际争霸II》的AI人机协作挑战赛。挑战中，AI能与人相互协作、理解、感知，胜率达到48.8%。启元世界是由前阿里认知计算实验室资深总监、淘宝推荐算法创始人袁泉创办，目前已获数千万天使轮融资。

去年乌镇围棋峰会上，AlphaGo作为队友加入古力对阵连笑之后，国内就很少再有人机协作的新闻了。但人机协作能力的提升，对人类和AI的相互学习、互相借力，使得人类自身潜能不断释放都有着重要意义。柯洁虽败于AlphaGo但棋力大涨就是最好的说明。

本周，国内领先的智能决策公司启元世界在ACM挑战赛期间亮相，并举办了基于《星际争霸II》的AI人机协作挑战赛。在比赛中，展示了人和AI之间实现实时的互相感知、互相理解、互相协作完成复杂任务的能力。

启元世界是由前阿里认知计算实验室资深总监、淘宝推荐算法创始人袁泉，前阿里搜索广告架构负责人龙海涛共同发起成立，以认知决策智能技术为核心，这次发布的人机协作挑战赛，也是今年国内公司在决策智能上的第一次尝试。

AI是人的“神队友”：走位配合、东西分头并进，干扰和阻挡对手

本次举办的人机协作挑战赛规则为，A队为1人1智能体协作；B队为机器和机器两智能体协作；在规定时间内采集水晶矿多的一方获得比赛胜利，水晶总数40个。全天比赛下来共收集209局的有效数据，经统计，A队获胜102局，胜率48.8%，B队获胜83局，胜率39.7%；平局24局，平手率11.5%。 A队人机队相对于B队机机队展现了一定的优势；更重要的是AI与人在比赛中表现出的若干协作行为，如走位配合、东西分头并进，对对手的干扰和阻挡等，是协作智能的集中体现。

人机协作比赛排行榜前五名

人机队前五名排行榜如下：“Human”为人类选手的得分，“AI”为队友的得分。北京大学一位同学（PKU2）经过不懈努力终于力压第二名（S），摘取首日比赛的桂冠。S同学单局采矿23枚创造了人类选手的纪录；与S同学在第二名局次中配合的AI，以单局采矿17枚，创造了AI的纪录。

过去几年，AI在视觉认知、语音识别等领域取得了巨大进展，并在包括Atari视频游戏、围棋和德州扑克等比赛中击败人类，但在像星际争霸这种即时策略游戏中，由于充满了大量不确定因素以及需要在关键时机决策等情况，AI面临较大挑战。在去年11月人与AI的一次。遭遇战中，韩国的专业玩家在星际争霸游戏中以4：0的比分战胜了AI。

星际争霸是训练和验证决策智能技术的绝佳平台，蕴含了当下人工智能在认知决策层面还没有很好解决的问题：在不完全信息下如何做推理与规划、多智能体协作完成复杂任务、短中长期收益平衡等。相比人工智能下围棋这样的完全信息博弈，星际争霸的决策空间要更大，决策时机更复杂。

在启元世界AI人机协作挑战赛中有两项赛题：

1. 人机协作 vs 机机协作水晶采集赛

在规定时间内，分为A、B两队，每队两个单位分别收集地图上的蓝色水晶。A队为1人加1个具备协作能力的AI智能体；B队为两个具备协作能力的AI智能体。比赛的关键在于A队中的人和AI能否实时观察、理解对方的意图与行动，并能采取有效的行为进行合理分工，采集到更多的水晶。

2. 人机对抗赛：Reaper争霸

玩家与AI分布操控5个星际争霸II中独具特色一类角色——收割者Reaper，在广袤的场地上进行对抗博弈。Reaper可发射一般子弹，也可以扔出手雷。选手需要审时度势，根据不同的游戏场景，采取灵活的协作博弈策略，操控己方的单位对AI一方进行攻击，取得比赛的胜利。

人机协作（解说版）

多智能体协作（解说版）

“人机协作和机机协作各有千秋，机机协作的通讯速度和模型共享更具优势，人机间的沟通和协作成本高了不少，但能引入人的创造力想象力。启元世界的这次人机协作赛往此方向的探索迈出了重要一步”，CMU经济学教授张凯夫点评道。

决策智能：既是通往AGI的基础，也是赋能人类的武器

在去年的 2017 中国（深圳）IT 领袖峰会上，马云评价AlphaGo：So TM What？

马云认为，人们应当多花点时间在 Machine Intelligence（即机器智能）上，让机器人成为人类更好的合作伙伴，而不是人类的对手。

的确，人类之所以智慧，是因为人类理解社会和协作智能，而这种智能也是实现通用人工智能（AGI）宏伟目标的基础。让机器超越人类远远不如让机器为人类赋能带来的价值更大，影响更深。

袁泉认为，过去几年中国大量出现计算机图像、视觉、语音等公司，人工智能的感知技术有了大幅度提高、部分领域实力已经达到国际先进水平；认知技术也有了长足的发展，这为发展决策智能创造了条件。人工智能将经历从感知智能到认知智能再到决策智能的过程，但决策智能目前仍是一个世界级的难题，决策过程也是人脑中最复杂的一种能力。

纵观AI数十年发展史来看，决策智能实现主要有以下几方面的问题需要解决：

决策过程是主观与客观、理智与情感相融合的过程，目前计算机擅于处理的是理性可计算部分，因此需要更好的建模和逼近路径；
影响决策的因素非常多，人是在多源信息密布的环境中进行决策，需要有效甄别和提取有效信息，同时对未知信息进行推理和假设。
各个行业运用决策智能的场景往往是要求实时决策，甚至是高并发决策，如互联网中通常需要在毫秒级返回给用户的推荐结果，因此对系统架构上挑战也很大。

目前，DeepMind、Facebook、微软等公司都在研究如何在星际争霸中赋予AI更多的决策能力，增强AI智能体的通用能力，让AI更像人。

从算法层面探索人机协作，未来AI与人一起协作

马云虽然对AlphaGo的并没有表现出多大兴趣，但他忽略了重要的一点：去年乌镇围棋峰会上，除了AlphaGo大战柯洁之外，AlphaGo还与古力组成的PairGo与连笑对阵。

这是一次具有重要意义的人机协作事件。在古力的“Pair Go”中，与古力搭档的AlphaGo想认输，但古力仍想继续比赛。直到棋盘上的优势越来越小，古力才认输，最终意识到AlphaGo之前打算认输的理由。

人机协作过程中不仅要求AI能够进行判断与决策，还要学会与人进行配合，这是更高级别的决策智能。

谷歌去年上线“Pair”项目，它代表了“People + AI Research”，目标是“研究并重新设计 AI 系统与人交互的方式”。除了谷歌外，马斯克创办的nurolink也在通过脑机接口的方式实现人机协作。

本次启元世界举办的基于星际2的AI人机协作挑战赛，是继去年乌镇之后，今年国内首个人机协作挑战赛，试图从算法层面探索未来AI与人协作的新方式。

而星际2是能够训练算法的最佳场景。

去年8月，DeepMind联合暴雪游戏发布专门针对认知决策AI开源星际2的训练平台SC2LE，相比星际1，其最大的一个优势是提供了很多端到端的内容操作的接口，发展出来可以通过接口像人一样打星际进行控制，这种接口是在之前的星际1平台上不提供的。

袁泉在接受新智元采访时认为，未来有可能大家可以会看到机器人像人一样坐在电脑前，操作鼠标打星际和高手对决，对机器人等相关领域也是很好的促进。

前阿里认知计算实验室负责人创业，已完成数千万人民币天使轮投资

启元世界创始人兼CEO袁泉过去十余年一直从事互联网中最重要的辅助决策系统——个性化推荐算法的研究，并在淘宝和天猫的上亿用户场景中，进行了一系列成功的落地应用。例如2015、2016年双11中上线的基于在线学习的实时推荐，是辅助决策智能在国内、乃至世界范围内最大规模的一次应用。

在阿里担任认知计算实验室负责人期间，袁泉团队与UCL汪军老师团队合作发表论文，介绍了多智能体双向协调网络（BiCNet ），它由策略网络（actor）和Q值网络（critic）组成，两者均基于双向RNN。策略网络用于独立智能体做出行动决策。因此，独立智能体能够保持自己的内部状态，同时能够与其他合作者共享信息。