当前位置:首页 >> 互联网 >>

AlphaGo的成功是蒙特卡洛树搜索加深度学习的胜利


光环大数据--大数据培训&人工智能培训 http://hadoop.aura-el.com AlphaGo 的成功是蒙特卡洛树搜索加深度学习的胜利_光环大数据培训

计算机象棋(包括国际象棋和中国象棋)水平有了很大的提高,达到了可以战胜人类最 高棋手的水平。但是,长期以来,在计算机围棋上进展却十分缓慢,在 2006 年引入了蒙特 卡洛树搜索方法之后,也只能达到业余 5 段的水平。所以 AlphaGo 战胜韩国棋手李世石,确 实是人工智能发展历程上的一个里程碑式的事件。

从人工智能研究的角度来说, 计算机围棋战胜人类高水平棋手是一个标志, 说明在某些 方面, 现有的人工智能技术可以达到怎样的高度, 所以当时我曾经认为人机再战的意思已经 不大,就如同当年深蓝战胜卡斯帕罗夫之后,IBM 随即马放南山,即便卡斯帕罗夫提出再战 深蓝,IBM 也不再理会。当年的深蓝还是一个专用设备,IBM 甚至为了提高计算速度,而研 制了专用的芯片(据说该芯片只能用于下国际象棋) 。但是万事开头难,随着计算机计算能 力的提高,今天即便在普通计算机上,也可以达到甚至超过当年深蓝的水平。以至于在国际 象棋比赛中,出现过棋手借去厕所的机会,让计算机帮忙出招的丑闻,在现在的国际象棋比 赛中,已经明确禁止利用各种计算设备,据说赛场也对网络进行屏蔽,以防止有人作弊。

图 1. 深蓝对卡斯帕罗夫的比赛现场

就在 2016 年即将过去的时候,在网络上突然出现一个名为 Master 的计算机围棋程序, 在网上快棋赛中,连胜包括中日韩三国高手在内的人类棋手,取得连胜 60 场的辉煌战绩。 事后得知 Master 就是 AlphaGo 的升级版。 >>震撼! 横扫中日韩顶级棋手, 60 局不败的 Master 就是 AlphaGo!

为什么 AlphaGo 会重出江湖呢?我想可以从 AlphaGo 与深蓝的不同来考虑。 深蓝采用的 是α-β搜索框架,加上大量的人类知识,在技术上已经没有什么发展空间。而 AlphaGo 采 用的是蒙特卡洛树搜索框架, 加上深度学习和深度强化学习。 在这样一个框架下, 深度学习, 尤其是深度强化学习在计算机围棋上的天花板究竟有多高?还是一个未知数, 从技术的角度

光环大数据 http://hadoop.aura-el.com

光环大数据--大数据培训&人工智能培训 http://hadoop.aura-el.com
来说,还有很大的研究空间,我想这是 AlphaGo 重出江湖的重要原因,围棋在这里只是作为 一个应用对象,目的还是研究强化学习等方法。

顺便在这里说一下, 有人认为 AlphaGo 的成功是深度学习的胜利, 我认为这一看法是片 面的。具体来说,蒙特卡洛树搜索引入到计算机围棋中,是一个很大的飞跃,深度学习和强 化学习的引入,是又一次飞跃。因此 AlphaGo 的成功是蒙特卡洛树搜索加深度学习的胜利。 如果再上升一个层次来考虑, 则是人工智能中传统的符号主义加连接主义的成功。 如果再进 一步上升一个层次,则是理性加感性的成功。因此,在今天深度学习大热的情况下,不能忽 视传统方法的作用。传统方法与深度学习具有互补性,应该加强这方面的研究,而不是一窝 蜂式的涌向深度学习。

图 2. 韩国棋手李世石对战 AlphaGo

那么这次的 Master 与去年 3 月份的 AlphaGo 有什么不同呢?(为了叙述方便,下文中 AlphaGo 特指去年 3 月的版本,Master 特指现在的版本)到目前为止,DeepMind 公司还没 有透露出任何信息,只能从表面现象去分析、猜测。我并不懂围棋,为了了解 Master 的特 点,在网上看了不少专业棋手对 Master 棋谱的分析,一个突出的感受是,Master 常常会走 出一些超出职业棋手想象的惊人之步,很多高手连呼看不懂,但又找不出其破绽。

古力在其微博上说,Master 的出现“已经彻底颠覆了我们棋手对局势原有的掌控、判 断” ,柯洁也评论说 Master“给我们棋手带来的震撼” 。虽然 AlphaGo 也有出乎职业棋手意 外的着法,但是这次 Master 这样的走法更多,更出乎意外。鉴于此,我曾经给出一个猜测: “AlphaGo 训练时用到了 16 万人类棋谱,加上自己左右互搏产生的 3000 万棋谱,以及人类 总结的几万个模式。而这次的 Master 很可能是从 0 开始学习得到的结果(指没有利用任何 人类棋谱和知识,依靠基于强化学习的左右互搏进行学习) ,在蒙特卡洛搜索树的框架下, 加上深度强化学习方法,是可以做得到的。这也是为什么 Master 让职业棋手感觉到被颠覆 的原因,因为没有任何人类的影响。

光环大数据 http://hadoop.aura-el.com

光环大数据--大数据培训&人工智能培训 http://hadoop.aura-el.com
AlphaGo 在去年 3 月时虽然惊人的走法,但好像没有这次多,也没有这次大胆,因为 3 月的 AlphaGo 利用了 16 万的人类棋谱和数万个人类总结的模式” 。虽然事后 DeepMind 公司 说 Master 还是用了人类棋谱,但是很可能更加加强了基于强化学习的左右互搏的成分,弱 化了人类棋谱的作用。事实上,DeepMind 公司也确实在试探从 0 学习的系统,虽然还没有 推出。

在我的 “人工智能导论” 课上, 学生要完成一个大作业, 就是实现一个简单的下棋程序, 最初几年,学生基本是采用α-β剪枝的方法,要自己总结很多模式出来,后来渐渐的采用 蒙特卡洛树搜索方法的同学逐年增加,到现在基本没有同学用α-β剪枝方法了,也不再需 要人为总结什么模式了,基本都是从 0 开始,而且水平也是逐年提高,绝大多数同学都难于 战胜自己的程序。当然,大作业的棋类比较简单,远远无法跟围棋比,但是越来越不依赖于 人类棋谱、知识,应该是一个发展趋势,围棋也应该可以实现,可能还需要更强大的计算平 台的支持。关于大作业,我曾在 2013 年的博客中有过简单的总结,表明过类似的看法,有 兴趣的读者可以参见《由大作业想到的》这篇博客:

http://blog.sina.com.cn/s/blog_73040b820101bwrl.html

深蓝、 沃森和 AlphaGo 都可以算是人工智能发展史上里程碑式的事件, 那么他们之间有 哪些相同与不同呢?

关于相同点, 我想可以总结为一句话: 在一个特定领域, 利用人类提供的数据或者知识, 采用已有的技术,战胜该领域最高水平的人类。

深蓝是一个国际象棋程序,采用的是 60 年代就提出的α-β剪枝算法,IBM 公司聘请了 若干个国际象棋特级大师总结下棋的模式和知识,用于对局面的评估。最终于 1997 年战胜 了连续 10 年国际象棋世界冠军卡斯帕罗夫。

沃森是 IBM 为了纪念公司成立 100 周年研发的一个问答系统,其名称是为了纪念 IBM

光环大数据 http://hadoop.aura-el.com

光环大数据--大数据培训&人工智能培训 http://hadoop.aura-el.com
公司的创始人 ThomasJ.Watson 先生。2011 年在美国最受欢迎的智力竞猜电视节目《危险边 缘》中,沃森击败该节目历史上两位最成功的选手肯-詹宁斯和布拉德-鲁特,成为《危险边 缘》节目新的王者。在沃森系统中,共采用了 100 多项与自然语言处理、知识问答相关的技 术,利用《危险边缘》节目创始以来 40 多年的问题与答案进行训练,存储了大量图书、新 闻和电影剧本资料、辞海、文选和《世界图书百科全书》等数百万份资料,在 3 秒内可以给 出一个问题的答案。

图 3. 沃森参加电视节目《危险边缘》 ,中间是沃森,两边是肯-詹宁斯和布拉德-鲁特

AlphaGo 在蒙特卡洛树搜索的框架下,利用深度学习和强化学习技术进行训练和评估, 其中用到了人类棋手以往的 16 万盘棋谱, 以及 AlphaGo 自己左右互搏产生的 3000 万盘棋谱, 并用到了人类总结的几万个模式, 综合运用这些技术, 实现了高水平的围棋程序, 并于 2016 年 3 月以 4:1 的成绩战胜了韩国围棋职业高手李世石。这些技术也并不是新技术,但是 DeepMind 公司有所创新,主要包括两个方面,一个是发展了强化学习技术,二是将传统的 搜索技术与深度学习在围棋这个平台上, 很好地结合在一起, 实现了理性与感性的良好融合。 这可能是 AlphaGo 成功的关键所在。

这是他们共同的部分, 那么这三个系统有哪些不同呢?三个系统完全是三个不同的领域, 不同点自然很多,下面只从技术是否通用,以及通用程度方面展开讨论。

深蓝采用的α-β剪枝算法是专门用于双人博弈问题的算法,虽然也有人将该方法用于 其他方面,比如故障诊断的测试点选择,但应用面是非常有限的,是一个非常专用的算法。 也曾听有人介绍说 IBM 会把相关方法用于风险投资,但事后也没有听到相关消息。这也可 能是 IBM 不再继续投入开展研究的原因吧?

AlphaGo 则有很大的不同,深度学习是个通用方法,已经在很多领域得到很好的应用, 强化学习也具有一定的通用性,并且 DeepMind 对其有所发展和创新,在围棋这个平台上可 以继续开展研究,也可以推广到其他领域。但是围棋这类博弈游戏有一个特点,其最终的胜

光环大数据 http://hadoop.aura-el.com

光环大数据--大数据培训&人工智能培训 http://hadoop.aura-el.com
负可以自动判断,不需要人类标注,这就为系统自身的左右互搏、强化学习提供了很大的便 利条件,如果在其他领域应用,需要定义合适的优化条件才可行。

在三个里程碑式的事件中, 我认为最具通用性的是沃森, 它采用了 100 多项与自然语言 处理、知识问答相关的技术,这些技术可以在很多应用领域发挥作用,不仅仅是用于问答, IBM 公司把相关技术称之为认知计算。IBM 公司以此为契机,成立了沃森集团,专注于认知 计算的研究和应用,已经在医疗健康领域取得了很好的成果。

因此,从通用性和商用性的角度来说,三个系统中排名第一的是沃森,其系统只要结合 相关领域的数据,可以很快进行商用转化,提供服务;其次是 AlphaGo,直接转换到其他领 域,提供商用服务的可能性不大,但其技术可以应用于其他领域;排在最后的就是深蓝了, 向其他领域转化的可能性很小。

AlphaGo(包括 Master)的出现,对于围棋有什么影响呢?有人认为这会毁了围棋,人 类根本就战胜不了机器, 再学习围棋还有什么意义呢?我认为这种看法是不正确的。 AlphaGo 的出现,说明人类对围棋的认识远远不够,在计算机的辅助下研究围棋,必将对围棋有新的 认识,就如同当年吴清源先生的出现一样,即将开启围棋的新天地。

其实围棋界也有类似的认识。 职业棋手古力说, “我深深地感受到围棋的神秘, 似乎 ‘大 师’ (指 Master)给我们打开一道围棋的神秘之门。不论胜负,人类与人工智能共同探索围 棋世界的大幕即将拉开, 新一次的围棋革命正在进行着” 。 职业棋手排名第一的柯洁也提到, “人类数千年的实战演练进化,计算机却告诉我们人类全是错的。我觉得,甚至没有一个人 沾到围棋真理的边。但我想说,从现在开始,我们棋手将结合计算机,迈进全新的领域、达 到全新的境界。新的风暴即将来袭,我将尽我所有的智慧终极一战! ”

从科学发展史上来看,每次危机的出现,都预示着新的革命即将开始,比如数学上的几 次悖论的出现,都孕育出新的数学方法,极大地推进了数学的发展。我们期待着 AlphaGo 能开放出来,可以让棋手们自由地与它对弈,甚至可以像围棋复盘一样,和计算机一起探索

光环大数据 http://hadoop.aura-el.com

光环大数据--大数据培训&人工智能培训 http://hadoop.aura-el.com
可能的走法,胜负已经不是关键,重要的是发展新的围棋理论,让围棋走向一个新天地。

为什么大家选择光环大数据!

大数据培训、 人工智能培训、 Python 培训、 大数据培训机构、 大数据培训班、 数据分析培训、大数据可视化培训,就选光环大数据!光环大数据,聘请大数据 领域具有多年经验的讲师,提高教学的整体质量与教学水准。讲师团及时掌握时 代的技术,将时新的技能融入教学中,让学生所学知识顺应时代所需。通过深入 浅出、通俗易懂的教学方式,指导学生较快的掌握技能知识,帮助莘莘学子实现 就业梦想。

光环大数据启动了推进人工智能人才发展的“AI 智客计划” 。光环大数据专注国内 大数据和人工智能培训,将在人工智能和大数据领域深度合作。未来三年,光环大数据 将联合国内百所大学,通过“AI 智客计划” ,共同推动人工智能产业人才生态建设,培 养和认证 5-10 万名 AI 大数据领域的人才。

参加“AI 智客计划” ,享 2000 元助学金!

【报名方式、详情咨询】 光环大数据网站报名:http://hadoop.aura-el.com 手机报名链接:http:// hadoop.aura-el.com /mobile/

光环大数据 http://hadoop.aura-el.com


赞助商链接
相关文章:
更多相关标签: