像轴突网络一样,一个神经网络建立一个连接数据节点网络,称为人造神经元。深度神经网络包含许多这样的节点层。当你听到人们用“深度学习”这个词时,这就是他们的意思。脑神经元通过不同连接强度的途径将电荷发送到其他神经元进行通信。人工神经节点包含称为权重的数字,表示它们对下一层中的每个节点施加多少影响。随着原始数据流经神经网络,每层节点就像一个过滤器,通过越来越高级的功能来转换信息。
为了训练一个神经网络,你举个例子,看它是否输出正确的东西,如果不是通过根据特殊的数学函数改变权重来纠正错误,并重新举例说明,最终,在练习了数百万个例子之后,它会做得更好。 (就像一只鸽子一样)神经网络学习速度缓慢。他们需要大量的例子,他们需要很长时间来训练,因为每次收到无数的例子时,必须根据数学公式调整数千个权重。
但有一个好处:神经网络非常敏感,可以捕捉到很多细微的信息。如果特定领域的树搜索规则是跟随机器人,并且MCTS是理性的外星人,神经网络就像一个孩子。AlphaGo是如何工作的?DeepMind训练AlphaGo的方式与教育幼儿识别猫的照片的方式相同。你可以给它看一个动物图画书,并指出所有的猫。接下来,你可能会一起去宠物商店,让孩子试着挑选猫,让他们知道他们得到的是正确的,哪些是错的。
最后,你释放你的雏鸟到世界上,生活将提供他们需要的任何反馈,以纠正任何严重的猫识别错误。DeepMind开始为AlphaGo提供3000万图片,这些图片来自一个流行的在线Go服务器开发的强大玩家。一旦AlphaGo识别出一个,它就会练习以前从未见过的图像变得更好。最后,AlphaGo玩了数以百万计的练习游戏,以获得反馈。
AlphaGo还学会了通过研究数以百万计的游戏位置来估计一个特定位置将导致胜利的几率。然后通过玩数百万游戏来加强这种知识。这来自于我和Leela的比赛,这是一个基于神经网络的强大的围棋游戏。由Leela的神经网络生成的移动概率热图。比较热门的领域是那些神经网络预测有更好的选手选择的概率。拥有这张地图可以使AlphaGo专注于最有前途的分支,这使得蒙特卡罗的预测更准确。
结果是比以前的方法更加强大的战略智慧:从1990年到2006年,一条绿线表示树形搜索曲线向上蜿蜒曲折,蓝线表示MCTS接近并越来越接近y轴,专业标记,红线表示AlphaGo在2016年跃升至顶端图形。树搜索排名是基于不频繁的人机残障挑战的结果的估计。 MCTS排名是以KGS记录为基础的。 AlphaGo根据官方比赛进行排名。
AlphaGo在DeepMind伦敦总部秘密举行首场比赛,与当时的欧洲冠军范辉对抗。没有电脑曾经赢过专业人员。 AlphaGo赢得了比赛5-0。几个月后,当DeepMind透露了AI最伟大的里程碑之一的时候,它也宣布在一个多月的时间里,AlphaGo将面对我们这一代最出名的玩家 - 一位名叫李·塞多尔的大师。
这是“人与机器”卡斯帕罗夫 - 深蓝比赛的复兴。也许不到眼前但是AlphaGo的游戏记录让AI软件对能够赢得下一个挑战的希望产生怀疑。他们没有透露具有创造力的超级智慧天才。看起来,AlphaGo似乎只是学会了模仿教科书去做得非常好。AlphaGo的谨慎风格源于其训练数据的偏差。网站流量分析证实,DeepMind创建AlphaGo学习课程所用的英语Go服务器与美国和日本的玩家非常相像,这是业余爱好者仍然玩传统围棋的原因。
这提醒人们,训练数据中的细微偏差可以完全改变神经网络的个性。随着人们越来越依赖大数据,这个问题将变得越来越重要。尤其值得一提的是,韩国顶级专业人士Myngwan Kim发现了早期AlphaGo的未发明性。在棋盘底部,黑方侵入了AlphaGo的领地。根据一个非常常见的序列,AlphaGo一定已经研究过无数次了,接下来是白色。
这就是它的工作原理。当然,AlphaGo做到了。一个围棋棋盘上的底部有一个白色的盒子,上面有白色的棋子。当更多的黑棋子在下方时,盒子变成黑色,白色的棋子被下面的黑色棋子包围,上面有两个箭头指向它们。这个序列应该是一个公平的交换——黑方接受白方的领地,白方对中心产生影响。但这次是错误的。你可以看到黑色的两个棋子(三角形的标记)否定了怀特的预期影响,并威胁到白色的标记棋子。
在这一场比赛中,怀特几乎没有表现出放弃下半部分的底牌。AlphaGo可以模仿人类,但它不能产生新的想法。计划:AI变得具有好奇心AlphaGo可以规划未来。当它不知道该做什么的时候,它会先测试,就像人类一样。在下面的例子中,AlphaGo(白色)不确定接下来要玩什么,因为它不知道对手是想要角落还是外面。