“阿尔法狗之父”在线答疑新版本解决了哪些历史遗留问题？

网易智能 2017-10-20 10:57:38 0 人物思维 | 人工智能, 技术, 数据

DeepMind首席研究员、“AlphaGo之父”David Silver和Julian Schrittwieser（AlphaGo Zero作者之一）在Reddit回答网友提问。

资料显示，“AlphaGo之父”David Silver毕业于剑桥大学，获得了艾迪生威斯利奖，随后与人共同创立了视频游戏公司Elixir Studios，2004年，成为伦敦大学学院的讲师，Silver起初是DeepMind的顾问，直到2013年正式加入DeepMind。为什么AlphaGo Zero的训练如此稳定？

David Silver说，AlphaGo Zero所用的算法与策略梯度、Q-learning之类的传统（无模型）算法不同，通过使用AlphaGo search，我们极大地改进了策略和自我对弈的结果，然后我们应用简单的、基于梯度的更新来训练下一个策略+价值网络（policy+value network）。这比渐进的、基于梯度的策略改进（policy improvement）要稳定的多。为什么这次Zero就训练了40天？

训练3个月会怎样？

David Silver认为，这是一个人力和资源优先级的问题，如果训练3个月，我想你会问训练6个月会发生什么。为什么一开始选择用人类对局数据来训练AlphaGo，而不是通过自我对弈来从0开始？之前的AlphaGo瓶颈在哪里？

David Silver表示，创造一个完全自学的系统，一直是强化学习中的一个开放式问题，之前都非常不稳定，之后我们做了很多实验，发现AlphaGo Zero的算法是最有效率的。

DeepMind和Facebook几乎同时开始研究这一课题，为什么你们能达到这个水平？

David Silver说，Facebook更专注于监督学习，我们关注强化学习，是因为相信它最终会超越人类的知识，研究表明，仅使用监督学习能够获得令人惊讶的表现，但如果要远超人类水平，强化学习才是关键。

AlphaGo Zero是AlphaGo的最终版本吗？

David Silver：我们已经不再主动研究如何让AlphaGo变得更强，但我们仍然用它尝试新的想法。

AlphaGo有没有开源计划？

David Silver：我们在过去已经开源了许多代码，但AlphaGo始终是一个复杂的过程，它是一个非常复杂的代码。
以上是精选Q&A，全文请前往Reddit.com

背景阅读

谷歌子公司DeepMind日前发布了一款新版本的AlphaGo程序，它能通过自学玩转多种游戏，这套系统名为“AlphaGo Zero”，它通过一种名为“强化学习”的机器学习技术，可以在与自己游戏中吸取教训。仅三天时间，AlphaGo Zero自行掌握了围棋的下法，还发明了更好的棋步。这期间，除了被告知围棋的基本规则，它未获得人类的帮助。随着AlphaGo Zero被不断训练时，它开始在围棋游戏中学习先进的概念，并挑选出一些有利的位置和序列。

经过三天的训练，该系统能够击败AlphaGo Lee，后者是去年击败了韩国选手李世石（Lee Sedol）的DeepMind软件，胜率是100比0，经过大约40天的训练（约2900万场自玩游戏），AlphaGo Zero击败了AlphaGo Master(今年早些时候击败了世界冠军柯洁)。

网易智能

网易智能（公众号 smartman163），定位人工智能等前沿科技领域的垂直媒体及产品服务平台，面向人工智能等领域的从业者和关注者。运营栏目包括大型策划栏目《AI英雄》，行业研究与分析栏目《AI研究院》等，提供原生内容、新闻策划、数据报告、产品评测等服务。

IT思维

FEATURE TOPICS

最新文章

热门观点更多

人工智能将让无数职业过时，如何规划孩子的职业生涯

人工智能的黑暗秘密：如何让 AI 解释自身行为？

科技巨头间的人才争夺战，正从硅谷蔓延至全球

“AT”竞相追逐互联网保险大蛋糕，谁会站在资源优势的制高点？

腾讯 COO 任宇昕：国内信息安全投入不足 1%

“阿尔法狗之父”在线答疑新版本解决了哪些历史遗留问题？

发表留言 × 取消留言

思维客家族

友情链接