公众号/新智元
新智元报道
来源:incompleteideas
编辑:大明
【新智元导读】强化学习之父Richard S. Sutton认为,过去70年来AI研究的最大教训,就是我们过于依赖人类的既有知识,轻视了智能体本身的学习能力,将本该由智能体发挥自身作用“学习和搜索”变成了人类主导“记录和灌输”。未来这种现象应该改变,也必须改变。
近日,强化学习之父、加拿大计算机科学家Richard S. Sutton在其个人网站上发文,指出了过去70年来AI研究方面的苦涩教训:我们过于依靠人类知识了。
Sutton认为,过去70年来,AI研究走过的最大弯路,就是过于重视人类既有经验和知识,研究人员在训练AI模型时,往往想将人类知识灌输给智能体,而不是让智能体自己去探索。这实际上只是个记录的过程,并未实现真正的学习。
事实证明,这种基于人类知识的所谓”以人为本“的方法,并未收到很好的效果,尤其是在可用计算力迅猛增长的大背景下,在国际象棋、围棋、计算机视觉等热门领域,智能体本身已经可以自己完成”规模化搜索和学习“,取得的效果要远好于传统方法。
Sutton由此认为,过去的教训必须总结,未来的研究中,应该让AI智能体能够像我们一样自己去发现,而不是将我们发现的东西记下来,因为后者只会让我们更难以了解发现的过程究竟是怎样的。
以下为文章原文:
在过去70年中,人工智能研究中得出的一个最大教训是,通用化的方法最终往往是最有效的,而且能够大幅提升性能。造成这个结果的最终原因是摩尔定律,或者说,是摩尔定律总结出的计算力随时间的变化趋势。
大多数人工智能研究都有个假设前提,即智能体的可用计算力是一个不变的常量,也就是说,提升性能的方法可能就只有利用人类自己的知识了。但是,如果项目周期比一般情况较长时,一定会有丰富的计算力可以投入使用。从短期来看,研究人员可以利用自己掌握的相关领域的人类知识来换取性能提升,但从长远来看,唯一重要的还是计算力。
我们完全没有必要让这两者相互对立起来,但实际上,它们往往就是相互对立的。项目时间有限,把时间花在计算力上,就不能花在人类知识的利用上。研究人员在心理上往往会偏向某一种方式。人类知识方法往往使解决问题的方法变得复杂化,与利用利用计算力得出的通用化方法相比,适应性上不如前者。
不少AI研究人员用了很长时间才明白这个教训,所以我觉得这个问题值得单独拿出来讲一讲。
过去70年AI研究的深刻教训:靠人类知识,远不如靠智能体自己
1997年,IBM的计算机“深蓝”击败了世界冠军卡斯帕罗夫,“深蓝”的开发就是基于大规模的深度搜索。而当时,大多数计算机象棋研究人员采用的方法,都是利用人类对国际象棋特殊结构的理解。
当一个简单的、基于搜索的方法在专门的软硬件上显示出强大性能时,彼时基于人类知识的国际象棋研究人员沮丧地表示,这次“野蛮搜索“可能压倒了人类的经验和知识,取得了胜利,但这无论如何不是人们下棋的方式。这些研究人员一直希望基于“人类知识”的方法能够获胜,因为没有实现这一点,他们的失望溢于言表。
计算机围棋中也出现了类似的研究模式,不过比国际象棋迟来了20年。研究人员希望通过人类知识或棋局的独有特征,来避开大规模搜索,但所有这些努力都证明是用错了地方,而且,在搜索大规模应用之后,这种错误显得更加明显了。
同样重要的是,通过智能体的自我学习来学习价值功能。像大规模搜索一样,AI需要通过自对弈和通用学习来提升性能,实现大规模的计算应用。
搜索和学习是在AI研究中利用计算力的两种最重要的技术。在计算机围棋中,研究人员最初的方向也是利用人类知识,搜索用的比较少,很长时间以后,才通过搜索和学习获得了更大的成功。
在语音识别方面,早期的研究利用了一系列基于人类知识的专门方法:词汇、音素、人类声道知识等。而比较新的方法更偏向统计性,并且计算量更大,基于隐马尔可夫模型(HMM)。与国际象棋和围棋一样,在语音识别领域,同样是统计方法战胜了基于人类知识的方法。这导致所有NLP研究在近几十年内发生了重大变化,统计和计算在这一领域占据了主导地位。最近的语音识别领域中,深度学习的兴起是这个趋势的最新体现。
深度学习方法对人类知识的依赖更少,应用了更多的计算,以及对大量训练集的学习,生成性能更高语音识别系统。和棋类对弈一样,研究人员一开始总是想让系统按照人类的思维的方式运作,试图将人类知识放输入系统,但事实证明,最终是适得其反,而且极大地浪费了研究人员的时间。随着计算力的迅速增长,研究人员也找到了能够高效利用计算力的方式。
在计算机视觉领域也是如此,早期研究将“视觉”设想为搜索的边缘或广义圆柱体。但今天这一切都被抛弃了。现代深度学习神经网络仅使用卷积和某些不变性的概念,并且表现得更好。
这是一个很大的教训。我们仍然没有完全理解这个领域,因为我们会继续犯下同样的错误。要看到这一点,并从中总结教训,即建立我们认为理解自身思考方式的体系,从长远来看解决不了问题,AI研究从重“人类知识”到重“计算和搜索”的演进过程,已经证明了这一点。
回顾过去,我们可以总结出下面几点认识:
对于AI研究而言,最终的成功可能反而会充满了苦涩,很多人往往理解不了,因为它战胜的是“以人为本”的老方法。
要让智能体自己去搜索和发现,而不是靠人类
通用方法具备强大功能,即使可用计算力已经非常强大,我们仍然可以通过增加计算力来扩展的方法。而基于计算力的搜索和学习可以按照这一方向任意扩展下去。
第二个教训是,人类思维的实际内容的复杂程度是无可比拟的,我们不应该在尝试寻找关于思维内容的简单方法,如对空间、对象,多智能体或对称性的思维内容的简单方法。
所有这些在本质上都是复杂的外部世界的一部分,它们的复杂性是无穷无尽的,我们应该集中精力构建可以找到并捕获这种任意复杂性的”元方法“。构建这种“元方法”的关键在于,智能体能够找到很好的近似结果,但是具体执行搜索、进行发现的应该是智能体自己,而不是我们。我们希望AI智能体能够像我们一样自己去发现,而不是将我们发现的东西记下来,因为后者只会让我们更难以了解发现的过程究竟是怎样的。
作者简介:
Richard S Sutton是加拿大计算机科学家,阿尔伯塔大学计算机科学教授和iCORE主席。 他被认为是现代计算强化学习的创始人之一,在时间差异学习和政策梯度方法方面,对该领域做出了重要贡献。
参考链接:
http://www.incompleteideas.net/IncIdeas/BitterLesson.html