这是一次彻底认识人工智能的机会。很荣幸地采访到了原谷歌大脑创建人、现任百度首席科学家吴恩达,以及科大讯飞研究院院长吴郁。
陈庆春/文
这并不是科幻小说。今年初,瑞士的一个研发团队“!Mediengruppe Bitnik”发明了一个自动化网络购物机器人程序,并将其安装在一个机器人身上,称为“随机暗网购物者”,该研发团队要求机器人每周从在线市场随机购买商品,于是就发生了以上的测试结果。机器人确实也被警察带走了。
好的应用是,如果你的冰箱装了这一程序,它可以按时给你订购牛奶,甚至还可以联合其他冰箱一起弄个团购价回来。节省下来的钱,它可能不告诉你,偷偷存到银行或买理财产品。然后,有一天,你发现你的冰箱已经比你富有了。
这就是人工智能(Artificial Intelligence,缩写为AI)在今天和不远的未来能做的事情。当下较为普遍的人工智能定义是:利用计算机程序的方式,自动完成人类可以完成的功能。
百度首席科学家吴恩达在接受《财经》记者采访时表示,人工智能发展50多年来,已经无处不在了,最近一两年取得了突飞猛进的进步,一是得益于为计算机提供的数据量越来越大,二是因为计算机的运算速度越来越快。
根据摩尔定律,计算能力每18个月翻一番,计算机容量和功能亦是如此。目前一部普通智能手机的能力都已超过了30年前功能最强大的计算机。美国科学家雷·库兹韦尔(Ray Kurzweil)预言,到2019年,售价4000美元的计算机的计算能力将会超过人脑,即每秒20 quadrillion(千的五次方)次计算。
谷歌完全无人驾驶车正等待美国加利福尼亚州的批准,一旦获准便可马上路测。这辆车装有可拆卸的方向盘、油门踏板以及刹车踏板,但只是用以应急而非必需。在真正的原型车中,则完全没有这三样东西。
曾在谷歌担任建立“谷歌大脑”重任的吴恩达评价称,过去几年里,计算机视觉获得了大大的进步,开始区分事物,识别出各种图片间十分微妙的差别,甚至有人已经着手研究让计算机识别漂亮的图片与不漂亮的图片,这就自然给自动驾驶汽车带来了激动人心的发展提升。百度无人驾驶汽车也已落地。
自动驾驶汽车技术包含几个关键技术:精确的地图定位、图像识别、语音识别、基于感知的雷达、红外形成自动导航,然后再进行模式识别,根据路上的情况不断优化模型,即大闭环优化。
科大讯飞高级副总裁、讯飞研究院院长胡郁在接受《财经》记者采访时表示,自动驾驶是人工智能最好的功能应用之一,“人工智能有三个条件:第一先进的算法,比如神经元网络,第二大量的数据,第三大闭环优化模型”。自动驾驶汽车中的地图定位、图像识别等都需要借助先进的算法,同时产生大量的数据,最后在优化中让机器自己不断学会完全的无人驾驶。
整个过程在科学界亦称之为“机器学习”。吴恩达认为,机器学习是人工智能的一个重要分支,而机器决策、策划、不确定性推理则是下一个阶段。他将机器学习比喻成一枚火箭,人工神经元网络是发动机、大数据是燃料。
最近几年在移动互联网及智能硬件的带动下,大数据的膨胀已不言自明。Facebook称今年元旦一天上传图片量就达7.5亿张。百度今年一季度财报显示,仅百度LBS开放平台每天响应来自第三方的定位请求就超过110亿次。
与此同时,人工神经元网络也取得了飞速的发展,这其中又包含两个方面的技术:第一硬件,过去服务器用的是CPU,现在用GPU(Graphics Processing Unit,图形处理器),后者比前者至少快14倍,世界上最快的中国“天河二号”超级计算机用的就是CPU+GPU的模式;第二过去神经元网络都是单层结构,现在不仅变成多层,还出现了多种计算方式,比如RNN(Recurrent neural Network,多层反馈神经网络)、DNN(Deep neural network,深度神经网络)、CNN(Cellular neural network,细胞神经网络,又称卷积神经网络)。
单层神经网络只能获得几百个神经元,而多层金字塔式结构则可达到十几亿神经元的规模,能更好地模拟大脑。每一层会记录不同的类别特征,比如“猫”的特点会装入到一层之中,相当于打上标签。顶层用来输入信息,比如照相机捕捉到一只猫,机器收到信息就开始在每层查找匹配,最终输出信息告诉你“这是一只猫”。
科技更加进步的地方在于,以前,科学家们告诉计算机“猫脸”的几个特征标签,计算机“按标索猫”,但是现在,科学家们改用无监督学习方式,只给机器查找的方法,让它自己去找,查找的过程又会生成数据,影响它下次的查找行为。
谷歌无人驾驶汽车用的便是RNN神经网络,它赋予了计算机逻辑推理的能力,让它可以用一句话对画面进行简单描述(看图说话),这样计算机便具备了用有逻辑的语言描述图片中不同事物的能力。至此,拥有依靠概念为原点进行推理能力的机器人,比只会识别的机器人又迈上了一个更高的台阶。
雅虎则利用CNN神经网络,可以从宽泛的角度来识别人脸,即使部分被遮挡住了,而且它可以相当精确地从相同的图片中识别出多张脸。雅虎团队把这种方法称为深度密集人脸检测器。当然其背后是庞大的数据,包括脸部不同角度和方位的20万张图片和近2000万张无脸的图片,然后用128张图片5万次循环来训练神经网络。
微软5月份上线的How-old.net与此有异曲同工之妙,即:上传图片,机器检测到人脸,并给出年龄的大小。虽然准确率很低,但是其功能应用更进一步,也起到了收集数据的作用。
微软此前已称,为语音助手Cortana开发的物体识别软件能够告诉用户彭布罗克威尔士柯基犬和卡迪根威尔士柯基犬的区别。如果你对犬类有了解,就知道这两个家伙长得是多么的像。如果它还能告诉你每一只的实际年龄,那是不是很奇妙?
不只是雅虎、微软,Facebook脸部识别率的精确度达到97.25%,国内百度LFW测试中曾跑出99.85%的国际最高分。
胡郁称,在机器学习领域的算法,国内外技术水平不相上下,“谷歌的看图说话能力很强,但我觉得这并没有讯飞高考机器人难度大。只不过两者专注的领域不同”。据胡郁介绍,大多数省市的中考、高考英语口语考试,都已由讯飞高考机器人作为主考官来完成,接下来文字考试的判卷工作也将由讯飞考试机器人完成,目前正在英语四六级考试中做部分推广。
教育考试、无人驾驶、图像识别、语音识别、即时翻译、工业和家居机器人等等人工智能产品,无不是神经元网络与大数据飞速进步的产物。
但是,这些进步都只仅限于一种功能,到目前为止,人类还没有发明一个具备五官感觉功能的机器人。
2014年11月,意法半导体在日本展示了一个人形机器人iCub,这个看起来跟一个4岁孩子差不多大小的机器人,外观精准、动作温柔,刚开始它并不会抓一只摆在桌上的毛绒玩偶,工作人员便指导它如何去抓,它不仅学会了,竟然还会轻轻地爱抚玩偶。iCub已经意识到自己的身体以及它如何和世界互动,这类似于婴儿学习够拿物件的过程。
2014年5月,在加利福尼亚州举办的会议上,微软展示了一款可以实时语音翻译的人工智能程序,一名研究人员用英语与一名德国的同事通话。
2014年1月,谷歌斥资4亿英镑收购了位于伦敦的Deepmind人工智能公司。Deepmind最擅长的是,能够让计算机学会49种不同的电子游戏。而且在超过半数的游戏中,计算机熟练到可以击败一个专业的人类玩家。
这看上去是三个级别的人工智能技术,但实际上都是专注实现一种功能,iCub做的是感官反馈功能,即时翻译做的是翻译功能,Deepmind就是打游戏功能。同样都是输入与输出,涉及复杂的计算。
吴恩达说,“自动驾驶汽车也是单一功能机器人,就是开着车带着你到处转。”“因此近期来看,未来一两代机器人的发展还将沿袭针对解决某种问题而设计的模式。”
工业机器人是单一功能人工智能的最好诠释。1959年,第一个工业型机器人被安装于瑞典的一个金属制品工厂。它是一个有关节的,能运转的手臂,重达2吨。通过磁鼓上的程序控制,机器人可依赖液压缸调整机械臂的位置,到达一系列预设好的角度。
目前,超1300万的工业型机器人在各行各业投入使用,包括汽车、电子产品、橡胶和塑料、化妆品、医药、食品和饮料。它们的市场价值达95亿美元。
吴恩达说:“现在的机器人之所以能取得成功,显然是因为工业化应用,科幻小说中说的那种什么都能做的泛用型机器人,现在几乎不可能造得出来。”
他觉得现在能够期待的是,对着手机说:“帮我叫辆车带我去机场”,然后就能如愿以偿。具有强大语音交互能力的机器已可期。他认为,人工智能下一个将要开启的就是,语音交互时代。
在十多年间,人机交互发生了两次突破:PC和鼠标的诞生、触屏操作和语音交互问世。其中最后两个都是在近十年发生的。特别是语音交互,它意味着计算机拥有了“听觉”并能给出正确的反馈。语音交互的实现解放了人类的双手,将促进人类生产力的巨大飞跃。
位于美国马萨诸塞州的Kensho公司,正在设计一套能够描述自然语言的查询搜索,比如“当原油价格每桶降低5美元,汽车企业的股价将会如何变化”?系统就会去查找公司财报和上市文件、历史市场数据等,并在几秒内以自然语言的形式作出回复。
5月5日美国发布的一份报告,展示了美国的侦探是如何使用语音识别软件来将语音通话转化成文本的,这样他们就能更好地对谈话内容进行搜索。
最贴近普通用户使用的是,应用软件的语音搜索。百度称,其有10%的搜索是通过语音进行,并预计到2020年会提升到50%。去年底,百度还宣布,其研发出了全新语音识别系统Deep Speech,准确率超过了谷歌和苹果的产品。
胡郁亦认为,机器不能理解语言,就不能形成知识、对知识进行处理,就不能进行逻辑推理。机器需要一场认知革命,正如人类在7万年前开始掌握语言一样。
吴恩达认为,当语音识别准确率达到99%时(百度目前为96%),人与机器的交互就将发生彻底改变。他与胡郁均向《财经》记者表示,这并不难实现。
今年初百度流出的“百度神灯”手机视频,较好地展现了语音交互时代。借用全息显示技术,用户只需要对手机说出自己的需求,比如怎么做一道菜,手机便会立即在屏幕上方投影出如真实场景的真人教学影像,用两个手指轻轻划开,影像就会变大。
这并不意味着机器掌握了语言,交互只是理解语言的开始。一般认为,人工智能分为三个阶段:计算智能、感知智能、认知智能。从感知飞跃至认知智能,目前人类还没有好的方法。但感知智能已被大面积商业化,在使用的过程中,机器会不断进步。
Facebook今年初已将深度人脸(DeepFace)算法,用于筛检不雅照片和视频,并且对暴力内容的视频和照片进行了分类,还添加了警示功能。从这个角度来说,淘宝平台亦可通过对产品照片的扫描来筛查正品与假货。
Google和百度将人工智能技术放在了如何精准投放在线广告、推送新闻上面,比如百度的凤巢系统。
亚马逊的拣货机器人,则早已蜚声国际。去年夏天投入使用,在加州特雷西占地120平方尺的仓库,拣货员只要站在原地等候,机器人就会把4尺宽、6尺长的货架移过来,一天下来可少走多达20公里的路。这让他们每小时可挑拣、扫描至少300项货品,数量是用老方法拣货的三倍。
IBM正在与合作伙伴密切合作,以支持其利用沃森的动态学习和云计算能力开发应用。1997年,IBM研发的计算机“深蓝”(Deep Blue)战胜了国际象棋冠军卡斯帕罗夫;2011年,这家公司以创始人Thomas J. Watson(沃森)名字命名的计算机,继续着对人类智能极限的挑战;2014年1月,IBM花费10亿美元成立沃森集团,目的就是要把沃森技术推向市场。
最大规模的沃森应用现存于医疗行业。沃森可将大量动态复杂的文本信息(如不断发生变化的医学文献)与另一组动态复杂的文本信息(如病历或基因组数据)结合起来,从而生成并且评估假设条件。克利夫兰医疗中心等许多知名的大学医学中心都与IBM建立了合作,共同开发适当的系统,帮助医疗运营商更好地了解病患情况并推荐个性化治疗方案。
荷兰埃因霍温大学的RoboEarth项目同样颇受关注。该项目的四个机器人在医院里相互协作来照顾病人,与其他看护机器人不同的是,它们可以通过云端服务器进行信息共享和学习,也就是说,一个机器人学会的知识和技能,通过云端分享,瞬间可以“教”会其他机器人。这个技术一旦成熟,一系列智能高效的护理机器人将被迅速复制出来。
就像科幻小说一样,机器人真的来抢人类的工作了。
2013年9月,两位牛津学者——Carl Benedikt Frey和Michael Osborne,就发布了一篇研究报告,该报告预测在未来20年内,美国将有约50%的工作岗位因机器人而消失。根据两位的计算,在今后的二十几年内,50%的编程工作也会外包给机器人。
失去工作还只是影响之一,机器的进步给人类带来的更大威胁是,消灭人类。去年10月,在美国MIT的一次公开访谈上,特斯拉创始人马斯克称人工智能就是“召唤恶魔”,很多科学家对此表示了认同,并将超级智能作为人类的重大威胁,与小星球冲撞地球和大规模的核战争并列。
过去一年人工智能的高歌猛进,确实让很多科学家为之兴奋不已,雷·库兹韦尔(Ray Kurzweil)亦曾发出乐观的预言:机器智能超越人类智能总和的那个奇妙“奇点”,就在2045年。
不过,吴恩达与胡郁均向《财经》记者表示,不必为机器的进步过分焦虑。
现在,每位驾驶员在每次航班上平均只驾驶3分钟的飞机,但飞行员并没有被取代,就像ATM机并未取代银行柜员一样。恰恰相反,因为银行支行需要的柜员减少,银行便开设更多支行,而银行柜员的总数增加。
科技一边接手一些任务,一边也增加了对商品和服务的需求,因此也需要更多执行剩余任务的人力。一项统计表明,在过去30年中,计算机在办公室文职工作里被广泛应用,而工作岗位却每年增加1.2%。
因此,人类仍然为拥有更聪明的人工智能技术而不吝千金。2014年,百度在研发投入上共计花费69.81亿元,讯飞的研发投入占销售收入的比例也高达30%-40%。然而,这与一年投入106亿美元、104亿美元、80亿美元的Intel、微软、谷歌,以及一个季度花掉10.6亿美元研发经费的Facebook相比,并不算什么。
吴恩达说,人工智能的进步速度与投入是极度相关的,中国在这方面需要增加投入。胡郁亦表示,“并不是别人不会做,而是别人没这个条件做这个事情。”这个条件,一是指数据规模,二是指资本投入。