IT思维

文章页右侧顶部广告

AI 英雄 | 对话微软黄学东:语音交互的技术前景到底是怎样的?

内容由 网易智能(微信公众号:smartman163) 授权IT思维网发布

作者 | 小羿

本文系《AI英雄》栏目出品,每周围绕人工智能领域讲述一个人物故事,深入洞察技术发展趋势,捕捉“智能+”市场机会,关注人的价值与行业背后的故事。栏目隶属网易智能工作室(公众号:smartman163),每周四更新。

本期讲述人物为IEEE/ACM双科院士、微软公司语音识别领域的领军人物黄学东博士,他如何看待语音交互技术的发展?又如何诠释微软在人工智能时代的技术路线?听听他怎么说!

在微软众多的技术大咖中,黄学东是最有激情的一位。

有人说,他在用技术改变世界。

作为IEEE/ACM双科院士、语音识别领域的技术大咖,2016年他被美国《连线》杂志评选为全球创造未来商业的25位大牛天才之一。今年2月,黄学东当选微软全球技术院士,这代表着微软技术人员的最高荣誉,也进一步奠定了他在微软的技术领袖地位。

作为语音领域的权威专家,黄学东深信“对话即平台”,“语音交互的发展是一个自然的过程,这是因为语音交互是一个无需触碰设备即可完成的体验,它可以让人摆脱设备的枷锁。”黄学东说到。

黄学东同时表示,高计算量、噪音问题、理解力三个问题,限制了语音交互在实际应用场景中的效果。虽然如此,但是语音交互毕竟已经可以落地并产生了商业化应用,“机器听懂人话”这个目标已经基本实现。

加入微软24年,黄学东目前领导着微软在美国、中国、德国、埃及、以色列的团队研发,包含语音识别及合成,微软企业人工智能客服对话解决方案、cris.ai以及luis.ai等认知服务、CNTK开源深度学习工具等人工智能产品和技术。

在黄学东看来,语义理解是语音交互中最难攻克的问题之一。他指出,这是因为语音理解方面的标记非常少,而且也没有公认的标准,所以要通过非监督式学习来攻克这个困难,但是非监督式学习目前还在探索阶段,亟待突破。这也导致了机器无法学习知识,也没有理解能力,陷入了“鸡和蛋”的问题中。

“认知方面的突破,现在还不知道猴年马月。”黄学东坦言。

对人工智能今年落地发展,黄学东称非常期待能够看到在金融、医疗、保险、招聘等领域的垂直深度应用。

而微软在人工智能的布局上,用黄学东的话来说,我们的人工智能是为了帮助人们做到更好,而不是与人竞争。在技术上,微软有与谷歌TensorFlow想匹敌的人工智能开源开发工具CNTK,以及提供全部人工智能技术的Azure云。在业务上,微软现在有三款聊天机器人,主打情感计算的小冰、主打商务助理得小娜,还有在垂直领域的深度应用智能客服。另外,在神经网路翻译领域,黄学东称Microsoft Translator已经超过Google Translate。

对于亚马逊Echo的火热,黄学东称微软有更大的战略。“我们把微软过去几十年做的人工智能方面的研发集成到Azure云上去,Azure云支持IoT、Bot Framework,第三方如果想要用微软的人工智能技术,已经可以通过Bot Framework、Azure IoT等来做。”

根据黄学东的解释,Azure云可以实现更多的事情,像语音识别、语言理解、机器翻译、语音合成,远远超出亚马逊Alex。

可以说,Azure云承载了微软布局人工智能布局的最大野心。不过,业内很多人并不知道微软提供了如此强大的功能。

“微软在人工智能时代一定能够王者归来。”黄学东自信地表示。

以下根据黄学东问答实录整理,网易智能(公众号Smartman163)做了不改动原意的删减:

机器能听懂人话,

但价格、噪音、理解力限制了实际效果


网易智能:您是语音识别方面的顶尖研究者,由于人工智能的应用,语音识别的准确度不断提高,但是我看到在一些实际的应用场景中,比如说客服,我们在打电话的时候,还是会有受到环境的一些影响,实际的效果并没有那么好。所以我想请教您,语音识别往下发展的时候,如何克服环境噪音,在具体的会话语境中提升准确率?

黄学东:人工智能领域基本包括了两大块,一块是感知,包括语音识别、图象识别等;另外一块是认知,包括自然语言理解、推理、知识表达等。人工智能在过去几年来看,因为深度学习的进步,在感知这个领域突飞猛进是非常令人振奋的,首先是微软研究院两年前第一次在图像有重大突破,基本上改写了我们对计算机视觉能做事情的认知。

去年,微软在语音识别再一次突破,达到人的水平,这个实际上是在会话语音。电话会话语音其实有很传统的公开的数据,这是美国政府在90年代中期就开始进行这样的研究,当时错误率高达80%以上,通过20多年的努力,因为深度学习的进步,微软是第一次在这个数据集上,达到和人一样的水平,甚至超过人的水平,所以这是非常了不起,振奋人心的历史性的进步。

但是这个是在电话,不是远场的情况下做的。在实际应用中有几点问题,第一个是计算成本,微软达到这个水平的时候,计算量要求比较高,要求十个神经网络同时在工作。但是通常我们的上线的产品,只有一个(神经网络)在工作,所以我们现在正在使用的技术并不是微软能达到人的水准的技术,因为计算需求太高。不过往前看,随着计算会越来越快,越来越先进,这个问题早晚会解决。

第二,在特别噪音的环境下,人比较鲁棒,计算机还没有达到人的鲁棒性水平,因为这个系统基本上还是在打电话。第三,尽管识别达不到人的水平,但是人的理解还是非常强大的,错两个字没关系,但是意思能懂,计算机尽管在识别,每个字超过了人的水平,但是领会这个意思还差得很远,这就是人工智能认知水平和人的水平的差别。这不是五年、十年的区别,短期内很难解决。这也是人工智能语音识别方面,很大的一个现状,理解还有距离,原厂和噪音环境还有距离。

尽管有这几点问题,但是我们的进步也很大,所以它离实用化基本上已经不是问题了,所以今年年初,《经济学人》、《封面》杂志等都在讲机器终于能听懂人的讲话了。20多年前,我们当时的口号是让语音识别走向主流,到今天机器可以听懂人讲话,可以说我们这个目标已经实现了。

网易智能:您的意思是在具体应用上还有一些困难,但是基本上技术已经达到了这个水平?

黄学东:具体应用主要是理解的问题,因为不同的场景需要有很多相关知识,从知识应用到理解,这是最大的距离。而用语音识别出每个字不是主要的挑战,但是要做到在噪音或远场的环境下识别,这个挑战还是蛮大的。语音、手势、计算机视觉有非常强大的功能,你看过去几十年计算的进步,从大型计算机到PC,再到手机,人一定要去触碰到这个设备,才能达到计算的目的。语音和计算机视觉,也就是麦克风和相机,两者合起来就可以让人解放到不需要触碰设备,这是一个很大的飞跃。你看亚马逊的Echo现在做的那么火,就是因为你可以随时随地交互,甚至是远场控制,获得你想要的信息。

今后如果计算机视觉和听觉合起来,通过手势演进和云的交互,这些相结合,你可以不让人受到设备的枷锁,砍掉这个枷锁,对计算的进步是下一次新的飞跃。而且这个飞跃,背后我们有人工智能的强力支持,所以计算的未来会越来越美好。

网易智能:还有一个问题,之前网易智能采访洪小文博士,他提到一个“鸡尾酒会效应”,就是人在和一群人聊天的时候,我想听到某一个人说的话,我就能自动过滤到其他人。如果让语音识别技术去解决的话,您觉得是理解的问题还是噪音的问题?

黄学东:这是一个麦克风阵列的问题,麦克风阵列如果能做的很好,可以识别到某一个方向,除非两个人在同一个位置讲话,你也可以通过blind source这样的核心技术来分解,这个问题我觉得是都可以解的。

语义理解要靠非监督式学习,

知识和理解是最难的“鸡和蛋”的问题


网易智能:刚才您说到理解是最大的挑战,目前在自然语言处理和认知这块,您觉得最大的困难是什么,能不能结合现在微软的一些研究,提出一些建议?

黄学东:机器学习是人工智能过去几年进步最大的动力,尤其是深度学习,但深度学习要求的数据量也很高,而且需要最好是有标记的数据。我们讲的监督式学习,不管是机器翻译、语音识别,还是图像识别,因为有很好的标记,所以这个问题是很好定义的,比较容易实现。而语义理解这方面标记的数据非常少,目前这个标记本身也没有一个公认的标准,所以要通过非监督式学习,来理解这个语言,目前非监督式学习还在探索阶段,这是最主要的问题之一。

第二个问题,人在理解文本的时候需要知识,你没有知识,看了一个东西还是似懂非懂。然后,人获取知识,是需要有理解的能力,这两者就是一个鸡和蛋的问题,错综复杂。现在机器没有知识,所以它对理解语言有障碍,然后又因为没有阅读的能力,所以不能获取知识。

第三个问题,现在深度学习,连续的信号比较强大。语言这个东西,每个字是一个人造的形态,其实它对人造形态这样的,对字的处理,除非机器翻译这样相对定义的比较好的东西,给映射到到连续空间去。对理解首先第一他是没有非常定义好的标准,第二理解需要知识,知识需要理解,他是互相依赖的。因为那么复杂的关系,所以认知方面的突破,现在还不知道猴年马月。

这方面没有突破口,而且我也不知道什么时候有突破口。

网易智能:现在我看很多人在做知识图谱这个方面,是希望把这个,通过知识图谱的形式,然后让去推动语音语意理解这个方面的研究。

黄学东:这个在20世纪70年代就很多人做,在人工智能的第一个冬天之前,大家都做知识图谱,但是没有结果,这是一个非常难的问题。

 

微软有三个聊天机器人:

除了小冰、小娜,还有不为人知的智能客服


网易智能:另外一个,情感计算,现在大家也都在说这个情感计算,小冰也在做情感计算,也算是第一个做EQ这种方面的东西,这个方面也需要理解是不是,你们是怎么做的?

黄学东:微软在这个方面做了很多开创性的工作。这个情感,我觉得是比认知更高的一个形式,当然你可以说是感知、认知到情感计算,从人的交流的角度讲,这也是最高阶的阶段,所以这个挑战非常大,情感计算要做的好,一定要有认知的能力。你没有认知的能力,那怎么能情感的沟通呢。所以我们现在可以说,人工智能在感知是有很大的突破,达到人的水平不是问题。认知有很大的挑战,我也不知道什么时候能突破。那个情感挑战更大。但是更大的问题是我们要不要去做,因为难,我们才要去做。

情感计算最好的代表是我们的小冰,从语音识别到图形识别,微软都达到人的水平。我觉得从知识图谱到Bing搜索,实际上是一个认知的很好的代表。还有我们在微软客服方面,现在也有一个聊天机器人。现在微软有三个聊天机器人,一个是小冰,这个是情感计算的代表;一个是小娜,这个是通用的商务应用的一个代表;另外一个是智能客服,这个是有特定性的对商务的产品客服提供了深度的强有力的会话知识,这是一个商务AI的最好的代表,这三个都是微软在人工智能方面的一些探索。

智能客服对知识的深度要求很高,它是很垂直的。所以我们在垂直领域,也用了深度学习、增强学习的方法,来制造客服聊天机器人。

 

Azure云集成了所有的AI能力,

不会局限在单一的助手上


网易智能:您刚才提到了Alex,亚马逊将这个语音助手开放给第三方使用,在今年的CES上十分火热。其实小冰完全有这样一个能力,集成在第三方的服务、应用、硬件产品上,为什么小冰和小娜没有这样做?

黄学东:我们是在用另一种方式做这件事情。事实上,我们把微软过去几十年做的人工智能方面的研发集成到Azure云上去,Azure云支持IoT、Bot Framework,第三方如果想要用微软的人工智能技术,已经可以通过Bot Framework、Azure IoT等来做。现在大家并不一定知道微软提供了这么强大的功能,我们并不是限制在一定要做小娜这件事情上,Azure云可以实现更多的事情,像语音识别、语言理解、机器翻译、语音合成,这些都在Azure这个云上可以实现。

Alex确实做得不错,它的Speaker和远场做得非常好,但是它的局限性是只有语音式的对话。小冰和小娜在Windows上面已经有Alex所有的功能,比如我现在把我的PC打开,我可以说“Hi,Cortana”。微软基于PC为中心,已经服务了很多用户。小娜是一个助手,它跟Office的整合,可以随叫随到;它和Bing整合也非常紧密,有很多问题通过BIng搜索就能得到回答。我认为把小娜在PC的前端,未来PC可能也会Always on(实时在线),也能通过“Hi,Cortana”来唤醒。

现在PC上做,使用场景和使用率都不能算主流,主要有几个问题,一个是PC的麦克风阵列不是主流,所以他对远场的功能比较弱;二是PC不能通过“Hi,Cortana”来唤醒,你要用还得先打开。不过这些事情都是可以解决的,我对PC为中心的小娜还是非常看好的。

网易智能:现在中国很多人工智能企业开始做集成语音芯片,智能音箱通过集成Speach、麦克风阵列的芯片,达到进入智能家居的目的,您怎么看,这是未来的一个趋势吗?

黄学东:我觉得集成麦克风阵列的功能到芯片,对于语音的入口是非常有意义的。但是强大的语音识别,还是要通过云才能达到,如果是某一个小特定环境的声控,这个不是问题。所以具体要看应用场景是什么,今后终端和云的紧密的配合,一定是大方向。

 

微软PK谷歌:CNTK PK TensorFlow

Microsoft Translator PK Google Translate


网易智能:您之前在很多场合提过,现在微软的人工智能架构,包括云、应用、服务等,都用到了您多年开发的工具CNTK,想请教您,CNTK这个开源工具在微软的AI产品里是怎样一个角色?

黄学东:CNTK是起了一个非常重要的幕后英雄的角色。微软不管是语音识别,还是计算机视觉,还是智能客服,深度学习的工具都是基于CNTK的,微软内部有一个很大规模的集群的GPU学习平台,超过80%以上的内部大规模的深度学习都是基于CNTK去做的。

CNTK是微软内部的一个深度学习工具,TensorFlow是谷歌内部一个深度学习工具,两者最大区别就是CNTK的分布式计算速度比TensorFlow在典型的work load(工作负载)的下面要快三到四倍左右。CNTK完全开源,虽然受欢迎程度不及谷歌的TensorFlow,但CNTK有自己的特点和优势。

CNTK完全开源,其实中国有一些公司已经在用。其中有一家创业公司叫做Airdoc,他们把眼底照下来,基于CNTK提供的工具进行技术分析,可以预测糖尿病,这个方案已经落地应用了。

网易智能:谷歌和微软近期都升级了各自的神经网络翻译,网易新闻也在跟国外一些外国媒体去合作尝试做新闻机器翻译,但是我们看到有些问题,比如必须针对不同的领域做不同的优化,比如说财经股票、科技、体育,这些不同的类别需要分别优化。我想问的问题是,您认为跨领域的机器翻译该如何突破?

黄学东:人工智能需要大量数据,如果你的数据是来自某一个领域,它在这个领域的表现会比较好。微软早就意识到这个问题,如果是一个新的领域,你可以把自己的数据拿上来,我们可以为你量身定制一个语音识别系统,定制版会比通用的系统好很多。微软目前有这样一个服务,叫做cris.ai,属于Azure云上的一部分。cris.ai虽然没有在中国落地,但在北美已经是公开服务。机器翻译和这个问题的解决方式是一样的。另外我的团队还做了一个叫做luis.ai的方案。

像微软的机器翻译,优点是对企业级的应用做得非常好,Microsoft Translator在中英文已经超越Google Translate。微软是有很多先进技术的,只是我们没有把那个故事讲透。目前,微软和谷歌的神经机器翻译都取得了很大的进步,但是大家都知道谷歌,其实微软在中文英文翻译的比较上已经超越谷歌,而且Microsoft Translator支持60种语言。

 

微软在人工智能大潮流下一定会“王者归来”


网易智能:之前在PC的时候我们用键盘鼠标交互,在移动互联网的时候用手机触摸交互,在人工智能的时候可能是会话交互,也就是说未来对话式交互会成为主流。如果我们想用对话式的交互替代掉手机触摸成为主流,我们现在还有哪些问题,您觉得多少年以后会实现?

黄学东:可以说微软在PC时代是领军人物,而移动计算时代安卓、iOS起到了领导作用,下一个风口一定是人工智能,微软在人工智能的积累超过了30年,我觉得微软在人工智能这个新的大潮流下一定会王者归来。因为对话就是平台,微软已经在领导这个潮流,Bot Framework是领先其他大公司的。我们的小冰、小娜和智能客服都是领军角色,这都是基于微软在人工智能里面深厚的积累。

像智能客服这样的大规模的商业应用,马上就可以起来了,微软已经开始做智能客服。微软有Windows,有Office,有Azure,这些都是技术程度非常深刻的一些产品线,产品复杂度和多样性远远超于大部分其他公司。毫不夸张地讲,微软的智能产品客服是最有挑战性的。但是,微软的人工智能是为了帮助人们做到更好,而不是与人竞争。

从深度来讲,微软智能客服已经能帮助我们的客户解决很多的问题,它可以通过几轮对话了解你到底想问什么东西,然后提供具体的解决方案,这是智能对话的标杆性应用。它在微软北美网站上已上线服务,已经可以回答微软产品有关任何问题,这个没有垂直的整合是很难做到的。微软智能客服绝对是这个领域的领导者。从广度来讲,小冰的应用在情感联系方面迎合了很多年轻人,小娜已经整合到Windows10当中。不管是从深度还是广度上来讲,微软都有可以立足的产品。

 

中美都有很好的AI生态环境,

没人能正确预测未来


网易智能:您怎么看待中美之间的技术的差异?

黄学东:像微软这样的跨国公司,我们在中国和美国的技术完全是同步的,从微软这个公司来看,中美完全在同一个起跑线,但是中国其他公司做的产品是什么样,我本人也不了解,不好妄议。

我觉得中国人才济济,而且数据量很大,这一点是对人工智能生态系统非常好的一个环境。因为人工智能要发展,第一要有数据,第二要有计算,第三要有算法,在中国这样的生态环境里面,人才、数据、计算都存在,所以这个对AI健康发展是很有意义。

网易智能:大家经常谈人工智能第三次浪潮,您觉得这波浪潮如何才能落地,未来还会不会冷却?

黄学东:感知方面的突破已经让很多应用可以落地,像小娜的应用;语音控制、图形识别上也有很多实际的应用。认知方面,我觉得微软智能客服是一个很好的例子,这个是大规模商业应用,有非常大的经济效应。但是目前它只是在某一个特定领域,要跨领域的认知服务,我觉得我真说不准什么时候有大的突破。而跨领域、跨平台的认知服务,最好的案例,应该是搜索引擎,你不管搜什么东西,都能拿出答案,但是他没有真正理解这个问题。跨平台的强人工智能任务艰巨,大家不要太急躁,这个是一个慢工细活。

这波浪潮会不会冷却,要看我们是怎么对待人工智能的突破?我觉得感知这方面是非常实实在在的,它已经达到人的水平,这本身意义就非常大。认知方面,在某一个特定领域,或者是在很宽的领域,是比较肤浅的理解,它已经给千千万万的用户,带来很多实际的效应。而深度上,比如微软智能客服可以给商业应用带来实实在在的利益。

没有人能正确的预测未来,我们只要踏踏实实做好人工智能应用,这就足够激动人心了。

网易智能:您对今年人工智能市场有什么期待?

黄学东:我觉得像微软人工智能客服这样的案例,在下一个很深的领域,像金融、医疗、保险、招聘等领域的应用是完全有可能的。其实IBM的Watson也在做同样的事情,他们也是在垂直领域做比较深,但是不是很广。

关注网易智能菌公众号(smartman163),获取人工智能行业分析与深度报告

网易智能

网易智能(公众号 smartman163),定位人工智能等前沿科技领域的垂直媒体及产品服务平台,面向人工智能等领域的从业者和关注者。运营栏目包括大型策划栏目《AI英雄》,行业研究与分析栏目《AI研究院》等,提供原生内容、新闻策划、数据报告、产品评测等服务。

发表留言

Return to Top ▲Return to Top ▲