撰稿|蔡芳芳
编辑|徐川
公众号/InfoQ
未来生活一定是智能的,科幻小说里曾设想过的场景正一步步变成现实。在这个不可逆转的技术发展趋势里,智能音箱扮演的会是怎样的角色?现阶段的智能音箱及其背后的核心技术发展到了哪一步?
1、写在前面
在中国人还在为哪款手机更好而撕逼不休的时候,智能音箱已经悄悄深入美国人的生活。
2017 年 7 月亚马逊 Premium 会员日,它卖出了超过去年同期 7 倍的 Echo 系列智能音箱。而在 2016 年下半年,Echo 总共已经卖出超过 700 万台。市场调查公司 eMarketer 近日公布的智能音箱市场研究报告预测,美国今年智能音箱的月活跃用户将达到 3560 万人。这一数字已经超过美国总人口的十分之一。
智能音箱以及它所代表的趋势,已经不容忽视。智能音箱到底值不值得用?智能音箱的未来又会如何?本文将带你一起观察国内外智能音箱市场的火热现状,解析背后的技术,并给出我们对于趋势的分析和判断。
根据 Gartner 预测,到 2018 年将会有 30% 的人机交互通过自然语言会话完成 [1]。而基于远场的自然语音交互恰恰就是催生出智能音箱市场的重要需求。
以一次普通的听音乐和看视频为例:
现在用手机听音乐,首先要先解锁手机屏幕,打开某一个音乐 APP,搜索你想听的那首歌,然后点击播放;如果变成语音交互会怎么样呢?你只需要说:播放陈奕迅的好久不见。
如果这个时候恰好是周日晚上 10 点,你想看最新一期极限挑战。如果是现在,你需要在手机上切换到视频播放软件,或是打开电脑输入视频网站地址,然后搜索极限挑战第三季,最后选择最新一期播放;如果换成语音交互,你只需要说:播放极限挑战第三季最新一期。
类似以上场景,语音交互在很多时候执行效率都明显高于 GUI 交互。业界普遍认为,智能语音交互会成为未来人机交互的新方式,一如当年乔布斯在 iPhone 上用触屏打败传统手机键盘,语音交互也可能会颠覆图形界面交互。而智能音箱已经成为智能语音交互的重要载体。
2014 年 11 月,亚马逊推出基于语音交互的智能音箱 Echo,拉开智能音箱市场大幕。2016 年 Echo 的销售数据一路高涨,一举突破 500 万台,亚马逊获得先发优势,在美国市场积累了大量用户。
亚马逊率先尝试并大获成功,证明了以智能音箱作为智能语音交互载体和智能家居入口的可行性和正确性。各家纷纷入局智能音箱市场,既是响应智能语音交互时代的召唤,也是不甘亚马逊独占用户和市场红利。
根据 CIRP、RBC Capital Market 数据,自 2014 年 11 月发售以来,包括 Echo、入门级 EchoDot 和便携式 Tap 在内的亚马逊智能音箱,已累计销售超过千万台,销售额达到 8 至 10 亿美元。
而根据市场调查公司 eMarketer 近日公布的智能音箱市场研究报告预测,美国今年智能音箱的月活跃用户将达到 3560 万人,比去年增长 128.9%,其中亚马逊的 Echo 将达到 70.6% 的市场占比,远远领先于第二名 Google Home 的 23.8% 以及联想等其他品牌。今年每月至少使用一次这些语音助手的美国人将达到 6050 万人。这一数字已经超过 1/4 的智能手机用户,并且接近 1/5 的美国人。[2]
再看国内的智能音箱市场:
根据《科大讯飞股份有限公司 2016 年年度报告》[3],叮咚智能音箱在 2016 年的总销量为 10 万台。基于线上淘宝(包含天猫)销售数据的跟踪调查,智能音箱品类的整体月销量还不到 2 万台。[4]
与国外智能音箱庞大的用户群体相比,国内智能音箱市场似乎“小”到不值一提,但产品数量之多却毫不逊色。
智能音箱在传统音箱的基础上增加了一些更“聪明”的功能,主要体现在以下几个方面:
目前市场上的智能音箱产品主流为无屏幕的智能家居助手类音箱,以语音交互技术为核心,旨在成为智能家居的控制中心,亚马逊的 Echo、京东的叮咚、阿里的天猫精灵等都属于这一类。
海外党以亚马逊、Google、苹果和微软这四款智能音箱为代表,这四款智能音箱功能并无太大区别,均支持个人生活助手、智能家居控制等主要功能,都采用了各家自研的语音助手。
亚马逊进入市场较早并致力于打造开放的 Alexa 开发平台,现在 Alexa 几乎无所不能,成为亚马逊的优势之一。
Google Home 的优势是信息检索和会话聊天的能力。今年四月份 Google Assitant 还添加了一项新功能,能够识别出谁在说话并相应地做出个性化的回应,最多支持六个人的不同声音。谷歌本身拥有完善的内容和应用生态系统,Google Home 已经和部分自家应用以及不少第三方应用打通。通过 Google Home 可以查看日程安排,播放 Google Play Music 和 YouTube Music 里喜爱的音乐,点播 YouTube 或 Netflix 视频并在电视上播放(需配合 Chromecast)。但目前还有很多重要应用如 Gmail、Voice 和 Docs,Google Home 尚无法支持。
苹果和微软的这两款音箱都已经发布但还没有正式上市。HomePod 主打音乐和音质;微软的 Invoke 一开始则以支持 Skype 互联网电话作为亮点,但奈何竞争对手产品更新太快,未等 Invoke 推出,亚马逊的 Echo 和 Google Home 均已经支持拨打电话,虽然还存在一些隐私问题留待讨论。
2017 年 8 月底,微软与亚马逊达成合作,以更好地整合他们的语音助手“Cortana”和“Alexa”,想必还有一个未明说的原因是为了更好地抗衡谷歌语音助手。
从左至右分别为:天猫精灵、叮咚二代、小米 AI 音箱
上图选择叮咚、天猫精灵、Rokid 月石和小雅音箱进行对比。目前国内智能音箱产品同质化也比较严重,前三款智能音箱的主要功能依然没有太大差异,而小雅智能音箱主打内容服务,并不支持智能家居控制。
在语音助手方面,Rokid 月石采用了自主研发的语音助手,而叮咚、小雅分别采用了科大讯飞、猎户星空的语音技术方案,天猫精灵的语音助手则集成了思必驰和阿里自研方案。若琪最突出的一点不同是它的唤醒词只有两个音节,而目前市面上其他智能音箱产品的唤醒词大多为三个音节或更多。9 月新发布的叮咚二代支持自定义唤醒词,但实际使用效果有待验证。
智能音箱的核心需求和一切操作的前提是语音交互,因此语音交互技术自然成为其核心技术。当然它的背后还连接着一棵郁郁葱葱的人工智能“技能树”,受限于文章篇幅和笔者能力,本章仅重点介绍语音交互技术。
以下图为例,当我们调戏天猫精灵时,跟它进行一次简单对话的语音交互流程包含哪几步?
语音识别
第一步是语音识别(ASR)。智能音箱所使用的语音识别技术与手机端的语音助手有所不同,叫做 远场拾音,指的是我们能够在超过 5 米以上的距离跟设备进行自然语音对话。
有了远场拾音之后,人们可以在家里任意角落、轻松地跟智能设备交流。虽然苹果 siri、谷歌 Google Now、微软 Cortana 等语音助手很早就实现了语音识别,但都是近场语音,使用时需要拿出手机、启动助手、靠近讲话等步骤,与远场拾音相比在体验上有很大的差距。
要实现相对理想的远场拾音效果,降噪是重要的一环。目前常见的做法是利用算法与硬件相结合实现更好的降噪效果。硬件部分,通常麦克风越多,越有助于收集到来自不同方向的声音,从而更容易在噪音环境中识别出有用信息,达到更好的远场交互效果。现在大多数厂商都采用了 6 个以上麦克风组成的麦克风阵列技术,只有 Google Home 通过算法 + 仅仅 2 枚麦克风就实现了还不错的远场拾音效果。
语音识别还需要配置激活词,通过激活词“开启”语音交互功能(就像开机按钮一样),从技术上来说,激活词越短则体验越好、技术难度越高,但同时误激活概率也随之变高。
语音识别技术的局限性
语音识别技术历史进程
语音识别技术的目标是将人类语音中的词汇内容转换为计算机可读的输入。自 2009 年以来,借助机器学习领域深度学习研究的发展以及大数据语料的积累,语音识别技术得到突飞猛进的发展,语音识别准确率大幅提升。[5]
今年 8 月 20 日,微软语音识别系统再次取得重大突破,错误率降低至 5.1%,大幅刷新原先记录,并在语音识别行业树立了新的里程碑 [6]。
可惜,这些突破更多是针对在安静的室内并近距离靠近麦克风的场合。在噪音或者远场识别环境下,错误率仍居高不下;面对口音、方言,识别率也还有待提升。
自然语言理解
第二步是自然语言理解(NLU),指的是对自然语言的内容和意图的深层把握。通俗地讲,就是在一些话题上,智能设备能够理解人讲的话,或者能把人类的语言理解成机器的语言。目前智能设备只能做到浅层的“理解”,例如把转化成文字后的两句话“给萧敬腾打电话”和“打电话给萧敬腾”理解成同样的操作。
第三步是自然语言生成(NLG),这一步和第二步相反,就是把机器的语言转换成人类的语言。
第二步和第三步从广义上来说也可以合称为 自然语言处理(NLP)。
自然语言理解属于业界难题,也是人工智能的终极目标之一。
现在的自然语言系统一般使用的是基于统计的方法。所谓统计方法,主要指分析单词的统计量作为“特征”,将它们输入到计算模型里,算出一个结果,最终输出成词句。
目前自然语言理解尚处于浅层语义分析阶段,大致包含词法分析、句法分析、语义分析这三个层面。机器对句子的理解还只能做到语义角色标注,如标出句中的句子成分和主被动关系等。当前的研究方法大多是同一套路,即通过语料标注、建立模型、训练模型、使用模型,令自然语言系统做到简单的模型式“理解”。即使是当下最火的深度神经网络,也只是在模式识别这个手段上更加高明一点,仍然无法达到理解语言的程度。自然语言理解研究主要集中在一些特定领域,研究跨领域的通用语言理解为时尚早。
如今为大家所熟知的自然语言处理系统,比如苹果 Siri、微软小冰、讯飞听见等,其实都没有真正的“理解”自然语言本身,大多是基于文本相似度的匹配,更高级的则应用了知识图谱。
语音合成
最后一步是语音合成(TTS),也就是将文字转换成声音播放出来,并尽可能地模仿人类自然说话的语音语调,给人以真人之间交谈的感觉。
语音合成技术发展到今天已有 200 多年的历史,但自计算机技术发展起来以后才有了长足的发展。近些年,一种新的基于数据库的语音合成方法得到了更广泛的应用。
随着技术演进,语音合成的复杂度、自然度和音质都已取得不错的成绩,目前研究重点在于提高合成音的表现力(如语气和情感等)以及多语种的语言合成。
其他语音交互技术
以上仅仅是最简单的一次对话会涉及到的核心技术,如果进行更复杂的对话或者根据用户给智能音箱指派的不同指令,还会涉及更多(以下技术可能存在交叉):
其中 声纹识别 技术赋予智能音箱的能力是让设备记忆并识别使用者的身份,在此之上可以扩展更多购物、安防、个性化对话等方面的应用;多轮会话 就是让智能音箱能够在一段比较多来回的会话中自动记住上下文,用户不需要重复说唤醒词,就能对智能音箱提出问题并进行追问,真正做到接近于与人沟通的语音交互体验,多轮会话同样属于语音技术领域研究的难点,其主要建立在语音识别、合成以及自然语言理解等技术基础之上,目前自然度和准确度有待提高;情感识别 指的是设备能够从声音中听出你现在的情绪,是生气、伤心还是高兴,然后做出相应的个性化回应。搜索和推荐 很好理解,比如你总是放某一类歌曲,下一次你让智能音箱随机给你放首歌,它就能选对你可能喜欢的歌曲。
多轮会话
至于 可扩展语义技能,是指第三方开发者可以在语音开放平台上为语音助手添加新的技能,丰富语音助手的功能。
智能音箱背后虽然有许多“高大上”的技术,但这些技术本身还在不断地发展和完善。作为消费者,更关注的是技术交付后的实际使用效果。
智能音箱功能使用现状
截至 9 月,Alexa 已经拥有超过 2w 项技能,Google Assistant 拥有的技能大约不到 600 个,而在这其中真正好用的有多少呢?
2016 年 Echo 用户调查报告(来自 statista.com)
据国外的研究机构 2016 年进行的调研显示,Echo 使用最多的功能分别是音乐播放、控制智能灯泡、设置闹钟;用户至少尝试过一次的功能中,排在前三则是设置闹钟(85%)、音乐播放(82%)、新闻播报(66%)。而一直作为 Echo 宣传重点的“Uber 打车”服务,体验比例仅为 6.3%。
2017 年美国智能音箱用户调查报告(来自 statista.com)
再看今年针对美国所有智能音箱使用者的调研结果,最常使用的功能还是诸如普通问答、播放音乐、播报新闻、播报天气、设置闹钟这类比较简单的功能。
易观的一份产业报告称,国内智能音箱使用者最常用的功能是点歌。
由此可见,虽然从理论上看,语音交互是更高效的交互方式,但由于现实生活场景复杂且语音交互技术尚未成熟,当前智能音箱的交互体验还无法代替原有的交互逻辑。
听听“消费者”怎么说
为了了解消费者对智能音箱的真实看法,笔者找到一些朋友聊了几句。
十几位朋友中只有两位买了智能音箱,其他人大多没了解或者关注得不多,也有人认为现在的智能家电功能不太好用,所以短期内不打算买,当然也有考虑价格因素的。
聊天记录节选
朋友 W 是科技产品达人,有什么新玩意都会第一时间买来把玩。这次毫不意外地得知他去年就已经买了“叮咚”智能音箱。他家里还有 BroadLink 的智能遥控器用来控制空调,尴尬的是,这个与京东合作的智能遥控器不属于京东微联,所以叮咚并不能控制它去调节空调温度。他反馈最常用的功能是控制开关(京东的智能插座)和听歌,其他还有定闹钟、听喜马拉雅、查天气(但用的不多),其他功能基本没用。并表示短时间内没钱买其他牌子了,但会继续关注。
iOS 圈大咖 Z 今年购置了 Google Home(使用时需要英文 + 架梯子),并烧钱购置了一些配套的智能家居设备,目前他家里能够配合 Google Home 使用的有 Chromecast 投射、Sony 音箱以及飞利浦的 Hue 灯。最常用的功能是控制智能家居、听歌、放雨声。他表示 Google Home 带来了很好的使用体验,非常智能而且音质很好(当然还是比 Bose Soundlink 要差);缺点是软件配置使用体验比较差,相关配套智能家居设备很少,而能买到的智能家居设备也比较烧钱。后续他还会考虑购买小米 AI 音箱或 HomePod,未来他的家里可能会有三个智能音箱,他认为小米硬件很全应该会很方便。
Z 对智能音箱未来的发展非常看好:“智能音箱我认为是手机之外的新战场,IoT 的入口,而且有很强的配套购买带动作用,也是 AI 的最好载体。虽然不确定商业模式最终会怎么样,但我认为他会改善人们生活的体验,并创造极大的粘性,渗透到你的生活中,将各种服务、设备变成你的一部分,他在 IoT 上比手机更方便,手机已经像我们的器官一样,为我们提供对外界的眼、耳朵,而 Home 提供的体验更近一步,他把你的家和你连接在一起,你只需要动嘴就可以控制家里的一切,这是信息化和人类结合的重要一步。”
互联网大公司、技术提供商、内容提供商、传统音箱厂商布局智能音箱市场大多以自身优势为切入点。
其中内容厂商的版权优势在巨头公司(如腾讯、阿里)面前其实并不明显。
很多人将语音交互系统比作安卓,而语义技能则被比作安卓应用商店,第三方语义技能是否丰富在一定程度上会影响该智能音箱产品是否能占据竞争优势。
百度没有推出自己的智能音箱,而是对 DuerOS 寄予厚望,目标是要打造一个基于语音交互的全新开放平台,向合作伙伴输出 AI 技术能力,将自己的语音系统部署到越来越多的硬件产品中,他们想做“人工智能时代的安卓”。与天猫精灵发布的同一天,百度在“百度 AI 开发者大会”上宣布,自己的语音助手 DuerOS 将作为智能语音生态链的基础存在。
但是打这个主意的又何止百度一家?
对各大厂商而言,目前语音开放平台(包括语音交互系统和语义技能)已经成为标配,“有”不再是优势,而“没有”却可能成为巨大的劣势。与此同时,语音交互系统的战火早已燃烧到了智能音箱以外的战场,智能家居硬件、耳机、手机、车载系统、机器人等处处可见各家语音交互系统的身影。
截至 2017 年初,Google Assistant 覆盖智能设备已经超过 1 亿台,并且即将登陆 iPhone,其工程副总裁称“我们的最终目标在于,以后人们可以在任何设备上与 Google Assistant 对话,而它能够尽可能地为你做任何事情。”;而 Alexa 同样以可怕的速度渗透整个电子市场,据不完全统计,截至 2017 年 9 月份已经有近 4 万多种硬件接入了 Alexa。
相较之下,国内厂商的语音开放平台和语音技能商店大多刚推出不久,且开放程度不一,接入的第三方硬件偏少,未来语义技能开发情况尚不明朗。在中文语音交互市场,科大讯飞(市场份额超 70%)和百度(市场份额低于科大讯飞,但拥有更全面的 AI 技术)目前优势较明显。
反观移动端操作系统的另一位霸主苹果,2011 年率先推出语音助手 Siri,颠覆了用户使用手机的交互体验,并引领了一波手机端语音助手的潮流。但从那之后,Siri 除了偶尔被调戏,似乎并不太实用,如今面对层出不穷的语音开放平台,只能运行在封闭的 iOS 内的 Siri 显得有些沉默。
与大部分厂商先推出智能音箱、再推动智能家居设备接入的路线不同,小米很早就开始打造智能家居产品,如今推出智能音箱更像是顺势而为。
很多米粉将米家及其一系列家居产品趣称为“小米全家桶”,这侧面说明了小米这几年积累的智能硬件资源之丰富。虽然米家推出的时间不算早,但依附于小米生态链,整合了小米之前一系列智能产品和几十家生态链公司的智能家居产品,形成了一套相对比较完整的智能家居系统。截至今年 5 月 31 日,基于小米 MIOT 平台的联网设备总量已经突破 6000 万台。当年很多人不理解小米为什么做智能家居产品,如今智能音箱市场火爆,大家都抢着做智能家居入口,在所有人都还在忙着对接更多智能硬件设备时,小米布下的局已经先行启动。
根据 Gartner2017 年最新版技术成熟度曲线图,目前 Conversational User Interface(对话式用户界面)正从科技诞生的促动期步入过高期望的峰值,距离成为主流应用还有 5-10 年。Gartner 报告中将 CUI 列为 2017 年的十大科技趋势之一,报告 [7] 称“随着科技变得能够读懂人心,对话系统将带来下一代信息技术转型。企业架构和技术创新领导者当前必须充分利用可行的应用案例,同时探索未来会话系统存在的机会。”
对厂商而言,布局智能音箱其实是在为了借此形成入口、输出服务,同时掌控语音交互背后的用户和数据。智能音箱只是当下最适合的载体之一,未来家中所有的电子设备可能都会搭载语音交互模块,届时你将能与电视、冰箱等设备直接对话(P.S. 这不是科幻片预告,在小米电视、美的智能冰箱等设备上已有不少落地案例)。
对于用户而言,语音交互确实更符合人类本能,如果能通过语音交互的统一入口、免去单独到每一个应用上获取对应服务的麻烦,一句话就能便捷高效地完成众多操作,用户自然没有不用的道理。但是现阶段的智能音箱真的能做到“解放双手”吗?
技术尚未成熟,谈入口为时尚早
抛开厂商设定,智能音箱本质上就是一款基于语音进行人机交互的智能硬件。播放音乐是传统音箱的主要(几乎是唯一)功能,但对于智能音箱来说,音质只是附加选项,用户更看重人机交互的体验,以及交互背后所能支持和兼容的服务数量与质量。人机交互体验、线上互联网服务和线下智能家居系列产品三者缺其一,智能音箱的入口目标就难以达成。而 语音交互技术正是人机交互体验的关键掣肘。
从技术现状和实际产品效果来看,语音交互技术还需要完善,最为关键的自然语言理解尚有众多难关等待突破,各家公司都在艰难地往前探索。智能音箱的实际使用效果必然受限于技术。现在已经发布或者上市并且叫得出名字的智能音箱产品暂时还没有谁甩谁一条街的情况,使用中普遍存在“动口不如动手”的尴尬场面。
总有做智能音箱的厂商说“用户还没养成语音交互的习惯”、“用户还没做好准备”,用户才是真躺枪,人家倒是想养成习惯,可是你先给整个好用点的语音交互呗?
若要说语音交互存在泡沫,那泡沫主要也是源于各大厂商对语音交互技术成果的盲目夸大,比如家家语音识别准确率都达到 97% 以上(一切不提前置条件和测试数据集光说语音识别率都是耍流氓)。在自然语言理解出现重大突破之前,解决噪音问题、提升远场语音识别率才是当务之急。
智能音箱还缺什么
智能音箱还缺大屏参与互动。研究表明,在人的感知系统中,视觉所获取的信息占 60% 以上,听觉获取的信息占 20% 左右;而人在沟通中表达的信息 55% 来自肢体语言信息,38% 来自声音信息。
虽然阿里凭借购物场景的优势,为天猫精灵搭载了声纹购功能,但实际上网络购物是典型的离不开屏幕的应用场景,几十秒就能看完的商品描述和评论,智能音箱可能需要几分钟才能念完,更何况眼见为实耳听为虚,不看图片光听几句商品介绍就敢下单的人有几何?语音上场,屏幕却不会消失,融合语音、视觉和肢体动作的交互方式或许更可能成为下一个时代的主宰。
Google IO 2017 上简单演示了使用 Google Home 唤醒 Android TV 并展示信息,智能音箱与智能电视的深度集成可能会成为新的趋势。
除此之外,还需要将语音助手形象化,我们对着空气、对着一个圆柱体说话太傻,需要一个能给予视觉或表情反馈的存在,我们才愿意与语音助手有更多的交流。
我的答案:不能。语音助手强烈依赖云端,需要厂商提供服务,而 Android 的核心代码 AOSP 都在本地,可以构建分支。很难想象国内的智能音箱最终都使用同一家公司提供的语音助手。
那么中国的智能音箱市场会变成什么样?
智能音箱是硬件、软件平台、云服务的合体,需要在这三方面都有强大的实力才能做好,目前中国符合这个条件的并不多。创业公司如果使用第三方的语音助手服务,核心技术操于人手,注定做不大。所以和目前共享模式的利用创业公司进行代理人战争不同,智能音箱需要巨头亲自下场。
巨头有各自的护城河,几乎每家都有自己的音乐和语音内容产品,而智能音箱和这些业务是可以相互促进的,因此只要智能音箱业务没有严重亏损,巨头就不会轻易言弃。所以中国未来智能音箱的市场很可能是在一场混战之后,形成几家割据的局面。
目前的问题是巨头已有布局,但没有人愿意教育市场。