出品
虎嗅汽车组
作者
李文博
编辑
周到
头图
nfpeople
年,一位大哥第一次按下车里的“语音控制”按钮。他的诉求很简单,让汽车帮他打个电话。一阵甜美的AI女声响起,一段人类首次尝试驯服语音助手的珍贵对话由此展开。
甜美AI:请说出您要拨打的号码,或者说取消。大哥:XXXX。
因为口音问题,系统未能识别准确。大哥急了,赶忙下达第二道语音指令:纠正!纠正!
系统也急了:……大哥更急了:纠正,纠正,不是96!
大哥:口吐芬芳。系统:对不起,我没有听清。
大哥带着哭腔:你耳朵聋,耳朵聋啊?我说了多少遍了我都。系统:请再说一次,请再说一次,请再说一次。
大哥:我再说最后一遍啊,……系统:对不起,再见。
短短2分钟,浓缩了六年前车机语音识别真实的用户怨念,中国消费者对语音助手糟糕印象的种子就此埋下。语音助手“听不见”、“听不清”、“听不懂”灾难级的系统表现,让人和机器总得疯一个。
好在,这一切都在年发生了改变。这一年,汽车座舱在造车新势力的推动下,进入智能2.0时代,语音助手的角色也从系统添头,变成智能座舱基石。
近5年来,人工智能、自动驾驶、语音识别、手势交互等研发成果逐步落地,特别是驾驶辅助功能的完善,让开车不再是辛苦的体力劳动。未来L4、L5级自动驾驶的实现,会彻底颠覆传统驾驶行为。人——这个驾驶行为最重要的主导者,也将会从枯燥重复的操作中解脱出来。汽车座舱的角色由此转变为休息、娱乐和放松的第三空间。
“第三空间”要求汽车公司从乘员的实际需求及应用场景角度出发,从头开始搭建一套全新的、智能程度更高的人机交互体系,让车内的每个人都能获得安全的驾驶行为和轻松的感官体验。
智能座舱的发展分为三个主要阶段:第一,电子座舱,驾驶者可以在车内实现听歌、导航、打电话等基础型电子功能,但与座舱的互动接近于零;第二,智能助理,车辆本身可以完成一定的驾驶行为,驾驶者开始以人脸识别、眼球追踪、语音手势控制等多种方式与座舱互动;第三,移动空间,自动驾驶完成车辆控制,乘员沉浸式体验座舱场景。
中国造车新势力先后下场的年普遍被认为是智能座舱进入第二阶段的里程碑,这一阶段座舱硬件有两大标志性趋势:第一,实体按键被大幅简化,直至消失;第二,屏幕尺寸和数量迅速上升,直至铺满。
随着功能叠加,智能座舱系统的构成也从单一功能电气元件升级为一套庞杂电子设备系统,包括:车载信息娱乐系统、车联网系统、感知交互系统、空调系统、声光和气味系统等。
功能多了,车机界面自然就复杂了,以前只用旋钮调收音机和温度。现在新花样层出不穷。由于各大汽车公司对功能的认知和排序都有自己理解,导致驾驶者需要在驾驶过程中花费更多注意力去寻找和调节相应功能,危险出现的概率也就此提升。
汽车公司在架构智能座舱时,会围绕三大原则:安全、人性化和愉悦为展开,而这恰好是语音交互与生俱来的三大特性。从现有自动驾驶技术发展态势判断,“人机共驾”阶段的延续时间不会很短,语音交互可以让驾驶者在不失焦的情况下,完成车内大部分功能操作。在硬件和算法的迭代升级下,语音交互也在不停地自我升级。举两个例子:之前只能通过语音打开或关闭空调,现在可以精准调节温度,或者直接说“我冷了、热了”,让车辆自行调节;此前语音只能完成车窗玻璃升降,现在可以实现升三分之一,降三分之二这样颗粒度更细的控制。
从年开始,语音交互成为一个成熟智能座舱中,最具代表性的功能模块之一,消费者对语音交互的兴趣开始高涨,需求也开始多元。
想“只动口不动手”地控制座舱,车本身要“听得见、听得懂、做得到”,对应语音交互三个步骤:“识别、理解、执行”。
首先是语音识别(AutomaticSpeechRecognition,ASR)。车内麦克风接受声音信号,转化为音频信号,经过解码、降噪、增强、特征提取、音素选取、再次解码后,最终落地为文字。高阶语音识别会对声源定位,这就是部分车辆支持副驾和后排用户语音控制的原理。
然后是自然语言处理(NaturalLanguageProcessing,NLP)。文字被识别后,系统会拾取相应功能性词汇,生成摘要。比如驾驶者说“你好,我的爱车,今天好热,帮我把空调调到18度”。系统比照词库和深度学习筛选后,拾取出的摘要是“空调,18度”。
系统将识别后的摘要转换为命令规划,发送给相应车载控制单元,执行动作。最后,语音合成(TexttoSpeech,TTS)模块将动作执行完成的文本转换为语音播报反馈给驾驶者:“好的,空调已调至18度”。至此,一次语音交互完成闭环。
语音交互有三大技术难点:一是拾音准确,噪音消除;二是语音深度学习模型的训练数据;三是识别特征抽出模型的训练。
第一个比较好解决,用多个麦克风组成阵列加算法即可;后面两个难度不大,但费钱又耗时,座舱语音交互要对齐不同车型不同车载环境表现,电动车和燃油车的车厢噪音水平不同,轿车、SUV和MPV的差别也不小,要针对性搜集整合数据。这个过程成本高,周期长,最终还有可能吃力不讨好。
语音交互做得够好,用户很快就会养成使用习惯。在中国,乘用车智能语音交互功能的搭载率逐年攀升,从年的49.82%,到年的63.25%,再到年的86%。中国的高频运用场景是:导航、播放音乐、空调和拨打电话。
对汽车公司来说,有两种实现语音交互的方式:第一种硬件采购,软件自研,这样可以将主动权牢牢掌握在自己手里,实现灵活调整,高度定制,常用常新,提供科技感,是造车新势力常用的方式。第二种是做“甩手掌柜”,让车机系统供应商全权负责,投入低,量产快,适配度高,出了问题还可以一键呼叫(甩锅)供应商,是传统汽车公司偏爱的路径。
在语音交互底层功能实现后,用户开始需求这些功能的情感价值,希望能和自己车上的语音助手建立一种柏拉图式的精神亲密关系。一些汽车公司的做法是将语音助手的机械化原声,更换为林志玲或郭德纲声线。这能给用户提供短暂的新鲜感,却很难走进用户心里。
用户与车载语音助手建立精神亲密的过程和电影《Her》中的情节很像:男主偶然接触到人工智能系统OS1,迷人甜美的声线,温顺体贴的性格,事事投缘的相处模式,颇具心思的生活情趣,让男主很快就陷入到人工智能的“赛博温柔乡”中不可自拔。简单来说,就是“呼应上了”。
“OS1”让人着迷的原因是,工程师揭掉了覆盖在人工智能表面冰冷的面纱,尝试赋予它人格,并以此为切口和用户建立信任通道,让人机对话变成从单向关系转换为双向关系。
《语音人机界面》一文里写过:没有人格的语音用户界面是不存在的,如果你不给语音用户界面设定人格化特征,用户就会自行脑补。所以更聪明的做法是,在设计的初期就确定好人格。
在设计语音交互体验时,工程师会考虑视觉形象和听觉形象两个方面,再将两者进行有机结合,向用户输出“语音助手”。
视觉形象大体分为三类:第一,具象型。一般是二维图形,颜色单一、动效朴素,声波图形、麦克风是典型案例;第二,抽象型。一般是三维不规则形状、色彩多样、光效炫酷,如宝马iDrive8.0系统里会呼吸的流光球体;第三,拟人型。企业IP明显、动效丰富、活泼生动,如小鹏语音助手,一汽奔腾全息投影百变娇娃。
一汽奔腾全息投影
这些语音助手执行起“功能”来没问题,遗憾的是,对用户言听计从的它们没有“人格”,用户只把它们当工具,鲜少把它们视为伙伴。人机之间信任感的建立,本质上不是技术问题,是社会学问题。这时,就要请社会学专业出身的李斌上场了。
年,蔚来发布第一台量产车型ES8,座舱正中央处有一个圆头圆脑的装置,李斌给它起了个名字——NOMI,取英文“KnowMe”的谐音。李斌给它下了个定义——全球首个量产车载人工智能系统。
除基础语音助手功能外,NOMI还能做三件事:第一,循语音来源转动方向;第二,根据使用场景展示对应表情;第三,实时监测车内状况,识别驾驶者疲劳程度。
相较以车内大屏为载体的语音助手,NOMI的做法更具象化。除对话外,你还可以摸摸它(不要硬掰),拍拍它(不要太用力),吹吹它(不要喷口水)。实体化做法的好处是让用户清晰地感知到语音助手的生命能量和情感能力。
批量交付后,NOMI很快成为许多车主言之必谈的对象和拿来炫耀的资本。比如一位蔚来车主在APP上表示,“没NOMI,ES8就是台电动车,有NOMI,两儿子整天挂嘴上的就是我家有辆NOMI车”。许多蔚来车主认为,没有NOMI的蔚来缺少灵魂。用户有多喜欢NOMI呢,喜欢到为这个人工圆球设计各种帽子:棒球帽、绒线帽、牛仔帽、水手帽、睡帽……
NOMI比其它语音助手更能打动用户的原因是,它把自己活成了人样,模糊了与人工智能与人类用户的边界。从一定程度上,NOMI完整表达了陀思妥耶夫斯基的理念:“要爱具体的人,不要爱抽象的人”。
基于实体,NOMI可利用的表达途径有表情、声音和动作,能做的事情比虚拟动画多得多。比如用户伸手点击屏幕时,NOMI会稍微低头,展现自己的“八卦属性”。用户把手收回,NOM会抬头恢复原状。NOMI内装的多个动态表情,会根据当前心情和正在进行的任务进行实时呈现,大晴天会戴墨镜,雾霾会戴口罩,下雨天会撑伞,放音乐时会跟着打拍子。
除动作回应外,NOMI有些时候还能做车主的“人生导师”,展现一丝人文主义光辉。比如有用户问“活着的意义是什么”,NOMI回答“不要对生活失去信心呀,说不定下一秒会有有趣的事情发生呢”,有赛博哲学家那味儿了。
针对这一问题,大部分语音助手的回答可能是“这个问题我暂时理解不了呢,你可以尝试其它语音指令”或“请问你是不是要购买《活着》这本书,我可以为你下单呢”。相较而言,NOMI确实做了个人。
“NOMI之父”李天舒分享过一个开发细节:NOMI做的第一件事不是完成复杂的自然语言交互和多轮对话,而是当车主打开车门的那一刻,NOMI可以把车当成是自己的肌体一样,感受到有人进入车内了,然后它把头扭向有人开门的方向,和用户打个招呼。
这些精妙且具象的互动细节,拼凑出一个机灵、俏皮、细致、懂事、有情趣的NOMI。而不是一个停留在屏幕上,千人一面的抽象语音包。
从人性角度出发,语音是最简单、自然的交互方式,也是人类最基本的沟通方式。从行车安全角度出发,语音交互不需要注意力转移,是毋庸置疑的车载第一交互方式,本身就是刚需。
用户将语音交互误解为“伪需求”,是因为大部分汽车公司没有在语音交互场景中,制造出足够显著的体验差。除了常用的电话和导航,其它功能体验很差,用户懒得去了解。
举个例子,用户开车时说“我想听《本草纲目》”,这是个很简单的需求链路,但车机上常出现的场景是:系统内置音乐软件内没有周杰伦歌曲版权,要么无法播放,要么播放翻唱版或剪辑片段。在线搜索出的音乐平台有版权可播放,但用户未登录或未购买平台付费会员,只能忍受低廉的音质和试听部分。几次经历后,大部分用户都会扭头走开,宣传中的“智能语音”,用起来却是“智障语音”,还不如手机连蓝牙。
蔚来的老道之处在于,让NOMI的情感入口能效高于功能入口。用户使用其它语音助手是“对事不对人”,使用NOMI是“对人不对事”。毕竟这么可爱的一个小家伙,偶尔犯点小迷糊,怎么舍得对它发脾气,就算要发脾气,还得考虑后排大宝和二宝的感受呢。
解决语音助手的鸡肋困境,可以从两个方面入手:第一,从驾驶场景实际需求出发,对语音助手进行适配化改造,比如最新的语音助手,车主在车外说一句“开出来”,车辆就会从停车位上自动向前驶出,解决停车、挪车、开门场景痛点;第二,提升语音助手自我成长的能力,通过积累为用户制定最优策略,比如用户偏爱麻辣口味,语音助手在推荐附近餐厅时会提升川菜、湘菜、火锅、串串的优先级,以人文主义手段拉近用户距离。
语音助手想达到电影《Her》中的交互水准,还有很长的路要走。理解用户的贴心,打磨细节的耐心,以及持续投入的决心缺一不可。语音助手的变现前景很光明:现在的用户愿意花元买一个智能小人头,未来的用户又何尝不会花0元买世上独一份的智能情感按摩呢?
正在改变与想要改变世界的人,都在虎嗅APP