撒贝宁与百度智能搜索“PK”是一种怎样的体验?
作为著名节目主持人,当小撒用快语速、长句子、中英混杂去刁难百度APP的时候,人工智能加持下的搜索技术真的能读懂小撒吗?这场大战就发生在8月18日百度世界大会现场。
一改主持人的端庄形象,小撒用超快语速说出“众里寻她千百度,蓦然回首,那人却在灯火阑珊处的作者是哪个朝代的?”百度APP马上给出答案:“南宋”。紧接着挑战升级,再问“你知道You need cry dear啥意思吗?”百度App回答:“有你的快递。”其实这是一个被智能搜索成功识别的陷阱,“You need cry dear”是中式英语的玩笑话,多用来安慰人,其实表达的就是“快递(购物)是最好的疗伤手段”。
智能搜索挑战成功,撒老师给出“后悔没早用百度APP”的认证。
撒贝宁挑战百度智能搜索|2021百度世界大会
在智能搜索领域,百度对语音识别的准确率已经高达98%,达到了比人耳都要灵敏的程度。其强大之处已经不在于对字正腔圆、发音清晰的声音进行识别,而已经涵盖了对多轮对话、长句、中英文混杂和方言的识别。此外,百度还拥有强大的TTS技术能力,TTS是“Text To Speech”缩写,意思是“从文本到语音”,通俗的讲,就是一种把文字信息转化为听得懂的、流利的口语的技术。
那么,高端的TTS技术和一般的TTS技术差在哪里呢?举个例子,当你用某些APP朗读一段文字时,那种浓浓地、不带感情和音调的朗读,就是TTS功夫没到家的表现。再比如一句话“这个操作666啊”,系统是读“六百六十六”还是“六六六”呢?这也在考验TTS水平。
龚俊数字人唱跳周杰伦《夜曲》|2021百度世界大会
在今年的百度世界大会现场,百度使用AI技术“数字化”了百度APP代言人龚俊,称呼“俊俊”。AI数字人俊俊在XR区域唱跳了周杰伦的《夜曲》,听起来是龚俊本人在唱,其实是AI在唱,模拟的相似度如此之高,这离不开百度多年的TTS技术积累。
技术的一小步,
智能搜索的一大步
百度世界大会一直被誉为“黑科技show场”。今年的主题“AI这时代,星辰大海”恰如其分的描绘了搜索技术的发展趋势:搜索智能化。
要知道,在从前,搜索是一项专业技能,是需要训练和学习的。为了提高搜索效率,用户需要学会如何把一个复杂问题提炼出关键词,让系统更容易识别。那个时代,直接搜索长问题和复杂句子只能是梦想,而现在,百度每天要响应60亿次这样的搜索请求。
在很多用户眼中,并没有感受到搜索技术的进步。正如百度集团执行副总裁沈抖所说,大家对搜索太过熟悉,以至于感受不到其中技术的变革,搜索的技术存在感那是真“感知不强”。但“感知不强”的背后,是巨大的技术进步。这就如冰山效应一般,用户看到的永远是水面之上的1/10,但它却建立在水下的9/10之上。
黑科技颠覆TTS行业
在本届百度世界大会上,沈抖介绍了一个看起来“很简单”的功能:百度APP已经能实现20句话就能模拟一个人的声音,这意味着用户可以用定制化声音来导航、读书、播报新闻。这厉害在哪里呢?在几年前,市场上主流的语音合成技术需要用上万句话训练才能达到一样的效果,这是质的飞跃。
这项变革得益于百度的黑科技:Meitron(千人千面)个性化语音合成技术。专业的说法是:基于端对端建模,把人的声音当中的音色和内容进行解耦,最终实现了个性化跟共有语音特征空间的完美分离与组合再现。通俗的讲,Meitron对TTS行业的变革是颠覆性的:录音场地从录音棚到了手机端;录音数据也从万句压缩到20句话;制作周期从几个月缩减到10分钟以内。
Meitron技术助力定制化个人语音包| 2021百度世界大会
这项技术有广阔的应用场景,Meitron技术允许播音员能够以不同风格进行播报,更好的适应老年人或者残障人士群体的需求。此外,对于那些父母经常出差,没有时间陪伴孩子的情况,该技术可以让某些手机应用模拟父母声音,即便父母不在身边,也能讲故事。
突破“轻声 ”搜索,难在哪里?
再设想这样一种场景。在开会或者聚餐的场合,当大家在谈论一个你不太懂的问题,你想使用百度搜索但是打字又太慢,我能轻声说话让百度APP识别并且给我答案吗?在从前真的做不到,但现在百度可以了。
在很多人看来,轻声就是比大声小一些,轻声说话时,距离话筒近一点,周边环境安静一点就能识别出来了,这种理解是错误的。“轻声”不是“小声”,要准确识别“轻声”这需要彻底改变背后的建模逻辑。
“轻声”识别是另一种建模逻辑 | 图虫
传统的语音识别,其建模单元叫“音素”,大致相当于拼音中的元音和辅音,如“a、o、u,b、p、m、f”。大声说话的时候,人可以把每个音素表达的很清楚,此时模型识别效率很高。然而,一旦轻声说话,整个发音模式就变了。读者可以尝试轻轻地说“你在干吗?”摸摸自己的声带是否振动。正是因为声音轻且缺少声带振动,元音失去基频,辅音严重弱化,“轻声”更像另一种语言体系。想要识别这种“新语言”,工程师要放弃音素建模而使用更长更稳定的音节建模。而建模单元变动会引起建模难度的大幅增加,这背后是百度在深度学习技术上的深耕(引入ctc和smlta技术)和海量计算资源的优势,这是本质的变化。
破解“连续提问”搜索难题
经常使用语音搜索的人,一定对下面这段对话不陌生。
问:“北大是什么时候创建的”?
答:“1891年”。
问:“清华呢”?
答:“对不起,我没有听清你的问题”。
这时候用户只能重新问一遍:“清华是什么时候创建的?”为什么会出现这种情况,因为绝大多数的语音搜索功能都无法实现连续提问。系统不知道第二个问题“清华呢”依然和上文有关。
如今,这个难题已经突破,撒贝宁在百度世界大会现场进行了演示。
撒:中国火星车叫什么名字?
百度APP:祝融号
撒:它什么时候着陆火星的?
百度APP:5月15日
这是一个“看起来毫不费力其实需要非常努力”才能实现的功能。拿上文这段对话来说,百度的工程师们需要教会这个系统来分辨哪些话属于同一个话题,哪些不是,这要依靠先进的深度语义理解技术。尤其当用户已经说出了数十个查询词的时候,突然转换了话题,从“火星车”到“附近的景区”,系统就要准确判断这完全是两码事,否则就会闹笑话。
智能搜索的核心能力是什么?
因此,搜索技术每一个微小的进步都实属不易,而且常常是“润物细无声”。那么,智能搜索底层技术是什么呢?
概括的说,所有和AI相关的技术都是智能搜索的底层技术。搜索技术的进化方向,要求它越来越像一个无所不能的人,这恰恰是人工智能要追求的。展开来说,包括基于NLP的人与计算机对话的技术,识别文字、图片、实物的多模态技术以及语音识别技术。
AI是智能搜索的底层技术|图虫
然而,做到这三点还远远不够,它们只是做好智能搜索的必要而非充分条件。为什么?因为从技术突破到大规模应用还有一个巨大的鸿沟——解决工程问题。打个比方,一个搜索系统每天可以承载1万次搜索请求,表现完美。如果1亿次呢?10亿次呢?规模扩大,产品如何工业化,这完全是另一个难题。因此百度一直强调并且非常看重工程能力。
那么搜索技术的进步是来自于天才的想法还是一步一个脚印的提高?答案是二者兼而有之。天才的想法诞生于实验室,从实验室到大规模应用,需要一次次调试,一行行代码敲出来。
早在2019年,百度就获得MRQA2019阅读理解国际评测竞赛冠军,公开数据集超越谷歌和微软。MRQA是语义理解领域的重磅竞赛,但百度却对此有更深的认识:“一个人可以把英语阅读理解做到满分,这固然能体现他部分的英语能力,但是这和熟练使用英语进行无障碍交流之间还有很大的差距,阅读理解100分,放到现实应用中只有60分,这便是“学术界”和“工业界”的差别”。
现实世界中,不论谷歌还是百度,每天都要应对数十亿个搜索指令,进行万亿次的模型预估,而且用户的问题千奇百怪,只有想不到,没有说不出的。在百度看来,经过数十年的积累、投入和试错,从学术突破到实现“工业化”的能力,才是最重要的。
智能搜索赋能未来
在国内,百度是最早投入人工智能技术研发的科技公司,早在2010年就成立了单独的NLP部门。有人会问,一家做搜索的公司,莫非要转型做AI?其实这是个伪问题。不是搜索转AI,而是为了做好搜索,必须要做AI,AI是智能搜索的基础。
在科幻电影《星球大战》系列里,塑造了一个超级人工智能,叫R2-D2,不论问它什么问题,都能快速准确给出回答,甚至有些时候它比你更懂你需要什么。人人都希望自己身边有一个无所不能的“神”,解决生活中的一切问题。人类在科幻电影中寄托的想象和不断升级的需求,要求搜索越来越智能化。搜索,已经成为了人工智能最大的应用场景之一。
《星球大战》系列机器人R2-D2| pixabay
现在,智能搜索已经嵌入到生活的方方面面。智能家居、无人驾驶汽车、智能手表,乃至VR设备。只要发生交互,就一定伴随搜索存在。那么,搜索有它的最终形态吗,它的终局是怎样的?
在百度的工程师们看来,搜索没有完美形态,它是不断进化的,因为人的需求是不断进化的。从前搜索文字,再后来搜索图片,现在越来越多的搜索指向视频。畅想一下未来,还记得科幻电影《头号玩家》吗?带上VR眼镜就进入了另一个虚拟世界,在那个世界同样需要搜索。
只要人类依然保持好奇心和探索欲,就一定会“搜索”。
“yyds什么意思?”
“耳机打结怎么办?”
“瘦人会得脂肪肝吗?”
“古代让官员回家洗澡的假期叫什么?”
果壳商业科技传播部出品