2019年10月7日
作者:Trausti Thormundsson
亚马逊的Alexa语音服务(AVS)、谷歌的语音助手(GVA)、三星的Bixby、苹果的Siri、日本流行的Naver和NTT Docomo、韩国的SK电信和韩国电信、中国的百度、阿里巴巴和腾讯等,已经开发出了先进的语音服务平台。这些公司都有一个非常复杂的以语音为中心的软件平台,为特定地区和从小灯泡到大冰箱的大量设备定制,所有这些设备都是通过唤醒词算法和远场语音技术激活的,这两者都是Synaptics的特色。
现在,边缘计算已经在智能家居中扎根,Synaptics已经创建了一个双唤醒词产品,以区分基于云的需求(如天气预报和流媒体音乐)和未来基于边缘的命令,如“开灯”(这是在云计算中完成的)。除此之外,智能设备还需要理解全球各地的各种口音和语言,从美国南方口音到英国英语,再到普通话和日语。为了支持出色的用户体验,这些都是需要解决的复杂问题。
但我离题了,我将把wake word技术留给另一篇文章。今天,我想把重点放在远场语音技术上,具体来说,它能够在通常具有挑战性的环境中提取用户的声音,在这些环境中,它需要切断来自设备本身的各种环境噪声和音频。随着市场对语音触发智能设备(如扬声器和条形音箱)的采用和使用不断增加,许多人可能会想,“智能设备如何从电视或收音机中识别我的声音?”让我们来仔细看看远场语音的具体细节,以及实现它的芯片和软件。
理解远场语音问题
当我们的语音从嘴里传到智能设备时,它会受到许多不同方式的影响,这些方式都会改变语音助手最终听到的信号。当语音从我们传播到设备时,我们的语音会衰减,在自由空间中,传播距离每增加一倍,声压级就会下降6dB。语音声压波也会从我们周围的所有表面反射回来,设备不仅会“看到”直接从我们的嘴传播到设备的语音信号,还会看到无数个信号的副本,这些信号被延迟并按不同数量缩放。实际上,语音助手会观察所有这些不同副本的总和。这种效应被称为混响。衰减和混响即使在一个非常安静的房间里也会发生。
我们生活的所有环境都有背景噪音,在某些情况下,这些噪音可能相当大,比如来自厨房电器、电视、街道交通或其他人谈话的噪音。一般来说,我们所有的活动都会产生一些声音信号。语音助手也会听到所有这些背景噪音,麦克风也会收集我们衰减和混响的语音以及这些背景噪音的总和。
最后但并非最不重要的是,语音助手的麦克风也会拾取语音助手正在播放的音频的混响版本。这被称为回声,在许多情况下,这个信号可能比个人助理需要听到的实际声音信号大两个数量级,因为个人助理的扬声器比用户离麦克风近得多。
远场语音处理的任务是提取包括声回波、声噪声和混响语音在内的麦克风信号,并重建一个忠实地代表说话内容的信号。
如何在负信噪比情况下提取用户语音
远场语音处理最具挑战性的情况是当声学噪声与用户的声音接近或更大的情况下。例如,当智能设备上的麦克风离电视或嘈杂的厨房电器太近时,就会发生这种情况。信噪比(信噪比)变为负值。但有一些功能可以增强语音通信和自动语音识别性能在现实世界中,嘈杂的环境。其特点如下:
智能源定位器(SSL):允许设备自动确定设备周围声源的数量,即使它们同时处于活动状态。此外,它可以确定一个给定的源是否只发出语音。
智能源拾取(SSP):使用来自两个或多个麦克风的信号从麦克风信号中的所有其他音频源中提取单个音频源。为了确定要关注的源,智能源拾取使用来自智能源定位器的信息。这使得SSP能够专注于用户的声音,并消除来自设备周围各个方向(全方位)的噪声,即使噪声源来自与用户相同的方向。这个过程也执行部分去混响。
声音插播:启用全双工回声消除(AEC)功能,即使设备正在播放音乐或大声播放语音提示,语音DSP也可以检测唤醒字。
什么是声回波消除(AEC)?
Harman的扬声器、Ecobee的电灯开关或Netgear的网状Wi-Fi路由器等设备中的AEC具有双子带滤波器结构,可确保更快的收敛和更深的抵消。此外,AEC利用SSP作为后置滤波器的能力,其中SSP将非线性回波残余作为噪声处理。结果是线性和非线性回声的深度消除,即使在非常大的播放音量下也能产生强大的驳船性能。
你现在能听到我吗?
智能家居将以多种方式变得更加智能,而语音仍然是一个快速增长的关键人机界面。但智能设备的快速普及完全依赖于它们对人们真正有帮助和有意义。我们还没有完全做到这一点,但Synaptics正在引领专用的强大边缘计算soc,集成了远场语音和自定义唤醒字技术,我们的客户可以利用他们不断发展的语音服务平台。
观看Synaptics远场语音技术在非常嘈杂的环境中的演示视频。https://bcove.video/2Bct94F