北京纳米能源与系统研究:研发一种增强人机交互的高灵敏度全向声传感器

一、研究背景:  

随着智能机器人技术迅猛发展,基于声学传感器的人机交互(HMI)在促进机器人实现自然高效通信方面扮演着至关重要的角色。然而,如何准确识别和跟踪全向声源,特别是在嘈杂的环境中实现该目的,仍然是一个亟待解决的难题。

二、文章简介:  

针对上述问题,北京纳米能源与系统研究所王杰研究员团队成功研发出一种具有全向声音识别和跟踪能力的自供电摩擦电立体声传感器(SAS),为解决这一问题提供了创新性的解决方案。SAS采用了具有高电子亲和力和低杨氏模量的多孔振动膜,使其具有高灵敏度(3172.9mVppPa-1)和宽频率响应范围(100-20,000 Hz)。利用其全方位的声音识别能力和可调的谐振频率特性,SAS即使在嘈杂的环境中也能精确识别所需的音频信号,平均深度学习准确率达到约98%。该传感器的研发不仅解决了智能机器人在复杂环境中声音识别的难题,还为其在多个领域的应用开辟了广阔前景。例如,在辅助会议系统中,SAS可以同时识别多个个体的声音,提高会议效率;在自动驾驶汽车领域,它能够在背景音乐下准确识别驾驶命令,确保行车安全。这些应用展示标志着基于语音的人机界面系统取得了显著进步。相关研究成果发表于Advanced Materials上。第一作者为中国科学院北京纳米能源与系统研究所博士乔文艳,通讯作者为中国科学院北京纳米能源与系统研究所周灵琳副研究员和王杰研究员

三、研究内容:  

1.传感器结构及工作原理 在探索更高效、更自然的人机交互(HMI)系统的进程中,声学传感器扮演着至关重要的角色。作为机器人的“听觉”装置,声学传感器能够精准地识别人类的指令、语音内容及语调,极大地促进了机器人与人类之间的社会互动。本文提出了一种创新的全方位SAS,通过在3D打印的立体框架上集成五个层状结构的自供电摩擦电声音传感器(TAS),实现了对声音信号的全向捕捉与高效识别。TAS的工作原理主要包括两个方面:声波引起的FEP膜变形,膜的振动将声信号主动转化为电信号。

tu1.png

通过分析公式(1)、(2)和(3)和图1可以清楚的知道影响TAS灵敏度的关键指标是电压(U);通过调节参数杨氏模量(E)、半径(r)和薄膜厚度(t)可以改变TAS的振动位移进而改变TAS的电压输出调节器件的灵敏度,另外这三个参数也可以调节TAS的谐振频率(f0)。为了实现从噪声环境中多方向的声音识别和实时跟踪声源,作者引入了一种3D打印设计的SAS,具有均匀分布的五个表面腔,每个表面都集成了单个TAS。基于全向声音识别和可调谐振频率特性,SAS显示了在嘈杂环境中拾取目标声音的能力,这已经在自动驾驶HMI车辆中得到了证明。为了证明SAS的原理,模拟了不同声源入射条件下TAS和SAS的位移响应。当声源正对TAS时,该TAS具有最大的信号响应,当声源在两个TAS之间时,相邻的两个TAS具有相同的且最大的信号响应,基于这些特征,可以根据SAS的响应情况来判断声源的方位和角度。


tu2.png


四、总结与展望:  

作者提出了一种自供电的SAS,该传感器采用了独特的立方体设计,赋予了其全向声音响应与精准跟踪的双重能力。通过结合低E的多孔振动膜,SAS具有高灵敏度(3172.9 mVppPa-1),宽频率响应范围(100-20,000 Hz)。利用SAS的全向声音识别和跟踪能力,以及其对不同声源和方向的差异化谐振频率响应,实现了从嘈杂背景中高效提取目标信号的目标。在深度学习的辅助下,SAS对目标信号的识别准确率平均达到了约98%。更重要的是,SAS的出现打破了多人同时与机器人互动的局限性。此外,SAS成功地展示了其在辅助会议系统、声音跟踪和自动驾驶系统(特别是在带有背景音乐的环境中准确识别驾驶命令)中的卓越表现。这项研究凸显了自供电摩擦电技术在基于语音的人机界面系统中的深远优势。

来源:传感器专家网,转载此文是为传递更多信息,如有侵权请联系删除