语音识别是目前应用最成熟的人机交互方式,从最初大家体验过的有屏手持设备这种近场的语音识别,如Siri以及各种语音助手,到目前,语音识别的应用已经完成了向智能硬件以及机器人上延伸,不过,新的人机交互对硬件、算法要求更加苛刻,各企业正面临着巨大的挑战。
语音作为目前人机交互的主要方式 ,而对于人机之间的交互,由于涉及到远场,环境比较复杂,而且无屏交互,如果要像人与人之间的交流一样自然、持续、双向、可打断,整个交互过程需要解决的问题更多,归结为一点就是,当前人机交互在复杂环境的自适应性方面,还有很多问题需要解决。出现该问题的原因无非是“没听清”和“不理解”。“没听清”是由于语音识别功能出现了问题,噪声环境、识别距离、硬件回声等均是语音识别的关键因素,如果处理不当便会导致识别率不同程度的降低;“不理解”是由于语义理解不够深入而导致,说话人不同,讲话习惯、音调、音速等也各不相同,上下文语境千差万别的情况下,如果不能结合语境进行深度学习,语义理解难免差强人意,更谈不上能够进行多轮交互了。人机交互目前所面临的问题,不是一朝一夕,一蹴而就能解决的,需要在各个方向在核心技术上不断进步。总而言之,智能语音识别的痛点始终放缓了人机交互的步伐,解决识别、理解与后端服务的难题,也鞭笞着我们在人机交互领域不断前行,智能人机交互的未来需要我们共同努力。