主题
语音识别的发展历程:
一、国外研究历史现状
语音识别的研究工作可以追溯到20世纪50年代AT&T贝尔实验室的Audry系统,它是第一个可以识别十几个英文数字的语音识别系统。
但是真正取得实质性进展的并将其作为一个重要研究课题的则是60年代末70年代初。这首先是计算机技术的发展为语音识别的实现提供了硬件和软件的可能,重要的是语音信号线性预测编码LPC技术和动态时间规整DTW技术的提供,有效的解决了语音信号的特征提取和不等长匹配的问题。这一时期的语音识别芯片主要基于模板匹配原理,研究领域局限在特定人,小词汇表的鼓励词识别,实现基于线性预测倒谱和DTW技术的孤立词语音识别系统;同时提出矢量化VQ和隐马尔可夫模型HMM理论。
随着应用领域的扩大,小词汇表、特定人、孤立词等这些对语音识别的约束条件需要放宽,与此同时也带来了许多新的问题:第一,词汇表的扩大使得模板的选取和建立发生困难;第二,连续语音中,各个音素、音节以及词之间没有明显的边界,各个发音单位存在受上下文强烈的影响的协同发音现象;第三,非特定人识别时,不同的人说相同的话相应的升学特征有很大差异,即使相同的人在不同的时间、生理、心理状态下,说童谣的内容相应的声学模型也有很大的差异;第四,识别的语音有背景噪声或者其他干扰。因此原有的模板匹配方法已不再适用。
实验室语音识别研究的巨大突破产生于20世纪80年代末:人们终于在实验室突破了大词汇量、连续语音和非特定人这三大障碍,第一次把三个特征集成在一个系统中,比较典型的是卡耐基梅隆大学的SPHINX系统,它是第一个高性能的非特定人、大词汇量连续语音识别系统。
这一时期,语音识别研究进一步走向深入,其显著特征是HMM模型和人工神经元网络(ANN)在语音识别的成功应用。Hmm模型的广泛应用归功于AT&T Bell实验室RABINER等科学家的努力,他们吧原本苦涩无味的纯数学模型工程化,从而为更多的研究者了解和认识,从使统计方法称为语音识别技术的主流。
统计方法研究者的实现从微观转向宏观,不在可以最求语音特征的细化,而是更多的从整体平均的交通建立最佳语音识别系统。从声学模型方面,以MARKOV 链为基础的语音序列建模方法的HMM比较有效的解决了语音信号短时间稳定、长时间事变的特性,并且能根据一些基本建立模型单元的连续语音句子,达到了比较高 的建模精度和建模的灵活性。在语言层面上,通过统计真是大规模语音料的此于此同时出现概率即N元统计模型来区分识别带来的模糊音和同音词。另外,人工神经网络的方法、基于文法规则的语言处理机制等也在语音识别芯片中得到了应用。
这里只是第一篇以后将陆续推出相关文章
转载请保留原创
深圳市强国科技开发有限公司
http://www.fbiic.com/product/89-cn.html