普通话汉语语音识别国内外研究现状

虽然语音信号处理的研究经过几十年的历史,产生了很多的成就,依然有许多方法和理论的问题需要面临,比如计算语音语义信息的方法。


语音识别是语音信号处理的内容之一,在1970年之前,孤立词的辨认是语音识别的主要研究部分,其多个方面在这个年代有了更多更深入的发展,许多不同方法和技术如动态规划方法(DTW)和线性预测编码(LPC)技术被广泛提出和应用,明显地提高了辨识的准确性。在20世纪末期,VQ和HMM理论等进步型成果被提出后,大量电子公司如苹果和IBM都斥巨资对语音识别系统进行研究,期以被广泛实用。令人惊讶的是,中文听写机ViaVoice[1]系统于1997年被IBM公司率先推出。时代进步,我国也没有停下对汉语语音识别的科研,甚至目前可与国际先进的国家同步,并且具有明显的文化优势和独有特色。

我们说话时,声带发不同的音节会有不同的周期变化。当发浊音时会引起声带产生周期性振动,我们称之为基音,频率与周期相乘为1,提取基音频率的问题可以转换成求取周期的问题。基音检测是对基音周期的估测。基音检测方法有相关处理法、变换法、波形估计法等方法,其中相关处理法分为AMDF 、自相关法等;变换法分为循环直方图、倒谱法;波形估计法分为数据减少法、过零率法等;自相关法、倒谱法和基于短时平均幅差的基音周期估计是常应用于基音检测的方法[1]。

众所周知,普通话汉语有词汇声调,单词可以通过基音频率(F0)轮廓和其他韵律特性的变化一个一个被区分出来。标准普通话的声调可能性传统上从1到4编号。依据国际语音字母表的Chao Tone Letter系统,其中声调模式被范围从1(最低)到5(最高)的连续节点图形化,四种基本词汇声调被描述如下:高、低涨、低落、高落。在一段连贯的语音中,5个声调类别的F0轮廓是受多种变化干扰的,包括零声调在内。在“第三变调”中,密切相关的Tone3+Tone3序列可能变为Tone2+Tone3。更普遍地,存在广泛的声调协同发音,所以比如,在Tone1末端(高F0)和Tone2始端(低F0)模式之间,一个降落会出现。此外,整体的基音范围在穿过扬声器时会本质上变化,一个给定扬声器的基音范围在短语内和短语之间变化,由于短语的下降趋势,变化的重读,话题转移效果等等[9]。

虽然许多汉语语音识别系统都有声调特性,以提高识别声调特定段整体任务的性能,有相对较少的文件尝试在连续语音中单独评估声调类别的自动识别。使用决策树和基于多项式拟合的分段表示对连续语音的F0轮廓得到27.8%段错误率(SER)。对于广播新闻,使用MLPs和上下文信息得到23.8%SER。最近,随着生物学上的团结启发听觉特性得到21%SER,尽管是命令和控制话语。所有保存执行明确的基音跟踪,即使包含参数,这些参数对于F0斜率可能是一个很好的代理。鉴于深度神经网络(DNN)算法对这些任务良好记录的优点,我们不惊讶地发现基于DNN的系统执行良好,在大致相当的任务上结果好于以前报告的结果。然而,我们感兴趣的是看到这个级别的性能在一个系统训练在一套声学参数上时,其中F0没有被明确地表示,并且发现训练在显示F0轮廓上的系统具有更糟糕的表现。所有这些结果都要进行确认和阐述,但是他们提出了一些关于方法的不明显的想法,一般来说对韵律特性进行建模[9]。

虽然语音信号处理的研究经过几十年的历史,产生了很多的成就,依然有许多方法和理论的问题需要面临,比如计算语音语义信息的方法,如何定量估计并且定性描述还没有统一准确方法;如何不失真地分割一段连贯的语音;如何在低速率下捕获有质量的语音进行编码等,语音信号辨识处理有广阔的研究前景。