本世纪以来,说话人性别识别由以前的对单字语音信号分析逐渐拓展为一段语音的分析,随着技术的进一步发展,主成分分析(PCA),支持向量机算法(SVM)
语音信号处理作为一个重要的研究方向,有着不短的历史,其中1960年代中期,数字滤波器,快速傅里叶变换(FFT)等技术方法成为语音信号处理的理论基础,语音合成得到的扎实发展。[1]方式上,随着计算机技术的兴起,硬件为中心渐渐被软件为中心取代。1980年代期间,许多理论开始被用于语音信号处理,标志着语音信号处理技术得到了突破性发展。其中一些非线性的特征参数,如梅尔频率倒谱系数(MFCC)开始应用于语音信号处理, Mel频率与Hz频率之间非线性的对应关系,所以MFCC随着频率的提高,其计算精度随之下降。[2]因此,MFCC对低频信号计算准确,有效屏蔽高频噪声。隐马尔可夫模型(Hidden Markov Model,HMM)作为一种统计分析模型被应用于语音识别,取得重大成功。同一时期,人工神经网络(ANN)也被用于语音信号处理。[3]进入1990年来,语音信号处理逐渐步入实用化,由于统计学模型的深入发展,鲁棒的语音识别成为热点。[4]
语音编码方面发展
说话人性别识别是说话人识别领域很重要的一个方面。[5]目前对于说话人性别识别主要采取提取特征参数的方法,主要有梅尔倒谱系数(MFCC)以及线性预测倒谱系数(LPCC),两者有所区别。[6]由于线性预测倒谱系数(LPCC)是一个以假定语音信号为线性预测结构的模型,因此相对于具有一些周期性的浊音来说比较符合,而对于发音时声带不震动、送气的辅音来说,因为缺乏周期分量,所以线性预测倒谱系数(LPCC)相当于使用了错误的模型,失真严重。而基于梅尔倒谱系数(MFCC)的频率分析则是模拟了人耳的处理特性,对于线性频谱先映射在梅尔频谱上。因此在梅尔频域上,音调的感知与频率成为线性关系。大量实验证明梅尔倒谱系数(MFCC)提取的特征参数相较于线性预测倒谱系数(LPCC)有着更准确的匹配度。它不仅包含了语音信息,还包含了说话人信息。[7]
本世纪以来,说话人性别识别由以前的对单字语音信号分析逐渐拓展为一段语音的分析,随着技术的进一步发展,主成分分析(PCA),支持向量机算法(SVM),高斯混合模型(GMM)也被用于语音信号分析,并取得了很好的效果。[8]对比高斯混合模型(GMM)与隐马尔可夫模型(HMM), 隐马尔可夫型(HMM)是对于大量既有语音数据作出统计模型,这同时意味着需要耗费大量的时间以及资源进行模型的建立,虽然一定程度上,模型建立完成之后能够较大的升高确定度,但是,代价与回报不成正比。而高斯混合模型(GMM)相当于融合了高斯密度的隐马尔可夫模型,用于语音识别分别对应每一个个体。