倒谱法wav文件说话人性别识别(2)

1.2 研究现状 1.3 本文完成工作 1.WAV音频文件提取语音数据与显示语音波形 语音信号的提取是语音信号处理的基础,本课题选择WAV音频文件分析。WAV(Wave


1.2 研究现状

1.3 本文完成工作

1.WAV音频文件提取语音数据与显示语音波形

语音信号的提取是语音信号处理的基础,本课题选择WAV音频文件分析。WAV(Waveform audio format)是微软与IBM公司所开发的一种声音编码格式,它符合RIFF(Resource Interchange File Format)文件规范,用于保存Windows平台的音频信息资源。[10]在理解WAV文件结构以后,通过使用MFC编程提取与显示语音波形。如图1.2所示。

图1.2 语音波形图

2.说话人性别识别的实现

由于不同性别的说话人在基音频率上有着明显的差异,因此选择基音频率作为判断性别的特征参数。在估计基音周期的方法中,选择了倒谱法(cepstrum)估计基音周期。在对原始语音数据进行预加重,分帧,加窗,快速傅里叶变换(FFT),取模,取对数,快速傅里叶逆变换得到倒谱,从而估计基音周期。[11]最后将基音周期取倒数得到基音频率,与设定阈值比较判断出说话人性别。

3.数据库建立与阈值设定

说话人性别识别的基音频率的阈值设定需要数据库的支持。为此,通过收集,截取音频的方式,按照男女划分,共计100个样本。并得到每一份样本的基音频率。分析男女基音频率差异,设定合理阈值。

2 语音信号的提取与显示

语音信号处理的基础是提取语音数据,本文选择WAV文件处理。本章将详细介绍WAV文件的结构。

2.1 WAV文件格式解析

WAV文件是是微软开发的一种声音编码格式,以RIFF文件格式为标准,数据本身的编码方式为PCM。WAV文件由文件头和数据段两部分组成,文件头分为RIFF/WAV文件标识段和声音数据说明段。RIFF文件格式是一种树状的结构,节点是CHUNK。每个CHUNK都是基本单元,由标识码,数据大小,数据组成。