倒谱法wav文件说话人性别识别(2)

2024-10-29 21:59 98216 来源：论文网

1.2 研究现状 1.3 本文完成工作 1.WAV音频文件提取语音数据与显示语音波形语音信号的提取是语音信号处理的基础，本课题选择WAV音频文件分析。WAV（Wave

1.2 研究现状

1.3 本文完成工作

1.WAV音频文件提取语音数据与显示语音波形

语音信号的提取是语音信号处理的基础，本课题选择WAV音频文件分析。WAV（Waveform audio format）是微软与IBM公司所开发的一种声音编码格式，它符合RIFF(Resource Interchange File Format)文件规范，用于保存Windows平台的音频信息资源。[10]在理解WAV文件结构以后，通过使用MFC编程提取与显示语音波形。如图1.2所示。

图1.2 语音波形图

2.说话人性别识别的实现

由于不同性别的说话人在基音频率上有着明显的差异，因此选择基音频率作为判断性别的特征参数。在估计基音周期的方法中，选择了倒谱法（cepstrum）估计基音周期。在对原始语音数据进行预加重，分帧，加窗，快速傅里叶变换（FFT）,取模，取对数，快速傅里叶逆变换得到倒谱，从而估计基音周期。[11]最后将基音周期取倒数得到基音频率，与设定阈值比较判断出说话人性别。

3.数据库建立与阈值设定

说话人性别识别的基音频率的阈值设定需要数据库的支持。为此，通过收集，截取音频的方式，按照男女划分，共计100个样本。并得到每一份样本的基音频率。分析男女基音频率差异，设定合理阈值。

2 语音信号的提取与显示

语音信号处理的基础是提取语音数据，本文选择WAV文件处理。本章将详细介绍WAV文件的结构。

2.1 WAV文件格式解析

WAV文件是是微软开发的一种声音编码格式，以RIFF文件格式为标准，数据本身的编码方式为PCM。WAV文件由文件头和数据段两部分组成，文件头分为RIFF/WAV文件标识段和声音数据说明段。RIFF文件格式是一种树状的结构，节点是CHUNK。每个CHUNK都是基本单元，由标识码，数据大小，数据组成。

上一篇：java市民中心网上预约管理信息系统的设计与实现
下一篇：基于MapReduce的海量数据K-means聚类算法

倒谱法wav文件说话人性别识别(2)

热门论文

推荐论文

随机论文