论文部分内容阅读
相比于现有的诊断技术,无损非侵入式的声音诊断技术,近年来受到学术界的持续关注。但目前各种声音诊断研究中采集设备多种多样,采集流程各有差别,然而关于采样流程中的因素和分类准确率的关系的研究十分稀少。实际上,声音诊断技术目前仍处于起步阶段,亟待解决其采集过程中的标准化客观化问题。本课题的研究内容主要是围绕客观化采集流程规范以及病理特征提取和分析来展开。为建立客观化的采集环境,本课题设计了包含隔音室,麦克风和声卡的声音诊断系统。采集环境中的噪音十分影响采集到的声音的质量,因此隔音室用于降低噪声,减少量可达40分贝。提出的麦克风和声卡的选型指标保证了采集的声音信号不失真。参考对比已有实验的采集流程,文中建立了采集流程规范以保证流程客观性。根据汉语语音特点以及采集地区的具体情况,确定了语音采集的具体发音内容。该发音内容包含汉语的全部单元音以及大多数汉语辅音类型,确保采集到的语音覆盖大部分发音器官,能记录到因发音器官病变而产生的声音变化。在完成发音流程及内容设计之后,于中医院采集了频率为192 kHz或者96 kHz的声音样本,其中用于分类的样本有101人次2828例,主要包括健康人声音样本、帕金森病人声音样本、肺癌病人声音样本和声带疾病类病人声音样本。基于这些样本,我们探讨了不同采样频率的基音频率和GCI序列的差异以及声音特征和融合特征在不同采样频率下的分类准确率。实验表明,对帕金森疾病而言,当采样频率在16 kHz及以上时不同采样频率下的基音频率以及GCI序列差别不大。当使用全部特征时,帕金森声音在8 kHz时分类效果显著下降,肺癌声音或者声带类疾病声音在16 kHz及以下采样率时分类效果显著下降,而三类声音在其余采样频率下分类效果相差最大仅为3%,其中最高分类准确度分别为89%±3%、87.50%±2.2%和84.23%±2.9%。综合考量存储空间、特征计算速度以及分类准确度,确定最佳实用采样频率在24 kHz左右。由于分类疾病为典型的神经系统疾病,肺部疾病以及声带疾病,因此我们推出该结论对主要影响这三个器官的发音系统疾病也具有参考意义。