论文部分内容阅读
通过声音来诊断疾病的方法,近年来因为其有简单、方便、快捷且无需损伤受诊人机体和无需侵入式检查的的优势受到了广泛关注。目前关于声音诊断的研究虽然很多,但是却缺乏统一的采样流程和规范。许多研究还因为其样本集数量的不足,而缺乏说服力。甚至因为采样参数的不同,使得其研究成果无法被其他研究者重现。本课题主要围绕声音诊断系统的采集和分析技术展开研究,重点解决发音内容和时长,声音特征的选择和降维,声诊系统的采样频率和量化位数的选择等关键技术问题。确定规范化的样本采集流程,需要选择合适的采样硬件设备,主要包括麦克风和声卡等。采样过程还包括发音内容和发音时长的选择,本课题结合美国国家语音中心所推荐的元音发音,并考虑样本采集地人群的发音特点,选择了28个带有元音的发音内容。结合实际情况,选择了2秒发音时长。同时,将数据库中已有的疾病按影响发声的病理,分为神经类、肺病类和发声器官病变类三大类。为了确立声音诊断系统的采样频率和量化位数,对不同的采样频率进行了分类实验,结合其结果、运行时间和存储空间等因素,给出了推荐的采样频率为16kHZ和24kHZ。对不同的量化位数也进行了相同的分析,给出了推荐的量化位数为不少于16位。为了选择适宜的声音特征和降维方法,本课题对常用的声音特征进行了分类实验,结合实际对声音特征进行了取舍。其中,梅尔倒谱系数的分类准确率远远高于其它特征。还选择了7种不同的降维方法,通过分析它们不同的降维结果选择最适宜的降维方法即多式项核函数的主成分分析法。还对数据库中已有的各种疾病进行了分类实验,结合其结果和该病病理,分析了各类疾病的可分性。其中,帕金森的分类准确率达到87%以上,而心律不齐、糖尿病和肺癌的分类准确率也都超过80%。最后设计并实现了声音诊断原型系统,该系统包括高保真声音信号采集模块、病理特征提取模块、疾病分类模块、以及分析报告输出模块。目前该系统可针对神经类、肺病类和发声器官病变类这三大类疾病进行分析。