论文部分内容阅读
近年来,说话人识别(Speaker Recognition)领域各种特征信息提取手段层出不穷,模型识别技术日新月异,给实验和研究带来一定的挑战,目前已有的软件平台的在覆盖面和扩展性上已经不能满足研究的需要。本文研究和比较了该领域现有的软件平台,在实验室项目组的Sonar平台版本1.0(Speaker recOgnitioN softwAre platfoRm:Sonar version 1.0)的基础上,研制了开放式说话人识别研究软件平台Sonar version 2.0(Sonar v2)。Sonar v2实现了一个支持多层次说话人识别研究和开发的开放式平台。Sonarv2不仅适用于科研工作,还充分考虑了教学需求,填补了该领域教学平台的空白。该系统提供了语音采集、预处理、特征提取、声学建模、得分优化判决和性能评价一套完整的说话人识别流程模块,在各个模块集成了现今最常用最流行的算法。与之前的Sonar v1相比,Sonar v2无论是在架构的合理性、平台的易用性、还是在软件的可扩展性和剪裁性、系统的时空高效性和鲁棒性,以及在文档的完整性方面都有了长足的改进;与目前在业内享有盛誉的软件平台Alize相比,Sonar v2不仅综合性更强,支持更丰富的特征提取算法和模型算法,而且经实验证明,Sonarv2在准确性和运行速度上都有一定的优势,此外,Sonar v2在教学平台建设方面的工作也是一大特色。本论文的主要工作在于:1、设计和建构了Sonar v2系统框架,实现并验证系统功能:Sonar v2实现了清晰的模块划分,明确的中间文件格式定义,完全透明的底层文件系统操作,此外,还实现了一个独创性的特色子系统:基于脚本的语音库自动评测。2、分析改进系统运行的时空效率和鲁棒性:分析现有系统Alize和Sonar v1的效率,Sonar v2吸收精华,改进其不足,在时空效率和鲁棒性上和Alize及Sonar v1软件平台相比都有一定的优势。3、基准评测:利用Sonar v2的语音库自动评测完成了现有算法的准确性评价,可重复性强,为算法实验提供了通用的基线。4、教学平台建设和软件系统推广:Sonar v2制定并实施了完整的系统推广计划,包括编程和系统模块扩展规范的制定,二次开发API文档的制作,用户体验调查和根据反馈改进系统等。Sonar v2还充分考虑教学需要,特别开发了两个教学辅助工具:Sonar应用程序和Sonar Practice自动练习检查系统。Sonar v2在教学平台建设方面所做的工作使其成为一个实用的教学平台,填补了说话人识别领域教学软件平台的空白。本文工作得到以下基金资助:国家杰出青年基金60525202,国家自然科学基金60533040,教育部新世纪优秀人才计划NCET-04-0545,国家高技术研究发展计划2006AA01Z136,长江学者和创新团队发展计划IRT0652,浙江省自然科学基金Y106705。