Sonar v2.0:开放式说话人识别研究平台的设计、实现和推广

来源 :浙江大学 | 被引量 : 0次 | 上传用户:pomerku
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,说话人识别(Speaker Recognition)领域各种特征信息提取手段层出不穷,模型识别技术日新月异,给实验和研究带来一定的挑战,目前已有的软件平台的在覆盖面和扩展性上已经不能满足研究的需要。本文研究和比较了该领域现有的软件平台,在实验室项目组的Sonar平台版本1.0(Speaker recOgnitioN softwAre platfoRm:Sonar version 1.0)的基础上,研制了开放式说话人识别研究软件平台Sonar version 2.0(Sonar v2)。Sonar v2实现了一个支持多层次说话人识别研究和开发的开放式平台。Sonarv2不仅适用于科研工作,还充分考虑了教学需求,填补了该领域教学平台的空白。该系统提供了语音采集、预处理、特征提取、声学建模、得分优化判决和性能评价一套完整的说话人识别流程模块,在各个模块集成了现今最常用最流行的算法。与之前的Sonar v1相比,Sonar v2无论是在架构的合理性、平台的易用性、还是在软件的可扩展性和剪裁性、系统的时空高效性和鲁棒性,以及在文档的完整性方面都有了长足的改进;与目前在业内享有盛誉的软件平台Alize相比,Sonar v2不仅综合性更强,支持更丰富的特征提取算法和模型算法,而且经实验证明,Sonarv2在准确性和运行速度上都有一定的优势,此外,Sonar v2在教学平台建设方面的工作也是一大特色。本论文的主要工作在于:1、设计和建构了Sonar v2系统框架,实现并验证系统功能:Sonar v2实现了清晰的模块划分,明确的中间文件格式定义,完全透明的底层文件系统操作,此外,还实现了一个独创性的特色子系统:基于脚本的语音库自动评测。2、分析改进系统运行的时空效率和鲁棒性:分析现有系统Alize和Sonar v1的效率,Sonar v2吸收精华,改进其不足,在时空效率和鲁棒性上和Alize及Sonar v1软件平台相比都有一定的优势。3、基准评测:利用Sonar v2的语音库自动评测完成了现有算法的准确性评价,可重复性强,为算法实验提供了通用的基线。4、教学平台建设和软件系统推广:Sonar v2制定并实施了完整的系统推广计划,包括编程和系统模块扩展规范的制定,二次开发API文档的制作,用户体验调查和根据反馈改进系统等。Sonar v2还充分考虑教学需要,特别开发了两个教学辅助工具:Sonar应用程序和Sonar Practice自动练习检查系统。Sonar v2在教学平台建设方面所做的工作使其成为一个实用的教学平台,填补了说话人识别领域教学软件平台的空白。本文工作得到以下基金资助:国家杰出青年基金60525202,国家自然科学基金60533040,教育部新世纪优秀人才计划NCET-04-0545,国家高技术研究发展计划2006AA01Z136,长江学者和创新团队发展计划IRT0652,浙江省自然科学基金Y106705。
其他文献
随着网络技术和人工智能技术的不断进步,基于Agent技术的电子商务近年来有了快速的发展。为了尽可能取得更大效益,Agent可以在电子市场中通过联合进行买卖交易。然而,由于提供给
随着计算机网络的飞速发展和社会信息化进程的加快,越来越多的企业和政府部门通过信息系统开展业务、提供服务,信息系统的安全问题逐渐受到关注,成为时下热点。风险评估能够有效
随着计算机网络技术的飞速发展及Internet应用的普及,电子商务、电子政务、Internet网络信息等服务都随之获得广泛应用,从而使得网络安全日益受到社会的重视。而身份认证可以
随着对软件需求的快速发展,如何提高软件生产过程的效能,以便能更快、更省的交付高质量的软件产品,越来越成为软件开发突出的问题。近年来国内对中小型企业应用系统需求的快速增
在MAS(Multi Agent System)环境中活动的Agent总是在一个庞大的、复杂的、开放的、动态的和不可预期的环境中操作。它在任意时刻的最优策略总是依赖于其他Agent所使用的策略
本文实现了可应用于文物展示的物体表面反射参数获取技术,该技术参考了现有三维扫描系统的原理,并利用了现有的三维扫描设备,在对物体进行三维扫描的同时,能获得反射参数计算所需
流媒体应用是推动未来网络应用的主动力,但流媒体对带宽的高占用特性、实时特性使其在无线网络上大规模应用面临诸多困难。几乎所有现有的流媒体系统都是基于客户端/服务器(C/S)
随着数字技术和网络技术的不断发展,数字多媒体应用已经达到了前所未有的深度和广度。普通计算机应用与多媒体应用的区别在于多媒体技术应用中数据量大、实时性要求高。用于
数字信息存储已经成为了现代社会的基础,大容量数字存储技术的发明已经宣告了一个新时代的来临,其重要性可以与印刷技术的发明相媲美。信道编码技术是实现大容量可靠的数据存
网格技术被誉为继互联网和Web之后的第三次信息技术浪潮,网格把整个互联网整合成一台巨大的超级计算机,实现计算资源、存储资源、通信资源、软件资源、信息资源、知识资源的全