方言口音普通话语音自动切分算法研究

来源 :中国科学院计算技术研究所 | 被引量 : 5次 | 上传用户:xy3594830691
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文研究方言口音普通话语音自动切分算法,主要服务于方言口音普通话语音库建设。近年来,随着语音学研究转向口音化、口语化的自然语音,方言普通话语音库已经成为国内语音库建设的一个热点。音段切分与标注是语音库建设中最费时费力的环节,通过提高语音自动切分算法准确率,可以有效地提高方言普通话语音库的建设效率。 本文对当前语音自动切分算法进行了比较系统的研究,在此基础上,作者做了以下工作: 1.提出语音自动切分中的方言口音建模方案 方言口音建模是本研究的关键,其作用是利用方言口音语音数据调整系统参数或结构,使其体现方言口音特征。本文全面比较了方言口音建模中的字典自适应技术和声学模型自适应技术的各种实现方法,提出采用数据驱动的多发音字典构建技术、以及surface-form标注监督下MAP声学模型自适应的方言口音建模方案。 2.提出方言口音普通话语音自动切分框架 方言口音语音自动切分是一个较新的研究课题,当前尚无研究人员提出有效的算法解决它。本文提出一个方言口音普通话语音自动切分框架,在通用语音自动切分系统的基础上,通过在标注转换模块引入多发音字典,在Viterbi自动对齐模块引入基于多语音学标注序列的自动对齐算法,以及在模型训练过程中引入声学模型自适应技术,将标准普通话语音切分系统改造成方言普通话语音自动切分系统,有效提高了切分准确率。同时,本文提出渐进式语音库音段切分策略。可以有效提高语音语音库建设效率。 3.上海方言普通话语音自动切分实验 本文以863上海方言普通话语音库为研究对象,通过一系列实验验证了上述方言口音建模方案以及方言口音普通话语音自动切分框架的可行性。实验结果显示,采用surface-form标注监督下的MAP声学模型自适应与多发音字典相结合的方言口音建模技术时,可以将边界偏差小于20ms的切分正确率提高3.9%、平均边界偏差减小8.1ms,当进一步采用带音段时间信息的surface-form标注监督下的MAP自适应时,两个指标改善幅度分别是5.1%与9.3ms。
其他文献
数据库功能和规模的膨胀与数据库性能调整的复杂已渐渐成为应用中严峻的问题。自适应数据库是一种新兴的数据库技术,其目标是将日益复杂的数据库调整任务从系统管理人员转移
林分生长收获模型在森林经营管理中有着重要的作用,随着林分生长过程中相应的经营措施(如间伐、施肥等)的实施以及林分可能发生的病虫害等,会对林分生长产生影响,即使当前最
大规模的并行计算机越来越多的被用于解决许多不同领域的大规模的I/O密集型应用,对于这些应用,I/O请求在获得高性能方面上常常造成严重的障碍,当前研究的一个重要方面就是开发一些
由于网络规模的不断扩大,网络管理研究成为IT业界的热门研究方向之一,通信运营商急需建设综合化、集中化、智能化的网管系统,对通信网进行有效的管理,为客户提供优质的服务,提高企
自组织网是一种自治的无线网,整个网络不需固定的基础设施,可以在不能利用或不便利用现有网络基础设施的情况下,提供一种便捷的通信支撑环境,拓宽了移动网络的应用场合。目前
根据计世资讯对于开发企业信息化解决方案的需求调研结果表明,基于业务流程管理的应用软件市场正呈现指数级、井喷式增长趋势。工作流产品作为开发业务流程管理软件的解决方案
随着网络技术的飞速发展,Internet技术已经渗透到日常生活和工业生产的各个领域,这使得远程实时监控工业自动化生产成为可能。技术人员无须亲临现场(尤其在恶劣环境下)就可以对
无线通信及相关技术的发展促进了新的网络组织方式的形成,MANET就是其中最重要的方式之一。MANET具有无固定基础设施支持,无中心和自组织,支持移动无线传输,易于安装部署等特
随着中国加入WTO,媒体产业逐步开放,媒体之间的竞争加剧,电视媒体广告业正面临着前所未有的挑战。如何将日益堆积的广告业务数据进行有效管理,挖掘其中埋藏的信息,如何吸引客户和
随着教学改革的深入和计算机技术与应用的发展,多媒体网络教学成为传统教学模式的发展方向。近几年,国内外涌现了大量的多媒体教学软件,大多数都具有比较类似的特征,如音/视