基于生理信息的声道归一化研究及其在发音运动识别中的应用

来源 :天津大学 | 被引量 : 0次 | 上传用户:q5479333321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
不同说话人发音时声道形态差异很大,不利于生理发音数据的统计对比和生理发音模型的建立。减小说话人的声道形态差异不仅有助于发音特性的分析而且能够提高语音识别系统的鲁棒性。本研究旨在探索如何减小不同说话人发音器官间的形态差异,并进一步分析归一化后发音信息的特征及其在发音运动信息识别中的表现。为此,本研究提出基于薄板样条插值函数(Thin-Plate Spline——TPS)与声道网格线系统相结合的方法对汉语和日语说话人的声道形态进行归一化处理。在生理空间上,我们研究该方法和拉直声道归一化方法之间的差异;在声学空间上,我们将基于TPS方法的归一化结果与其它几种元音归一化的结果进行对比。与此同时,本研究利用基于深度神经网络(DNN)的语音识别技术来进一步评估归一化前后的生理发音运动识别情况。本研究的实验数据是由电磁发音仪(EMA)设备采集的,该数据包含汉语数据和日语数据。我们通过分别计算三个说话人的上颚和舌头数据得到归一化所需的声道网格系统进行归一化研究。研究结果表明,不同说话人的声道形态在经过TPS方法归一化后差异显著减小;同时,说话人的元音发音结构在归一化前后大致保持一致,这说明我们提出的方法能够保持说话人特定的发音特性。在声学空间的研究结果也表明元音发音空间在生理空间和声学空间保持一致。此外,归一化后的研究结果更加明显体现出汉语和日语元音之间的发音特征差异性。发音运动识别结果表明:在归一化后对孤立元音的音素错误率降低了25%;而连续音素的识别错误率降低了5.84%。
其他文献
特征选择目前已成为机器学习研究领域的热点之一,其核心是根据某一评估准则从原始特征中获取能够保留初始物理特征的特征子集。粗糙集理论是被用于描述分类数据不一致程度的
随着科学技术的不断发展,计算机越来越成为人们日常生活中不可或缺的必备品,而智能交互技术也同时得到了快速的发展。人与人之间的沟通可以通过语言、肢体动作和表情等,那么
全国政协文化文史和学习委员会副主任刘福连:切实加强农村基层党组织对文化建设的组织领导今年6月,刘奇葆副主席带领全国政协文化文史和学习委员会调研组,围绕"发挥文化建设
目前随着电解铝产能不断扩大,以及铝成品的种类越来越多,并且铝成品的生产过程及后期管理中,需要通过质检、化验、计量、仓库、销售等诸多环节,使铝成品的管理面临着非常大的
目前,室内导航技术主要有惯性导航技术、视觉导航技术和无线电导航技术等,但受制于技术本身的缺点或应用环境的限制,大多仍处在理论研究阶段;针对室内导航应用要求精度高、柔
视频目标跟踪技术是计算机视觉和图像处理领域的一个研究热点。针对视频目标跟踪问题,研究者们提出了一些跟踪算法,然而这些算法只是解决特定情况下的跟踪问题,并且在实际跟
随着计算机和通信技术的发展,形成了以第三代(3G)通信移动技术、无线局域网(WLAN)以及全球微波互联接入(WiMAX)为代表的移动通信技术。然而,单一的网络无法独立承担所有移动
本文拟通过对神经网络的简单应用,利用股票的单日数据对股票做出简单鉴别选择,从而达到选出涨幅优秀的股票的目的。使用到的方法包括聚类分析,因子分析,主成分分析,神经网络
近年来,随着多媒体技术的发展以及用户体验需求的不断提升,3D视频因具有沉浸式视觉效果而获得了广泛的关注。然而,3D视频的大数据量对传输和存储提出了更高要求。多视点视频
声音是声波在不断变换形状的声道中震荡产生的。双边梨状窝作为声道的侧支在声音传递函数中产生反共振作用。目前,已经有不少研究使用男性声道进行双边梨状窝的声学分析,却少