面向信息处理的藏语同形异音词读音识别技术研究

来源 :西藏大学 | 被引量 : 0次 | 上传用户:chen6524
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现代藏语词语,从词的读音方面可分为异形同音词和同形异音词,而从词的意义方面分为同形异义词和异形同义词。其中同形异音词与多音词,同形异义词和多义词在藏语语言学界中具有一定的区别,但这些词汇在形态上具有一定的相似性。在经过语言本身的发展过程中,很多藏语词汇从词的意义和发音上都有很大的变化,这对当前藏语计算语言学的发展和研究带来了很大的困难。随着藏文信息处理的不断发展和逐步成熟,藏语语音合成方面的研究也开始进入深入研究的高峰期,从而藏语同形异音词的读音问题成为合成系统自然度和可懂度的主要障碍,而到目前为止鲜有对这方面的研究工作和相关报告,仍处于研究初级阶段。同时,藏语同形异音词与汉语中多音词的性质有所不同,仅仅依靠词典不一定能解决藏语同形异音词的歧义问题。因此,本文从藏语本身独有的语言规则和语音特点出发,依据《藏汉大词典》,在其所列出的常用藏语同形异音词的基础上,共收集整理了465个同形异音词,根据同形异音词在28万余句藏语文本中出现频率及不同读音的使用频率,最终挑选180个高频同形异音词作为本文研究中分析的主要对象。藏语中有不少词具有两种不同的读音,因读音的不同,有的词在语义上有细微的差异,有的词截然不同,这类词很容易引起误读或语义上的误解。本文在分析藏语字和词各种读法的基础上,从语音方面研究了同形异音词产生的原因。首先深度辨析了藏语同形异音词的构词形式、分类以及在藏语文本中出现的形式,系统地研究了当前在藏语TTS系统中同形异音词的根本来源,并探讨了因不同的读法而产生的语义及用法上的差异。根据分析结果,本文最终采用规则与统计建模相结合的方法,在实验条件较为完善的环境下,对180个高频同形异音词进行实验。实验结果证明,结合规则和统计方法的应用能够使系统取长补短,从而可以高效地解决当前在藏语语音合成中同形异音词的读音识别难点,并取得了较好的识别效果。同时根据初始的实验结果,对剩下的285个不常用的同形异音词也进行了分析及测试实验。最终结果表明,该方法在藏语同形异音词读音识别领域具有一定的通用性,为语音合成系统的前端文本分析模块提供了有力依据。对其他藏语语言学理论研究方面也具有一定的借鉴意义。本文针对当前在藏语语音合成中的一项突出问题,首次展开研究了藏语TTS系统前端文本分析中藏语同形异音词的读音消歧问题,并将基于CRF模型的日本文本分析器Mecab系统首次运用在藏语文本分析中。Mecab系统内部的模块设计清晰、简单,同时藏文和日文具有类似的分词和标注需求,因此Mecab系统对于藏文文本处理来说有着很好的借鉴价值。
其他文献
随着城市建设越来越美,城市道路的景观设计已经被人们所接受,经过精心设计的道路景观,对走在道路上人的心理起到舒缓压力的作用,同时通过有效的设计也能在改善交通状况、减少
就近年来肝细胞体外培养的研究动态进行了概述,包括肝细胞分离制备技术、体外培养方法的研究进展及肝细胞的鉴定方法,并就影响肝细胞体外培养的因素进行了分析。本综述对体外
自动化立体仓库是现代物流系统中迅速发展的一个重要组成部分,是现代化企业的显著标志.文中阐述了自动化立体仓库的基本构造,重点分析了自动化立体仓库的主要优势,指出了这种
国际储备中最主要的一种储备形式是外汇储备,其对一个国家政治、经济的稳定与发展起着极其重要的作用。由于外汇储备这种特性使得其无法被其他任何形式的资产替代,所以使得对
全球金融危机席卷过后,人们开始关注到高速发展的经济领域中相伴而生的风险升级,因为蓬勃发展的市场经济同样也引发了企业之间更为激烈的竞争与淘汰。如何更准确清晰的了解企
信息化技术已经从传统的互联网时代走进云计算、大数据时代。传统的交通信息化也在向智能交通转型。在智能交通的理念下将云计算机、大数据的理念相融入,将会使原有交通信息
本文主要阐明了集合理财产品的定义、包含品种、特点以及集合理财产品在我国的发展过程、经验教训和现在所呈现的态势。券商集合理财产品处于发展初期,不仅法律法规尚不健全,
目的:研究和探讨功能裂隙灯生物显微镜对正常成人结膜微血管血流动力学指标的检测和临床应用价值。方法:收集自本院正常体检者32例,使用功能裂隙灯生物显微镜对正常成人结膜
电力系统通信电源为通信站点的通信设备提供直流工作电源,其性能直接影响电力系统通信网络的安全可靠性。通信蓄电池作为通信电源的重要组成部分,其稳定运行可保障交流供电故
现代服务业依托于现代信息技术和管理理念,是属于知识、信息相对密集型的服务业,它是“后工业化时代”发展的产物。推动服务业的全面发展是实现我国经济迅速发展和人们生活水