中文文—语转换系统中多音字问题研究

来源 :河北大学 | 被引量 : 0次 | 上传用户:sheng198208
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
计算机文-语转换技术(Text-to-Speech,简称TTS)指利用计算机程序将既定的可视文本信息转换成语音的过程。这一系统广泛地涉及了语言学、语音学、计算机编程、数字信号处理等领域,是一门综合了多学科多领域的技术项目。我们接触的拼音输入法、图书拼音排序检索、各种音序排序、汉语的语音教学软件的运用、各类电子产品的语音朗读功能的改进、自动介绍或者答复系统以及盲人用品和儿童玩具的开发、甚至包括机器人制造以及未来语音操控系统在各领域的实现,都离不开这一技术手段。作为一项高度要求理论性与实用性相结合的技术,TTS在产生之初就备受各学科学者的高度重视。如何提高TTS系统中语音合成的流畅度、自然度与准确率成为这一技术必须关注的焦点。其中,汉语多音字读音自动标注的准确率更成为文-语转换技术的难点之一。本文的研究对象在于,确定《现代汉语词典》(第5版)(以下简称《现汉》)中921个多音字及其音项在CCL现代汉语语料库中的语用频率,以字频为基础,进而从语言学理论的角度出发,为TTS处理中多音字问题的解决提出一种新思路。文章的主要内容包括三个部分,第一部分,对《现汉》中多音字的数目进行统计,确定以921个多音字为研究对象,并对每个多音字的词性及进行统计。第二部分,在CCL现代汉语语料库中对这921个多音字的字频进行语用频率统计。根据统计结果和累计频率的计算,最终将这些多音字分出高、中、低三个频级。对各频级的多音字每个音项的使用频率进行统计,分出高频音、低频音两个音级,对在语料库中只占1%的低频多音字采用常读音默认的方法进行处理。第三部分,对中、高频多音字进行分类,综合运用多音节词排除法、词性确定法和附带常用多音字词库法等方法进行处理。对那些各音项语用频率相当、词性区别不明显的可独立成词的多音字,则逐条梳理其所有语料,总结其出现的语境,为多音字构建规则。
其他文献
目的研究羟基积雪草苷在大鼠肠段各段的吸收特征,探究其在肠道的吸收机制,为设计药物的剂型和给药途径提供理论基础。方法利用大鼠在体循环肠灌流模型和方法,探明羟基积雪草
现代维吾尔语摹拟词与其他词类的研究相比,研究起步较晚,研究的深度不够,鲜有专题研究成果问世。因此,研究维吾尔语摹拟词对于整个维吾尔语语法和词汇系统的研究来说,都有重要的理
随着我国电力市场改革的深入,以及煤炭价格的大幅上涨,发电企业正在面临着日益严酷的外部环境,发电企业间的竞争也日趋激烈。企业必须制定合理的战略体系和进行有效地管理去
目的了解新疆生产建设兵团(下简称新疆兵团)某师中学生心理健康状况,为制定中学生心理问题干预措施提供依据。方法采用整群抽样的方法在某师8个团场及师直属学校调查了中学生
互动是外语课堂中的重要环节,是学习者各方面发展变化的重要阶段。本文拟从心理语言学视角分析互动在外语课堂的内涵,并以注意、支架教学以及协同几个心理语言学所关注的问题
2004年4月,郑州市文物考古研究院配合基本建设,抢救性发掘了黄岗寺一座明代墓葬,出土随葬瓷器十几件,为研究郑州地区明代瓷器及丧葬文化提供了重要的实物资料。
吐槽是网络特有的内容生产方式,网络吐槽是近年来受众的集体吐槽和全民狂欢的典型表现形式。以具有代表性的2014年春晚吐槽为例,春晚吐槽源自几个原因:央视的有意为之;网络的
“民主援助”是美国输出民主战略的重要组成部分,是美国在全球推行其所谓民主化的重要工具,伴随着全国民主基金会的成立出现于上世纪80年代。上世纪90年代的前苏联与东欧处于
在城乡一体化、农业现代化等时代背景下,当前我国农村的经济结构、社会结构以及农民的职业结构等方面都发生了较为显著的变化。研究我国村落社会的分化变迁,无论是对于我国农村