非时齐语言建模技术研究及实践

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：cheng1129

【摘要】

：

语言模型是自然语言的数学描述,是人们为了解释、利用自然语言规律而构建的抽象的形式化系统。语言模型的研究是自然语言处理领域的基础性研究,其研究成果可以被直接地应用到

【作者】

：

肖镜辉

【出处】

：

哈尔滨工业大学

【发表日期】

：

2007年期

【关键词】

：

非时齐属性语言模型平滑技术音字转换键音转换

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

语言模型是自然语言的数学描述,是人们为了解释、利用自然语言规律而构建的抽象的形式化系统。语言模型的研究是自然语言处理领域的基础性研究,其研究成果可以被直接地应用到汉语音字转换任务中,并且能够被广泛地应用在语音识别、手写体识别、印刷品字符识别、机器翻译、信息检索、语料库多级加工等众多的自然语言应用领域当中。当前,随着网络信息的飞速增长,海量电子文本的获得已不再困难,概率统计的方法以其准确率高、鲁棒性强等优点成为语言建模领域的主要方法。统计语言模型成为当前的主流语言模型。然而,统计语言模型单纯从统计角度出发,将自然语言看作是语言元素的随机序列,而忽略了语言本身的规律和特点。如何在统计语言模型中利用语言学知识成为当前语言建模领域面临的难题之一。目前,将语言学知识直接与统计语言建模技术相结合面临如下困难:1.语言学知识难以精确地自动获得;2.语言学知识难以与现有的统计建模技术相融合。针对上述问题,本文提出通过研究语言单位在自然语言序列中的位置信息和规律来间接地反映自然语言的语法语义信息。语言单位因其语法语义属性不同,其可以充当的语言成分不同,在句子以及篇章中所起到的作用也不相同,它在自然语言文本中出现的位置和范围具有一定的规律性。这种规律是自然语言语法语义规律的体现。针对上述规律,本文在随机过程理论的基础上扩展了时齐性假设,提出非时齐语言建模假设,即假设当前语言单位的出现概率与它在自然语言序列中的位置相关。在此基础上,本文分别对非时齐语言建模的理论、技术、方法和相关问题进行研究,并将其应用到汉语音字转换任务中,从而提高汉语键盘输入系统的性能。本文的研究内容主要包含以下四个方面:第一,本文进行语言建模研究的资源准备工作,提出一种面向汉语语言建模的词表自动生成算法。本文首先将词表自动生成工作同汉语语言建模工作相结合,设计一种一体化迭代算法框架,通过建立优化词表的方式来提高现有语言模型的性能。在该框架下,本文采用统计特征与构词特征相结合的词表生成策略,以提高词表生成算法的性能。最后,本文提出两种启发式方法使系统自动适应训练语料的领域,从而使系统具有自适应性。第二,本文进行非时齐语言建模的理论与方法研究。首先,本文讨论了语言单位非时齐属性的量化表示方法,并在此基础上分析了语言单位非时齐属性的统计规律。接下来,本文将非时齐属性规律与现有的语言建模技术相结合,分别提出非时齐Ngram模型和非时齐最大熵马尔科夫模型,并讨论了模型构建、训练方法、参数平滑和模型复杂度等问题。最后,本文分别在音字转换和词性标注任务中对以上两种模型进行验证。第三,针对语言模型中的数据稀疏问题,本文提出基于语义的平滑算法。本文从Hownet和同义词词林等语言学资源中提取汉语语义信息,将其分别与回退平滑和插值平滑技术相结合,设计基于语义的回退和插值平滑算法,从而提高平滑后语言模型的性能。并且,本文设计基于迭代的参数优化方法,自动优化平滑算法中的各项参数。第四,本文将语言建模技术应用到汉语键盘输入任务中。首先,针对手机等移动设备上的拼音汉字输入法,本文提出键音转换问题,同时给出两种解决方案,并在实验中加以验证。接下来,本文提出利用用户输入的拼音信息来提高汉语音字转换系统的性能。一种基于类别的最大熵马尔科夫模型被用来高效地构建音字转换系统,使之能够同时利用用户输入的拼音信息和汉字之间的约束信息。实验表明,拼音信息能够有效提高汉语音字转换系统性能。

其他文献

渤海鱼类群落结构关键种

基于2012—2016年每年8月渤海鱼类资源量底拖网调查数据,对鱼类群落进行了CLUSTER聚类分析和MDS标序,根据组间差异种和组内相似种年际贡献率,筛选鱼类群落结构关键种,结果显

期刊

渤海鱼类群落结构关键种资源评估

近30年渤海鱼类种群早期补充群体群聚特性和结构更替

基于30余年渤海鱼卵、仔稚鱼历史调查资料的整理分析并结合产卵场补充调查,以1982~1983年周年逐月调查资料为本底,采用多元统计学方法分析30余年渤海鱼类种群早期补充群体群

期刊

渤海鱼卵仔稚鱼早期补充群聚特性结构更替年际变化

民办高校青年骨干教师的培养机制研究——以上海思博职业技术学院为例

本文以上海思博职业技术学院为例,结合民办高校生源特点和青年教师的现状,提出民办高校青年骨干教师的综合素质要求,并据此探讨适合民办高校特点的培养机制,为民办高校骨干教

期刊

民办高校青年骨干教师培养机制

中职数学服务专业课程的实践与反思

中职数学对专业课程学习具有基础性、工具性、思维性等作用。数学教学要突出应用价值取向，体现数学的实用性，为学生专业课程学习和职业生涯服务。数学教学要增强应用数学的意识

期刊

中职数学应用价值专业课程数学建模

“角色扮演式教学”的原理与评价

角色扮演是一种以培养学生正确的社会行为和价值观念为取向的教学模式。它的实施过程以真实情境为主线 ,通过学生对人物角色的分析和表现 ,达到提高社会认知水平 ,解决价值矛

期刊

角色扮演教学原理实施程序效果评价

湘少版四年级第一学期期末英语试卷

期刊

四年级

高职院校大学生校外实践教育基地建设初探

根据广东省教育厅2015年批准立项的“佛山市顺德区第一人民医院护理康复药学校外实践教学基地”建设方案,经过一年的建设,在建立健全组织管理体系、完善实践教学条件设施、改

期刊

校外实践教育基地建设初探

美日发展私立幼儿园的策略及启示

美日私立幼儿园发展时间久,经验丰富。其发展私立幼儿园的策略对于今天规模不断扩大的中国私立幼儿园具有一定的借鉴意义。完善法律法规、加强质量监管、提升教育品质是私立

期刊

美国日本私立幼儿园

关于甘肃文学史研究的几个问题——《甘肃历代诗歌选》代序

<正> 近几年来,全国许多省区,都逐渐注意并不断加强了对本省、市、自治区文学史的研究。有的进行通史研究,有的进行断代史研究,有的则集中力量研究某一或某些文学现象。总之,

期刊

文学活动古代作家《甘肃历代诗歌选》文学史研究历代诗歌选几个问题

改革开放30年与青年生育观念的变迁

青年的生育观念,作为构成人类文明的有机部分,与其它的文化现象一样,受着自然环境和社会物质生活条件的制约。改革开放30年以来,中国社会发生了前所未有的变化,青年的生育观

期刊

改革开放30年青年生育观念变迁

非时齐语言建模技术研究及实践

与本文相关的学术论文