统计语言模型的研究与应用

被引量 : 13次 | 上传用户：sying1

【摘要】

：

统计语言模型在自然语言处理技术中占有重要地位,在语音识别、光学字符识别、机器翻译、汉语拼音输入、信息检索等许多系统中都得到了成功的应用。然而,现有的统计语言模型还

【作者】

：

文娟

【发表日期】

：

2010年01期

【关键词】

：

统计语言模型长距相依跨语料适应中文高频字串 K-N平滑拼音流切分歧义音字转换

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

统计语言模型在自然语言处理技术中占有重要地位,在语音识别、光学字符识别、机器翻译、汉语拼音输入、信息检索等许多系统中都得到了成功的应用。然而,现有的统计语言模型还存着一些缺陷,其中,对语言中常见的长距相依现象的描述能力弱、在语料变化时难以保持一致的描述能力是两个制约其产生更大应用价值的重要问题。本文针对统计语言模型存在的上述不足之处,对汉语语言模型从多个角度出发,开展了多项研究工作,旨在有效克服或缓解这些问题。论文的主要工作和研究成果如下：1、统计语言模型是基于语料而建立的,语料中各种信息的使用程度直接关系到语言模型的性能。作为开展统计语言模型研究的第一步,本文首先完成了一个语料检索工具。该工具能够使用复杂逻辑表达式进行检索,也能够通过用户自定义的表达式来检索语料中的各种语言模式。2、为了提高统计语言模型描述语言长距相依现象的能力,本文从扩大模型单元和跳跃模型单元两个方面开展了研究。本文认为扩大模型单元是解决长距相依问题的一个有效手段,为此提出了一种基于中文高频词串(Chinese Frequent String:CFS)的语言模型。本文首先给出了一种基于字串切分度的CFS抽取算法,基于该算法抽取的CFS比词具有更大的颗粒度。实验表明,在模型阶数相同的情况下,基于CFS的语言模型比基于字或词的语言模型具有更好的建模长距相依现象的能力。在跳跃模型单元方面,本文提出了一种基于汉语句子语义框架的语言模型(Semantic Frame Based Language Model:SFLM),模型基于语义框架中论元与主动词的关联直接建模句子中的长距相依关系。由于主动词框架与动词义项直接关联,本文将AdaBoosting的方法用于主动词的词义消歧中,来辅助语义框架的确定。实验表明,这种基于语义结构的N元语言模型能够有效建模长距相依关系,降低模型的复杂度。3、针对语言模型在跨语料种类时表现的性能差异问题,本文从生成模型和判别模型两种不同的训练方法上进行了研究。在生成模型方面,针对于语料改变时产生的严重数据稀疏现象,本文提出了一种对传统Kneser-Ney平滑(以后简称K-N平滑)进行优化的参数估计方法。实验表明,基于本文提出的优化K-N平滑算法的线性插值N元语言模型具有较好的跨语料适应能力。在判别模型方面,在最小样本风险(Minimum Sample Risk:MSR)训练方法中结合N-best算法,降低了算法的复杂性,进而研究了这种判别模型在不同语料下的模型性能和自适应能力。4、汉语拼音输入(拼音-汉字转换：后简称音字转换)是统计语言模型的一个重要应用领域。本文最后研究了语言模型在汉语音字转换中的应用。拼音流切分是在进行音字转换之前所必需的预处理。本文借鉴汉语字串流切分中的术语,首次归纳定义了音字转换任务中进行拼音流切分时所能遇到的两种歧义,即交集歧义和组合歧义。并分别针对两种歧义提出了相应的基于语言模型的消歧算法。实验表明,算法均具有很高的消歧性能。本文进一步将三元语言模型用于整句音字转换,由于在三元模型下不能直接采用维特比搜索算法,本文将A*启发式搜索算法应用到三元模型的最优解搜索问题上,简化了搜索的路径。实验表明,模型具有较好的音字转换能力。

其他文献

岩沥青微表处路用性能加速加载试验研究

岩沥青是一种天然沥青改性剂,它具有改善路面的路用性能的特性。以"轮胎驱动式路面功能加速加载试验系统"作为试验平台,添加不同含量的岩沥青改性乳化沥青对微表处混合料进行

期刊

岩沥青改性乳化沥青微表处加速加载试验:路用性能

户用独立光伏发电系统控制电路的设计与研究

随着人口的持续增长和工业的不断发展,全球能源危机和大气污染问题日益突出,人类认识到必须走可持续发展的道路,开发利用可再生能源和各种绿色能源。因此,深入研究利用太阳能

学位

光伏发电最大功率点跟踪蓄电池控制电路

论我国劳动争议分类处理机制

劳动争议是劳动者和用人单位基于劳动关系而产生的争议。它的出现不但不利于双方当事人合法利益的实现,还严重影响了社会稳定和经济发展。为此各国都制定了特殊的处理机制来

学位

劳动争议劳动争议处理机制劳动争议分类处理

基于运输需求的区域公路网络可达性评价

公路运输是现代交通运输体系的主要组成部分,是社会及经济高速、健康、持续发展的生命线,对区域经济的发展起着重要的促进作用。公路网的根本功能是为社会经济发展服务,承担

学位

区域公路网各等级公路功能分析可达性运输需求分析

西藏洞中拉热液型铅锌矿床成矿作用研究

西藏扎雪—金达铅锌多金属矿成矿带内嘉黎县绒多乡—墨竹工卡县门巴乡—工布江达县金达镇的铜铅锌钼银金多金属矿集区是冈底斯东段近年来发现的重要成矿区域,洞中拉铅锌矿床

学位

热液型铅锌矿床主碰撞期成矿作用洞中拉

企业创新、政治关联和企业产能利用率

改革开放30多年,我国经济是以年均10%左右的增长速度强劲的发展,取得成果举世瞩目,而且在很短时间内实现了收入水平由低等到中等的飞跃,然而在经济体制转型背景下,我国是以多投资、先污染再治理等手段来追赶西方发达国家。自上个世纪90年代开始,中国依靠投资拉动增长,通过增加投入来增加产出和销售额。这样过多拉动投资的后果使得大量的行业出现产能严重过剩,如钢铁、煤炭等传统行业。产能过剩是经济发展过程中正常现

学位

产能过剩企业创新政治关联产能利用率

工序质保监督实践与探索

核电厂作为—个复杂的工程,它的建造由许多施工工序构成,如何去验证每道工序的质量保证能力?如何去提升工序的质量管理水平?在工作中,我们做了一些实践与探索。本文将以实例

会议

工序质保监督工序质量保证能力

肝硬变肝癌的细菌感染

目的进行肝硬变肝癌患者细菌感染的流行病学研究。方法回顾性地研究了719例肝硬变肝癌患者各种细菌感染的发生率。结果全组细菌感染发生率为15.4%,当肝硬变程度按 Child-Pugh

期刊

肝硬变肝肿瘤细菌感染癌肝细胞

活性氧参与植物抗病性建立的机理研究

植物与病原菌的相互作用中,活性氧(AOS)参与了植物抗病性的建立.本文将对活性氧的产生机制、活性氧在增强细胞壁结构强度、诱导植保素的生成,过敏反应中的作用以及参与植物系

期刊

活性氧产生机制抗病机理

抗氧剂KY-616在顺丁橡胶中的应用研究

对甲基苯酚-双环戊二烯-异丁基化树脂（KY-616）是一种新型大分子多酚抗氧剂,具有高活性、低挥发性和优良的耐迁移性等特点.采用红外光谱（FT-IR）对KY-616的结构进行了表征,并研究了

期刊

抗氧剂KY-616顺丁橡胶硫化性能力学性能耐热氧老化性能

统计语言模型的研究与应用

与本文相关的学术论文