基于数据聚类的语言模型研究

来源 :北京邮电大学 | 被引量 : 7次 | 上传用户：snoopy_wx

【摘要】

：

统计语言模型是二十世纪八十年代兴起的语言建模方法,经过近30年的发展,它已经得到了广泛的应用,深入到各个领域,包括语音识别、信息检索、机器翻译、手写识别、中文自动分词

【作者】

：

楚彦凌

【机构】

：

北京邮电大学

【出处】

：

北京邮电大学

【发表日期】

：

2010年01期

【关键词】

：

数据聚类 N元语法模型 LDA(Latent Dirichlet Allocation) 基于潜在主题的类语言模型

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

统计语言模型是二十世纪八十年代兴起的语言建模方法,经过近30年的发展,它已经得到了广泛的应用,深入到各个领域,包括语音识别、信息检索、机器翻译、手写识别、中文自动分词、音字转换领域等等。较为传统的统计语言模型,即词的N元语法模型,仅考虑了先后相邻词的关系,并无语义信息的融入,并且随着当前信息量越来越多,语料库越来越大,数据稀疏成了统计语言模型所面临的主要问题之一,解决数据稀疏问题能够大大提高系统的性能。本文研究的基于类的语言模型能够有效解决语言模型的数据稀疏问题,具有非常重要的研究意义。本文研究的目的是研究基于词聚类的语言模型的算法,提高统计语言模型的性能。基于数据聚类的语言模型能够有效的解决统计语言模型的数据稀疏问题。本文主要进行了以下几方面的研究：首先,介绍了统计语言模型的基本理论知识,并详细讲解了各种可以解决数据稀疏问题的方法,例如：参数平滑回退算法,数据扩充方法,并重点介绍了数据聚类方法以及语言模型的评价方法。其次,研究实现了传统的数据聚类方法。这种方法把互信息作为目标函数,使用贪婪算法,获得最大互信息。由于贪心算法容易陷入局部最优,是一种次优的分类。之后,针对传统方法没有体现词聚类的语义信息,所以研究了能够体现语义信息的基于相似度聚类的方法。这种方法考虑了词语的相邻上下文信息,聚类结果体现出一定的语义信息,之后对这种方法进行了对比实验和分析,结果表明,这种方法要优于传统的聚类方法。最后,针对基于互信息的聚类算法只能包含有限的上下文信息,作者提出了一种基于潜在主题分析的聚类方法。该方法基于LDA(Latent Dirichlet Allocation)分析,设定语料的潜在主题数,通过抽样可以获得词在不同主题上的特征向量分布,此特征能够反映词在主题上的分布,体现全局的语义信息,相对于相邻词的短距离相关,是一种长距离的语义信息,聚类效果比传统的方法的混淆度下降。使用这种方法聚类的结果,同类词之间的主题性很强,和词的N元语法模型结合使用,使得系统的性能得到提高。

其他文献

基于递推的船舶航向鲁棒控制器设计

本文主要对船舶航向控制问题进行研究。船舶航向控制一直是海洋控制领域的重点课题,尤其是在当今全球经济蓬勃发展,物资流动迅速的环境下,人们对航向控制提出了更高更严格的

学位

鲁棒控制Backstepping船舶航向控制闭环增益成形

凹凸棒石粘土应用途径

凹凸棒石粘土是一种稀少的、用途广泛的非金属矿,仅在我国等十几个国家发现有这种矿床,而具有工业开采价值并已商品化生产的只有美国、乌克兰、印度、澳大利亚、中国等少数

期刊

凹凸棒石粘土应用途径热活化非金属矿开采价值商品化生产最终用途活性白土催化剂载体防化学武器

弘扬胜利精神促进党的建设

在胜利油田不断发展的进程中,胜利精神发挥了巨大的作用,成为了一代又一代石油人不断攻克难关、取得进步、创造辉煌的强大动力。宣传和弘扬胜利精神,是加强党的思想建设必不

期刊

石油人党员干部胜利精神优良传统大庆精神党的建设思想建设铁人式铁人精神大庆人

31省、市党委换届凸显六大亮点

6月28日,新当选的山东省委常委集体亮相。至此,从去年10月开始的全国31个省、自治区、直辖市的地方四级党委换届工作已全部结束。综 June 28, newly elected Shandong Provi

期刊

纪委书记换届工作干部任用四级山东省委常委纪委常委会领导干部市纪委山西省委书记党的领导

采场围岩控制的回顾与发展

总结了近年来采场围岩控制方面取得的成果，指出了今后的发展方向。 Summarizes the achievements in surrounding rock control in stope in recent years and points out th

期刊

采场围岩围岩控制顶板管理坚硬顶板上覆岩层矿山压力支架结构综采液压支架工作面顶板支护质量

本月党史一日

古田会议1929年12月28日,红四军党的第九次代表大会(即古田会议)在福建上杭县古田村召开。陈毅主持会议,毛泽东作政治报告,朱德作军事报告。会议一致通过大会决议案即著名的

期刊

武装反抗国民党反动派国民党当局中央执行委员会红军主力南昌城苏兆征革命军事委员会投降书革命斗争

应急物流车辆路径优化模型及应用研究

我国幅员辽阔,因而自然灾害较多。近年来,频发的自然灾害对人们的日常生活和工作带来了严重的影响,妨碍了我国经济发展。而应急物资的快速且有效的供应对于灾后应急管理,人民

学位

应急物流时间窗车辆路径问题遗传算法

HPV16感染对卵巢癌患者血清中癌抗原125、铁蛋白和WNT5B蛋白水平的影响

目的研究人乳头状瘤病毒16（human papillomavirus 16，HPV16）感染对卵巢癌患者血清中癌抗原125（CA125）、铁蛋白和WNT5B蛋白水平的影响。方法研究对象为2015年6月至2017年6月在我院就诊的手术切除的卵巢肿瘤患者40例。其中，HPV16感染患者15例，HPV16未感染患者25例，分为HPV16感染组和未感染组。进行HPV、CA125、铁蛋白、WNT5B水平检验

期刊

Human papillomavirusEpithelial ovarian cancerCancer antigen 125Ferritin

应用技术成果转化系统分析与政策设计

应用技术成果是科技成果的最重要组成部分,是推动技术经济发展最重要、最直接的动力。应用技术成果能否迅速而有效地转化为现实生产力已成为一个国家或地区经济能否持续、高

学位

一个前省委宣传部长的双面人生

本文揭示了一个在《人民日报》、《求是》杂志等权威媒体上展示“道德君子”形象,发表反腐倡廉理论文章,而暗地里贪赃枉法、聚财数百万元且生活腐化的龌龊贪官典型。 This a

期刊

反腐倡廉理论荆福生生活腐化《求是》杂志“双规”领导干部纪委常委吕玉开除公职开除党籍

基于数据聚类的语言模型研究

与本文相关的学术论文