基于数据聚类的语言模型研究

来源 :北京邮电大学 | 被引量 : 7次 | 上传用户:snoopy_wx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
统计语言模型是二十世纪八十年代兴起的语言建模方法,经过近30年的发展,它已经得到了广泛的应用,深入到各个领域,包括语音识别、信息检索、机器翻译、手写识别、中文自动分词、音字转换领域等等。较为传统的统计语言模型,即词的N元语法模型,仅考虑了先后相邻词的关系,并无语义信息的融入,并且随着当前信息量越来越多,语料库越来越大,数据稀疏成了统计语言模型所面临的主要问题之一,解决数据稀疏问题能够大大提高系统的性能。本文研究的基于类的语言模型能够有效解决语言模型的数据稀疏问题,具有非常重要的研究意义。本文研究的目的是研究基于词聚类的语言模型的算法,提高统计语言模型的性能。基于数据聚类的语言模型能够有效的解决统计语言模型的数据稀疏问题。本文主要进行了以下几方面的研究:首先,介绍了统计语言模型的基本理论知识,并详细讲解了各种可以解决数据稀疏问题的方法,例如:参数平滑回退算法,数据扩充方法,并重点介绍了数据聚类方法以及语言模型的评价方法。其次,研究实现了传统的数据聚类方法。这种方法把互信息作为目标函数,使用贪婪算法,获得最大互信息。由于贪心算法容易陷入局部最优,是一种次优的分类。之后,针对传统方法没有体现词聚类的语义信息,所以研究了能够体现语义信息的基于相似度聚类的方法。这种方法考虑了词语的相邻上下文信息,聚类结果体现出一定的语义信息,之后对这种方法进行了对比实验和分析,结果表明,这种方法要优于传统的聚类方法。最后,针对基于互信息的聚类算法只能包含有限的上下文信息,作者提出了一种基于潜在主题分析的聚类方法。该方法基于LDA(Latent Dirichlet Allocation)分析,设定语料的潜在主题数,通过抽样可以获得词在不同主题上的特征向量分布,此特征能够反映词在主题上的分布,体现全局的语义信息,相对于相邻词的短距离相关,是一种长距离的语义信息,聚类效果比传统的方法的混淆度下降。使用这种方法聚类的结果,同类词之间的主题性很强,和词的N元语法模型结合使用,使得系统的性能得到提高。
其他文献
本文主要对船舶航向控制问题进行研究。船舶航向控制一直是海洋控制领域的重点课题,尤其是在当今全球经济蓬勃发展,物资流动迅速的环境下,人们对航向控制提出了更高更严格的
凹凸棒石粘土是一种稀少的、用途广泛的非金属矿,仅在我国等十几个国家发现有这种矿床,而具有工业开采价值并已商品化生产的只有美国、乌克兰、印度、澳大利亚、中国等少数
在胜利油田不断发展的进程中,胜利精神发挥了巨大的作用,成为了一代又一代石油人不断攻克难关、取得进步、创造辉煌的强大动力。宣传和弘扬胜利精神,是加强党的思想建设必不
6月28日,新当选的山东省委常委集体亮相。至此,从去年10月开始的全国31个省、自治区、直辖市的地方四级党委换届工作已全部结束。综 June 28, newly elected Shandong Provi
总结了近年来采场围岩控制方面取得的成果,指出了今后的发展方向。 Summarizes the achievements in surrounding rock control in stope in recent years and points out th
古田会议1929年12月28日,红四军党的第九次代表大会(即古田会议)在福建上杭县古田村召开。陈毅主持会议,毛泽东作政治报告,朱德作军事报告。会议一致通过大会决议案即著名的
我国幅员辽阔,因而自然灾害较多。近年来,频发的自然灾害对人们的日常生活和工作带来了严重的影响,妨碍了我国经济发展。而应急物资的快速且有效的供应对于灾后应急管理,人民
目的研究人乳头状瘤病毒16(human papillomavirus 16,HPV16)感染对卵巢癌患者血清中癌抗原125(CA125)、铁蛋白和WNT5B蛋白水平的影响。方法研究对象为2015年6月至2017年6月在我院就诊的手术切除的卵巢肿瘤患者40例。其中,HPV16感染患者15例,HPV16未感染患者25例,分为HPV16感染组和未感染组。进行HPV、CA125、铁蛋白、WNT5B水平检验
应用技术成果是科技成果的最重要组成部分,是推动技术经济发展最重要、最直接的动力。应用技术成果能否迅速而有效地转化为现实生产力已成为一个国家或地区经济能否持续、高
学位
本文揭示了一个在《人民日报》、《求是》杂志等权威媒体上展示“道德君子”形象,发表反腐倡廉理论文章,而暗地里贪赃枉法、聚财数百万元且生活腐化的龌龊贪官典型。 This a