基于互信息的统计语言模型平滑技术

来源 :重庆大学 | 被引量 : 0次 | 上传用户:zcom0907
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言处理是计算机科学中一个引人入胜、富有挑战性的课题。它的任务是建立一种能够模拟人类语言认知过程的计算模型。但是当前计算机的智能水平还远远不能与人类相提并论,困扰其发展的原因有很多,统计语言模型中数据稀疏的处理则是自然语言处理领域必须解决的几个难题之一。本论文主要针对目前正得到广泛推广与应用的统计语言模型,研究了建立模型的各种方法以及相关的平滑技术,提出了能满足概率归一性的建立模型的方法以及结合互信息、熵和非线性优化等理论的基于互信息的统计语言模型平滑技术。论文的主要工作如下: 首先本文介绍了统计语言模型中常用的概率论和信息论方面的相关知识,然后介绍了现有的几类统计语言模型的平滑技术,并分析了其平滑原理与实现方法。其次,论文研究了统计语言模型的建立。在文中列举了多种可以建立模型的方法,但由于在概率归一性方面的问题使得这些方法不能满足使用。因此,本文提出了一种在语料库中的每段前后添加相同符号来做过渡的建立统计语言模型的方法,从而使得到的模型能够满足概率的归一性。同时,本文还提出了一种新的基于互信息的统计语言模型平滑技术。该方法基于模型中元素的互信息值,对互信息值高的事件的概率值进行折扣,对互信息值低的事件的概率值进行补偿,对模型中未出现事件的概率值的获得则回退到低阶模型。进一步,利用非线性系统理论来,依据极小化困惑度方法,确定平滑公式中的系数值,从理论上保证了此平滑技术的优越性。论文最后把本文提出的平滑技术与现有平滑技术进行了比较。通过实验测试平滑后的模型在测试集中的困惑度,基于互信息的平滑技术与其它平滑技术的困惑度值降低40%左右,实验结果显示出本文提出的平滑方法的优越性。论文提出的算法通过编程实现后,已作为一个重要的功能模块应用于本实验室自主开发的“中文自动分词系统”中。论文结尾对全文的工作进行了总结,并对进一步的研究工作提出设想。
其他文献
小到手持设备,大到数据中心或者超级计算机等系统对能效的要求越来越高。高能耗不仅会降低系统的可用性和可靠性,还会对环境造成负面影响,因此,提高系统的能效迫在眉睫。为了
嵌入式技术和集群通信技术都在飞速地发展,MAP27协议是集群通信的协议之一,它是由国际UADG组织制定的移动电台与数据终端之间本地通信的接口规范。通过MAP27协议,可以让数据
电子政务在我国经过近几年的应用推广,已经呈现良好的发展趋势,在政务机构的建设与发展中成为非常重要的工作日程,需要在基础教育、理念推广、实践操作等方面搭建起更为坚实
第三代移动通信系统(3G)是一个在全球范围内覆盖与使用的网络系统,它向用户提供高质量多媒体通信,不仅支持传统的话音与数据业务,还支持交互式业务与分布式业务,如多媒体业务
经过几十年的信息化发展,企业已经建设了许多计算机应用系统。从目前情况来看,企业信息化发展已经进入到了一个关键时期,很多单位也意识到了这一点,提出了企业资源规划(ERP)
人脸识别具有主动性、用户友好和非侵犯性等优点,在国家及公共安全、信息金融安全、人机交互等领域具有巨大的社会价值和应用前景。正因为这样,人脸识别一直是模式识别和机器视
模板技术在建筑、办公、特征识别、复杂分析计算等众多领域应用广泛并且发挥了重要作用。本文在CSCW技术和模板技术的研究基础上,结合协同设计中的问题,展开了协同模板的相关
动态环境下的多机器人行为规划是本论文的论述重点,具体的实现和实验环境是RoboCup小型组机器人足球比赛。这篇论文包括以下内容:RoboCup小型组的背景知识类似研究成果介绍中国
实时交通流数据的采集,包括车流量统计、车道平均车速、车型识别分类等,在智能交通监控系统中起着重要的作用。交通流检测器有电磁感应线圈、超声波检测器、微波监测器和红外
近年来,XML在数据表示和交换上扮演越来越重要的角色,其存储也受到更多数据库的支持。XML成为被广泛应用的逻辑数据模型。XML与数据库技术开始有了融合,对XML所代表的信息建