基于歧义检测和马尔科夫模型的中文分词方法

来源 :中国石油大学(北京) | 被引量 : 0次 | 上传用户:a419132258
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文分词在中文信息处理中占有重要的地位,无论是搜索引擎技术,还是针对中文信息所进行的数据挖掘如文本分类、文本聚类和自然语言处理等方面,中文分词都是一个极其重要的预处理阶段,是后续处理阶段的基础。  本文针对中文分词所做的工作如下:  首先,建立了基于Hash和映射表的字典存储结构,该存储结构很好的平衡了字典的时间和空间复杂度的问题。  接着,本文结合正向最大匹配算法提出了一种基于歧义检测和正向最大匹配的粗分算法,该算法使得分词的粗分结果集在准确性方面有了进一步的提高,并使得粗分结果集的规模维持在一个合理的范围内,为分词算法最终的准确率和处理效率提供了保证。  在粗分结果集的基础上,本文通过运用隐马尔科夫模型进行切分歧义消解,得到最终正确的分词结果,并对最终的切分结果进行词性标注。同时,针对隐马尔可夫模型在解决组合歧义方面存在的不足,本文提出了一种基于上下文语境信息的组合歧义消解算法。该算法对组合歧义的消解取得了较好的效果。  通过综合运用以上的各种算法,本文构建了一个完整的分词系统,该分词系统在歧义识别和歧义消解等方面取得了比较好的处理效果,使得分词算法的最终切分准确率有了一定的提高。
其他文献
针对目前城市交通中普遍存在的拥堵问题,本文从一个由用户数据指导用户行动,再由行动结果影响用户的角度,并以此利用基于位置服务应用的方法,建立了一个自适应的交通导航系统
计算机图形技术已被广泛地应用于游戏、电影,CAD制作等各个领域,光子映射算法是目前最好的全局光照算法之一,光辐射强度估算是光子映射算法中的关键技术。如何快速准确地对光
随着当前企业级IT系统的日益复杂、市场需求和业务策略随外部条件的不断变化,为解决传统信息系统中业务规则的修改和配置造成的效率低下问题,业务规则管理技术成为目前研究的热
图像恢复是利用退化图像的先验知识,建立退化现象的数学模型,再根据模型进行反向推演运算,以恢复原来图像的景物图像。图像恢复一直是图像处理与计算机视觉中一个重要的研究
嵌入式视频网络监控系统具有轻便性、一体化、网络化和智能化等优点,在安防、智能交通领域内发挥着非常重要的作用。随着计算机硬件技术的高速发展和视频图像处理技术的不断
随着计算机的发展,软件的规模不断扩大,其复杂度也随之增加,软件故障正成为计算机系统失效和停机的主要因素,软件质量成为计算机领域研究的热点,软件测试已成为软件质量保证
油、气、水多相流广泛存在于现代石油工业中,流动参数检测技术己成为多相流研究领域的一个热点问题,其中速度测量是一项极其重要的研究内容,流速的准确测量可为揭示多相流动
医学影像处理已是现代医学辅助诊断中不可或缺的技术。医学影像处理包括许多方面,其中医学影像三维可视化技术是其中一个非常重要的方向。医学影像三维可视化是涉及计算机技
图像分类技术是模式识别领域的一个重要研究方向。而毒品图像过滤则可以看作一种特殊的图像分类技术。通用的图像分类技术对建立快速有效的信息检索和管理系统有着重要的意义
随着人民生活水平的提高,国内的旅游业和相关产业遇到了前所未有的发展机遇,而为游人提供导游讲解这一服务项目在旅游业中有着特殊的重要意义。目前市场上的语音伴游器都是结合