基于最大匹配的书面汉语自动分词研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:gaolch007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
书面汉语自动分词是中文信息处理中的重要步骤,它是文本校对、机器翻详、文本分类、文本检索、计算机人机接口等诸多中文信息应用领域的基础。目前汉语自动分词方法主要包括基于字符串匹配的方法、基于统计的方法和基于理解的方法。本文在深入分析现有自动分词算法的基础上,着重研究了基于字符串匹配的汉语自动分词算法,引入最大匹配法预处理分词,同时运用统计方法进行歧义切分和未登录词识别。 根据汉语中二字词较多的特点,给出一种改进的自动分词词典机制,该机制在词典数据结构中增加二字词检测位图表。在此基础上,对最大匹配分词算法进行改进,实现了一种基于二字词检测位图表的最大匹配分词算法,本算法利用二字词检测位图表快速判断二字词,减少词典匹配次数,以提高自动分词速度。针对伪歧义型高频最大交集型歧义字段在大型语料库中表现出较强的稳定性和一定的覆盖能力,歧义处理着重于研究该类歧义字段的自动获取,将它们的正确切分形式记录到歧义库中,其歧义消解通过直接查表实现,这在本质上是一种基于记忆的策略。未登录词识别技术研究着眼于Web资源中未登录词的获取,并提出一种基于Web查询曰志的未登录词识别算法,本算法分析Web查询日志的搜索关键字频度表识别未登录词。 基于上述研究结果,设计并实现了一个面向实际应用的书面汉语自动分词系统。实验结果表明:在相同条件下,基于二字词检测位图表的最大匹配分词算法较原算法分词速度更快。利用卡耐基梅隆大学分词评估系统进行评测,评测结果表明,基于二字词检测位图表的最大匹配分词算法的查准率提高了3.57%,F-1测度提高了0.01,较原算法具有更好的性能。系统还具有较好的稳定性。
其他文献
机器人足球是近几年发展起来的机器人研究和竞赛项目,融合了人工智能、智能控制、实时视觉、无线通讯、机电一体化等多学科知识。机器人足球本身是一个典型的多智能体系统,同
RS与GPS为空间信息的采集提供了技术支持,GIS从定量的角度建立了空间信息处理与应用的理论和技术体系。但是,空间信息是复杂的,从量上来看是海量级的;从种类上看不仅包含数值
三维形变物体的研究一直是图形学领域中的热点。随着三维捕获设备的发展,三维数据的获取更加简单,三维模型数据也更加丰富。三维形变物体的研究在诸多方面具有重要应用,如形
基于构件的软件工程(CBSE)已经成为软件开发的主流范型,它包括领域工程和基于构件的开发(CBD)。本文首先以CBSE中的框架为切入点,分析了CBSE的现状,并指出了其中一些不足之处:
自20 世纪70 年代IPv4 诞生以来,随着Internet 的急速发展,IP 地址即将耗尽及路由表急速膨胀的问题日益突出。为了解决Internet 目前所面临的巨大挑战,IETF 制定并完善了新一
现如今,由于工作压力的加大,尤其是对于多数年轻人来说,疏于对自己生活的管理,不注重自己的生活质量,导致多种不良的生活习惯,严重影响了个人的健康状况。传统的活动识别技术
利用驾驶模拟器进行各类驾驶模拟训练特别是飞行训练低成本的最佳选择。在各类模拟器中,与视景系统相结合的基于Stewart平台的运动模拟器能够提供加速度和力的真实感觉,可以获
本文对供应链管理和供应链集成的理论框架做出详细分析,并详细讨论了供应链合作伙伴关系管理的业务过程。在分析了已往模型及其存在的主要问题的基础上提出了基于遗传算法的
目前,影视素材库的管理处于从传统的模拟技术向数字技术转变的过渡阶段,数据存储技术将在近几年得到更快的发展。由于存储管理系统具有较高的技术难度,国内主流市场几乎被国外的
动态隧道算法是一种全局优化研究方法。该算法重复以下两个过程:一是动态优化过程,在该过程中寻找一个局部最小点;二是动态隧道过程,该过程以该局部最小点为基准找到一个更小