中文自动分词关键技术研究与实现

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:gra_summer
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着计算机的普及与信息化的发展,中文信息处理技术的应用日益广泛,中文自动分词技术是中文信息处理的基础,已应用在文本校对、机器翻译、文本分类、自动摘要、信息检索、计算机人机接口等诸多领域。本文在对传统的中文自动分词系统及主要分词技术研究的基础上,做了多方改进,完成了一个实用、高效的分词系统原型。本课题主要对中文自动分词关键技术:自动分词方法、歧义字段的处理方法以及命名实体的计算机自动识别方法等技术进行了分析和研究。本文所做的主要工作如下:1.针对易引起歧义的特征词,提出了一种对特征词的特殊处理方法,对每个特征词创建了相应的规则,构造了针对特征词的规则库,利用特征词的规则库进行初步切分,这样不但提高了切分速度,且解决了部分歧义问题。2.针对传统的正向最大匹配算法的缺陷,对该算法进行了改进,在匹配的过程中根据已经扫描过的词来确定是否继续匹配下去,动态的确定要匹配的长度,这样不但减少了平均匹配操作的次数,不受词长的限制,充分体现了“长词优先”的原则,且提高了切分的速度。3.针对歧义的处理,采用了多步分层消除歧义技术,首先在粗分割模块利用特征词消除了一部分歧义,还存在歧义的字段在最后的歧义消除模块利用长词优先及右规约技术进行消歧,使切分结果正确率进一步提高。4.词典的设计方面,为了适合切分算法,因算法要频繁查询一个字串是否为一个词的前缀,因此把词典中的词划分为两类:真正意义上的词与词的前缀,这样更有利于切分过程的查询,进一步提高了切分的速度。5.对文本中的出现的命名实体如中外人名、地名、机构名、时间和数字等未登录词,分析它们的特点,设计了相应的识别方法。经过大量的实验表明:本文实现的中文自动分词原型具有较高的切分速度,平均达到了195,601汉字/秒,同时在切分的准确率方面达到了98.08%,可见系统有较好的性能。
其他文献
网络模拟器(Network Emulator)为在实验室环境下测试、分析和评价Internet的各种应用系统和技术提供了一个方便、高效的方法,具有费用较低、规模较小、使用方便、实时性等特
传统的国防生信息管理多采用人工管理为主、计算机管理为辅的方式,对国防生的招生选拔、在校培养、毕业分配整个培养环节的工作缺乏全方位、全过程的信息化管理。随着贵州大学
3D面部识别是当前图像处理研究中的一个比较新的研究方向。在对人的计算机自动身份鉴别系统中,指纹、基因、虹膜等方法都为接触式鉴别手段,需要人为的采样,属于侵犯式的识别
随着嵌入式系统与网络技术的结合可以极大地增强嵌入式终端设备的智能化与灵活性,并且推动嵌入式浏览器及其应用技术的发展。可以预测在不久的将来,只要有网络存在的地方,任何一
无线传感器网络是近年来最有发展前景的技术之一,它集中了微机电技术、嵌入式计算技术、分布式信息处理技术和无线通信技术,是一种全新的信息获取和处理模式。节点定位、拓扑
空间数据查询方法是在空间数据库、空间数据挖掘、空间拓扑关系分析、智能交通和地理信息系统等领域扮演着非常重要的角色。最近邻查询方法作为空间数据查询中的一个分支,在
随着航空运输的快速发展和飞行流量不断增加,空中交通变得越来越繁忙和复杂。由于我国空域改革相对滞后,空域结构不尽科学,管制人员需要对大量的飞行活动不断进行调整。同时,全天
随着人类基因组计划和各种模式生物基因组计划的相继完成,生物信息学的研究重点已经从生物数据的积累转变为对生物数据的整合处理,以异构生物数据整合为核心的生物信息分析系统
近年来,国内很多高校都进行了以按需设岗、按岗聘任、以岗定薪、优绩优酬为主要内容的人事分配制度改革的工作。这也在很大程度上调动了高校教师的工作积极性,推动了高校师资水
无线传感器网络作为一种新兴的数据获取技术深入影响着人们的工作和生活,得到国内外研究学者的广泛关注。采集获取数据是无线传感器网络实现其监测感知功能的关键组成要素。