基于避免交集型歧义的最大匹配算法改进的研究与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:macrosoft
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当今信息化世界中,中文信息处理技术已经在各个领域中得到了广泛的应用。本文主要对中文分词算法中的基于分词词典机制的最大匹配算法进行研究讨论。由于中文语法语义复杂导致大量歧义字段的出现,文章中提出的最大匹配改进算法是针对分析原有的最大匹配算法的弊端以及避免交集型歧义字段在切分中出现错误而改进的,该算法在保证一定切分速率的基础上提高了中文切分的准确率。本文描述的中文分词算法是基于避免交集型歧义字段的最大匹配算法的改进算法。文中首先介绍了目前的中文分词算法,其中就常用的分词算法、分词词典机制以及歧义字段相关理论三部分来详细讲解目前中文分词算法的基本理论;其次根据已有分词词典机制描述了基于Hash表的反向词典机制;在提出的反向分词词典机制的基础上改进了最大匹配算法,提出了基于避免交集型歧义的最大匹配算法的改进算法。最后论文中实现了简单的中文分词系统,此系统用来进行基于避免交集型歧义字段的最大匹配改进算法实验,并且用此系统把四种算法进行了实验比较。实验结果证明基于避免交集型歧义字段的最大匹配改进算法具有较好的性能和实用性。但是由于本实验没有涉及对于未识别词的识别问题,所以实验结果并没有达到目前标准的准确率。
其他文献
近几年国内外学者已经对手部多特征融合识别技术做了大量的研究,主要包括掌纹和手型融合识别,指纹、掌纹和手型融合识别,手背静脉和指关节融合识别,指静脉和指背部融合识别,
随着数字媒体技术和社交网络的发展与普及,越来越多的网络信息以包含多种模态数据的多媒体文档的形式出现。传统的文档检索已经不能满足人们的需求,如何有效的从这些海量多媒体
学位
2000年,R. Ahlswede等人提出了网络编码的概念,它完全颠覆了传统的路由方式。网络编码技术允许网络节点对接收到的数据信息进行编码处理,然后将编码数据包发送出去;接收端根
识别蛋白质相互作用网络中的模块结构,是理解细胞功能的组织结构以及动态性的第一步。因而,如何在蛋白质相互作用网络中寻找模块结构便成为一项十分重要而且极具挑战的任务。目
随着信息技术的迅速发展和现代教育需求的增长,E-learning(Electronic learning)逐渐成为人们生活中重要的学习方式。E-learning具有良好的交互性和较小的时空约束性,它能够不受
目标跟踪是计算机视觉和模式识别领域当前的研究热点问题之一,并且在诸如智能导航、自动监控、军事防御、人机交互等方面有着广泛的实际应用。虽然目标跟踪经过几十年的发展
第三代合作伙伴计划(3rd Generation Partnership Project,3GPP)考虑到互联网和传统运营商的融合,引入了IP多媒体子系统(IP Multimedia Subsystem,IMS)作为核心网的发展方向
由于技术的发展以及成本的降低,基因组测序在孟德尔遗传疾病,复杂疾病,以及癌症基因检测中得到了运用,并产生了海量的测序数据。这些数据对研究疾病的致病机制、疾病的临床诊
基于位置的服务(Location Based Service, LBS)是根据用户的位置信息提供服务的一种移动通信应用服务。在给用户带来便利的同时,现有LBS的工作机制也使得用户面临个人信息,甚