基于正向最大匹配算法的优化算法ImpFMMseg的实现

来源 :中南民族大学 | 被引量 : 0次 | 上传用户:zhongxinghai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于来自于网络的信息具备信息量大、信息来源复杂等特点,人们在查找自己需要的信息时,已经习惯使用搜索引擎作为信息筛选的工具。传统的主要查询模式有目录查询、关键词查询等,这些模式的应用在一定程度上简化了查询过程,即便如此,它们仍然存在各自的局限性。近年来,自然语言理解领域的中外专家们一直致力于将自然语言理解技术与搜索技术更好地结合。与传统查询模式相比,自然语言查询模式的优势在于它的人性化和以保证查询效率为前提的准确率。汉语自动分词是目前中文信息处理领域公认的一大难题,也是自然语言理解研究领域中最基本的一个环节。中文自动分词就是将用自然语言书写的文章、句段经计算机处理后,以词为单位逐词输出,为紧随其后的加工处理提供先决条件。可见,中文自动分词是自然语言处理的第一个步骤,其重要性勿庸置疑。在本文的四个章节中,笔者研究了中文自动分词的背景、发展现状及课题意义,分析了中文自动分词的三种常用算法并比较了它们的优劣,简要介绍了常用的几种汉字编码规范,最后对基于字符串匹配的分词算法中的正向最大匹配法给出了一种改进算法ImpFMMseg,该算法采用Trie树对词典的索引结构进行改进,同时增加了四条歧义消解规则,有效地将分词准确率和召回率分别提高了3个多百分点,并对比了分别应用四条歧义消解规则的分词效果。
其他文献
随着彩色图像在现实生活中的各个领域得到广泛应用,颜色也成为衡量图像质量的主要标准,因此,获取和显示精确的颜色变得越发重要。传统方法中颜色的信息都是与设备相关的,存在
电子邮件的兴起伴随着垃圾邮件的产生,随着互联网的普及和发展,电子邮件成为人们日常工作和生活中必不可少的交流方式,甚至已经成为文件和文档进行快速传输的主流载体。而垃
无线传感器网络(Wireless Sensor Network,WSN)是由具有传感功能和无线通信功能的设备自组成形成的无线网络系统,其用途就是通过广泛分布的传感器节点将采集到的数据发送给观
进入21世纪以后,计算机几乎涉及了所有领域。目前,我们人类期望能够使用计算机及相关设备对人的视觉进行一种模拟。同时由于近些年多媒体技术飞速发展,导致视频采集十分便利,
随着计算机图形学的发展,以实时图形渲染为基础的虚拟现实技术已经应用在越来越多的领域。在虚拟的场景中加入真实感的地形可以极大的提高系统的沉浸感,LOD是大规模地形渲染
随着三维激光扫描仪等三维数据获取技术的发展,三维模型建模技术己成为研究热点。基于点云和网格表示的三维模型广泛地应用于计算机辅助设计,虚拟现实,可视化等领域。三维模
机器学习、信号、图像处理、计算视觉中会出现高维数据,高维数据不仅增加算法的计算时间和内存需求,同时也因“维数灾难”降低算法的有效性,高维数据中常会潜藏着一个低维结
随着网络的飞速发展以及社交媒体的广泛应用,使得人与人之间的联系尤为密切。这种错综复杂的关系组成一个庞大的社交网络,因此吸引了众多学者致力于复杂网络的研究,从复杂网
本文针对纸质出版物版权认证和保护的需求,对半色调数字水印算法及其在实际应用过程中抵抗硬拷贝攻击的技术进行了研究,提出了行之有效的抵抗硬拷贝攻击的数字水印算法。本文
作为企事业单位政务工作中非常重要的一部分,公文处理耗时耗力,手工处理方式在时效性和正确性方面有着很大的弊端。信息化技术在公文处理方面的应用可以使其工作效率和结果准