基于词表结构的中文分词算法研究

被引量 : 0次 | 上传用户:tmhou5648
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
众所周知,英文以词为单位,以空格隔开,而中文以字为单位,连字成句才能描述一个完整的意思。计算机可以很容易地理解英文单词,而对由词组成的中文句子,必须通过中文分词技术才得以理解。把中文的汉字序列切分成有意义的词,即中文分词,又称切词。中文分词技术是信息处理领域中的重要技术,本文主要对中文分词技术进行了以下几方面的研究。本文简要介绍了中文分词的基本概念以及国内外研究现状;阐述了中文分词系统的基础架构和工作原理;重点研究了现有中文电子词表结构,并且探讨了现有的中文分词算法的技术特点。实践并提出相关的方法和技术。在深入分析的基础上,结合中文字词的一些特点,本文作者提出了一种全新的中文词表数据结构。该结构的基本原理是把所有的单字、词、词组统一作为词语,建立电子词典。基于这种全新的数据结构,本文作者讨论并且实现了一种改进的分词算法——近邻匹配法。鉴于中文姓名辨识困难并且大多属于未登录词这一特性,本文作者实践并推介了一种利用边界信息、候选姓名竞争、规则筛选等统计信息进行中文姓名识别的方法,同时,在姓名过滤和反馈等方面也作了相应的改进。作者在实验室环境下搭建测试平台,基于Lucene进行二次开发,对本课题的研究成果进行功能和性能测试。测试数据的结果表明,本课题研究的中文词表数据结构具有较高的访问效率,且大大降低了存储容量。近邻匹配法较以往使用的分词算法具有更高的切分速度和准确率。本文提出的中文名字识别方法也具有较好的识别效果。对于中文分词技术的研究并非一蹴而就,经过一两次研究所能解决的。有关词性和词义问题、对歧义的包容性以及对边界分级阈值筛选等问题,都是本文作者后续研究的选题。
其他文献
滨水是城市的独特环境资源,提供了城市与众不同的形态,更为现代的城市建设提供了新契机。在国外大量滨水开发的成功实例后,中国城市在上个世纪90年代后也开始关注滨水区的开
桥梁深水基础的修建,主要困难在于防水、防土,甚至须防止冲刷、滑坡等。使用围堰配合施工的目的,就是在堰内施工和修筑基础时,使堰外的水和土不至于大量涌进堰内,并且待基础、墩台
近10年来,随着现代交通工具的迅猛发展,城市道路中日趋严重的交通和安全问题导致了城市传统街道的大规模、快速改建,城市道路景观正以日新月异的面貌昭示其建设发展的巨大成
本文在大量现场实测资料的基础上,对大直径深长钻孔灌注桩的承载性状进行了比较深入的研究。1.通过对现场测试资料的分析,得出了大直径深长钻孔灌注桩承载性状的一些基本规律
目前,内燃机车在我国铁路运输系统中发挥着重要的作用,其电传动系统是机车中最核心的部分,它为机车提供了动力,直接控制了整个机车的牵引运行以及相关辅助设备。机车的电传动系统
从国际上看,公司债券市场尤其是发达国家的公司债券市场有了多年的发展,已达到相当大的规模,并且学术界和实务界在公司债券市场领域也积累了一定的研究成果。在我国,随着改革
本文基于2014年~2017年全国经济数据,从理论与实证的角度分析了影响我国农村金融排斥的显著因素。通过多元回归分析模型估计发现,内部环境中的农民收入、金融知识素养以及外
阵列天线广泛应用与雷达、无线通信和电子对抗等领域,方向图综合作为阵列天线的关键技术,在抗干扰、截获率和参数估计等方面有着重要的作用。阵列天线方向图函数的最优化是一种
<正>1病例报告病例1,患者女,23岁,主诉分娩后背部疼痛3个月,症状持续并逐渐加重。于2004-01-20就诊,行MR和CT检查示:胸7椎体塌陷、骨质破坏,肿瘤超过椎体边缘,向周围组织及胸
设计了一种小型天然气N2-CH4膨胀制冷液化工艺,并考察了N2-CH4制冷剂组成、原料气处理量与膨胀机出口压力对压缩机功耗的影响,以及天然气节流前温度对液化率的影响。研究结果