统计与规则相结合的中文分词模型设计与实现

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:fellting
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息化的普及,人们的工作和学习已经离不开网络信息。同时,随着网络信息规模的不断扩大,如何高效、准确地获取相关的中文信息逐渐成为人们关注的问题。中文分词是中文信息处理的重要步骤,中文分词系统的分词精度直接影响着中文信息理解与处理的效率。因此,本文展开这一方面的研究具有重要的意义。首先,本文阐述了中文分词的研究背景与意义。分析了目前常用的三种中文分词方法的基本原理及各自的优缺点,并讨论了中文分词的两个技术难点:歧义识别和未登录词识别。对歧义产生的原因、分类和目前主流的歧义抽取及消除方法等作了详细的阐述,同时详细阐释了未登录词的分类和主要的识别方法。并对本文使用的几个统计模型进行了简单的介绍。其次,本文对基于层叠隐马分词模型和基于扩充转移网络(Augmented Transfer Network, ATN)的中文分词技术进行深入研究,提出将隐马模型和ATN句法分析相结合的中文分词框架,并在此基础上实现了中文分词系统原型。具体地,该系统使用基于统计的N-最短路径初分模型和ATN句法分析相结合的方法进行歧义切分;使用简单的规则识别数词和时间词;使用基于角色的未登录词识别方法识别出汉语人名和地名。继而将识别得到的未登录词和其它词一起参与竞争,建立基于类的隐马分词模型以获得全局最优的分词序列,并对该序列进行词性标注。最后,本文对该系统做了三个方面的分词实验。本文对搜集到的100句具有歧义现象的语料进行歧义切分对比实验,该系统能够正确分析其中的83句,而国内某分词系统能够正确分析其中的75句;随机选取六个不同领域的测试语料各一篇进行了开放测试;选取1998年《人民日报》的一段语料作为测试语料做对比实验,并将切分结果与国内某分词系统切分结果进行对比分析。由实验测试结果可知,本文的歧义识别效果好于国内某分词系统。通过任意选择六个领域的测试语料对本文进行测试,分词准确率平均值达到94.28%,分词召回率平均值达到96.25%,分词切分F-指数平均值达到95.25%。对比实验结果表明,本文分词召回率略高于国内某分词系统,总体分词准确率与国内某分词系统基本一致。
其他文献
随着信息社会的不断发展,军人接触互联网的机会已大大增加,军人在网络上的活动日益频繁。部分现役和退伍军人喜欢在一些网络论坛和社交网站(如QQ,人人网等)中上传自己的军装照片,
自2006年Google提出云计算概念以来,云计算从备受业界质疑的概念炒作成为如今越来越成熟的技术服务形态。在云计算提供的众多服务类型里,存储服务成为我们最为直接使用的一种
图数据是许多计算、科学和工程领域中经常采用的数据结构,图操作则是构建这些领域中许多应用的基石。一直以来,设计高效的图算法就是数学与计算机科学的重要研究内容。随着算
云计算(Cloud computing)已成为了IT界的热门技术,甚至被视为将改变人们生活方式和商业模式的革命性技术。云计算可以被视为网络计算和虚拟化技术的融合:即利用网络分布式计算
为了方便快捷的采集物理环境中的有效信息,无线传感器网络(Wireless Sensor Networks, WSNs)已被人们广泛地应用于生产生活的各个方面,如环境监测、工业和农业控制以及国防军
航班正点率是航空运输服务的重要评价标准,每当进入冬季后,冰雪天气导致航班大量的航班延误,不仅给机场和航空公司带来经济上的损失,而且严重影响机场以及航空公司的声誉,机
随着新一代基因测序技术的飞速发展,以及单体型数据在人类遗传学等领域研究和应用的不断深入,对单体型数据的研究开始转向其他生物物种。由于测序技术的限制,通过生物学实验
在军事末端制导、遥感图像融合,医学影像诊断等领域,多传感器技术都体现出了重要的应用价值。随着传感器成像技术的快速发展,单一传感器已经无法满足实际应用的需求。作为多
粒子沉降运动在自然界中是一种很常见的现象,而且这一运动现象也广泛存在于众多领域中,例如工业应用、生命科学、环境科学和医学科学等。因此,近年来对粒子沉降这一现象的研究引
图像分类技术是计算机视觉领域重要的研究内容。图像分类性能的优劣对医学图像研究、生物数据分析、军事交通研究有至关重要的意义。伴随着机器学习的热潮,图像分类技术得到