基于统计与规则的汉语自动分词系统的研究

来源 :北方交通大学 北京交通大学 | 被引量 : 0次 | 上传用户:kcj321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该论文完成了基于统计与规则的汉语自动分词系统的研究.在自然语言处理中,汉语自动分词一直是汉语语言的计算机处理的瓶颈,该文对于词切分中的歧义问题采取了结合统计与规则两种方式的优点.首先应用三种自动分词的方法:正向最大匹配法、逆向最大匹配法和最少分词方法对语料进行预切分,经过对切分结果的比较找出不同之处,即存在着交集型歧义字段的地方,应用统计得出的词频选择得出切分结果.然后对语料进行第二次扫描,对于可能产生组合型歧义字段的词根据规则库激发相应的规则,根据语义语境进行切分的选择.再对语料进行第三次扫描,对专有名词,如人名,地名,机构名称等进行后处理,至此,对于语料的自动切分结束.衡量一种分词方法好坏的标准主要有两个:速度和精度.为提高分词速度、切分精度、提高系统的可维护性,该系统采用模块化设计,包括预切分、查询歧义、综合排歧、专有名词处理、词典维护、用户界面等模块.其中分词词典设计成词首字索引式并可进行新词的添加和统计.在预切分阶段,保留所有切分结果以确保分词精度.通过用户界面,可以方便地进行该文与句子的切分.实验结果表明,这种分词方法在理论和实践上都是切实可行的.
其他文献
该文以HFC网络中的核心功能层--MAC层为研究对象,从理论分析和计算机仿真的角度对HFC系统的MAC协议和上行传输技术进行了深入研究.该文的第一章是绪论,简单介绍了宽带接入技
ATM网中,流量控制与路由选择,传统做法是将两者孤立起来,分别单独加以考虑,且流量控制是面向用户型的.该论文引入了最大流效这个概念,提出了面向节点的流量控制策略,将ATM网
随着科学技术的不断发展,图像匹配在人类的生产生活中扮演的角色越来越重要。图像匹配即是通过对影像内容、结构、特征、纹理、关系及灰度等的对应关系、一致性和相似性的分析