论文部分内容阅读
该论文完成了基于统计与规则的汉语自动分词系统的研究.在自然语言处理中,汉语自动分词一直是汉语语言的计算机处理的瓶颈,该文对于词切分中的歧义问题采取了结合统计与规则两种方式的优点.首先应用三种自动分词的方法:正向最大匹配法、逆向最大匹配法和最少分词方法对语料进行预切分,经过对切分结果的比较找出不同之处,即存在着交集型歧义字段的地方,应用统计得出的词频选择得出切分结果.然后对语料进行第二次扫描,对于可能产生组合型歧义字段的词根据规则库激发相应的规则,根据语义语境进行切分的选择.再对语料进行第三次扫描,对专有名词,如人名,地名,机构名称等进行后处理,至此,对于语料的自动切分结束.衡量一种分词方法好坏的标准主要有两个:速度和精度.为提高分词速度、切分精度、提高系统的可维护性,该系统采用模块化设计,包括预切分、查询歧义、综合排歧、专有名词处理、词典维护、用户界面等模块.其中分词词典设计成词首字索引式并可进行新词的添加和统计.在预切分阶段,保留所有切分结果以确保分词精度.通过用户界面,可以方便地进行该文与句子的切分.实验结果表明,这种分词方法在理论和实践上都是切实可行的.