论文部分内容阅读
对汉语复句中关系词的自动标识是中文信息处理中的一个研究难题,本课题组前期已经研究的“基于规则的复句关系词自动标识系统”所使用的规则是通过人工的方式挖掘的。该系统是通过对大量语料的分析,得出一些关于复句中关系词自动标识的结论,’然后进一步总结整理得到形式化的规则表示形式。通过这些规则能够对部分复句进行关系词的自动标识,但是由于规则的有限、复句的无限,以及复句种类繁多,所以使得该系统不能做到对任意复句中的关系词进行正确地自动标识。因此,利用计算机自动挖掘技术来进行规则的自动挖掘,以实现对任意复句关系词的自动标识,是中文信息处理中关于汉语复句及其关系词自动识别研究的重要研究内容之一。通过对现有规则库中的规则进行分析得出,一条完整的规则包含约束条件部分和标识结果部分。想要根据某类句型挖掘出一条新规则,就必须对该句型中的所有准关系词进行标识,而标识的结果就是判定出该准关系词是否为关系词,也即基于规则对准关系词进行分类。因此,本文在基于规则的基础上,将决策树分类算法融合进来,对基于决策树的关系词自动识别中规则挖掘方法进行了研究。首先利用准关系词查询规则库,对查询出的数据进行预处理,构造成数组形式,然后采用多种不同方式对里面的缺省值进行补齐,利用处理之后的完整数组构建决策树,最后利用后剪枝的方式对决策树进行简化。根据构建决策树的数组里面的约束条件挖掘出标识所需信息,并存储准关系词在决策树中标识时所经过的路径,最后综合整理标识结果以及标识过程,挖掘出新规则。本文实验中所有的复句全部来源于华中师范大学语言与语言教育研究中心构建的汉语复句语料库。通过对实验结果的分析可知,利用决策树的方式能够对那些不能利用现有系统进行标识的关系词进行高准确率的标识,并且能够挖掘出有效的新规则,达到完善规则库的目的。