基于决策树的汉语复句关系词自动识别中规则挖掘方法研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:AKDelphi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对汉语复句中关系词的自动标识是中文信息处理中的一个研究难题,本课题组前期已经研究的“基于规则的复句关系词自动标识系统”所使用的规则是通过人工的方式挖掘的。该系统是通过对大量语料的分析,得出一些关于复句中关系词自动标识的结论,’然后进一步总结整理得到形式化的规则表示形式。通过这些规则能够对部分复句进行关系词的自动标识,但是由于规则的有限、复句的无限,以及复句种类繁多,所以使得该系统不能做到对任意复句中的关系词进行正确地自动标识。因此,利用计算机自动挖掘技术来进行规则的自动挖掘,以实现对任意复句关系词的自动标识,是中文信息处理中关于汉语复句及其关系词自动识别研究的重要研究内容之一。通过对现有规则库中的规则进行分析得出,一条完整的规则包含约束条件部分和标识结果部分。想要根据某类句型挖掘出一条新规则,就必须对该句型中的所有准关系词进行标识,而标识的结果就是判定出该准关系词是否为关系词,也即基于规则对准关系词进行分类。因此,本文在基于规则的基础上,将决策树分类算法融合进来,对基于决策树的关系词自动识别中规则挖掘方法进行了研究。首先利用准关系词查询规则库,对查询出的数据进行预处理,构造成数组形式,然后采用多种不同方式对里面的缺省值进行补齐,利用处理之后的完整数组构建决策树,最后利用后剪枝的方式对决策树进行简化。根据构建决策树的数组里面的约束条件挖掘出标识所需信息,并存储准关系词在决策树中标识时所经过的路径,最后综合整理标识结果以及标识过程,挖掘出新规则。本文实验中所有的复句全部来源于华中师范大学语言与语言教育研究中心构建的汉语复句语料库。通过对实验结果的分析可知,利用决策树的方式能够对那些不能利用现有系统进行标识的关系词进行高准确率的标识,并且能够挖掘出有效的新规则,达到完善规则库的目的。
其他文献
随着计算机技术和互联网的迅猛发展,“三网融合”的发展趋势日益明朗。人们对网络传输数据需求的越来越多样化,使得分组交换网络的负载急剧增加,互联网正面临着十分严重的技
近几十年来,多媒体技术得到了飞速的发展,人们对交互式的音视频服务的需求也日益提高,这也推动了视频对象分割技术的进步。到目前为止,已经有近千种的分割算法,并且新的理论
随着时延容忍网络在现实生活中不断得到应用,其主流路由策略设计不足导致的性能瓶颈日益突出。理想的路由策略应该在能耗较低的前提下使时延容忍网络的传输性能达到最优,然而
动物机器人在运动的灵活性、能源供给、环境适应性等方面相比传统机器人具有很大的优势,在环境侦查和灾难搜救等方面的应用前景十分广阔,然而现实中将动物机器人用于未知环境探
随着电子纸显示技术的推广与应用,我们对电子纸已不再陌生,电子纸不仅是一种纸的替代品,而且是具有很大发展潜力的未来显示设备,电子纸显示技术分为很多类型,目前市面上最具代表性
随着科技日新月异的进步,各种各样的数据充斥着生产生活的各个领域,如何有效地获取数据中的精华并运用到各行各业中去,成为科研人员关注的焦点。基于这一实际需求,数据挖掘技术应
随着计算机技术的不断发展,社会环境的日益复杂,日常生活中对于安全的需求越来越高。人脸识别技术作为日益成熟的生物特征识别技术,通过比较人脸的生物特征信息来对身份加以
随着互联网、数码相机(特别是具有拍照功能的智能手机)和图像编辑工具的快速发展和大规模普及,网络上的图片数量成爆炸式增长。如何在互联网上海量图像中找到用户所需要的图
离群检测是数据挖掘的重要分支,离群数据对象隐藏着非常重要的信息和知识,发掘并运用这些财富推动着离群检测的研究。在理论上,研究者们对离群检测的研究取得了巨大的成功。在