汉语复句关系词自动标识中规则自动生成方法研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:yangbao_2002
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文信息处理的研究一般分为三个阶段:字的处理,词的处理以及句和篇章的处理。现今我国已经在字的处理,以及词的处理方面取得了很多的研究成果,并得到了很好的实用。例如汉语分词的研究已经获得了广泛的应用。汉语复句的研究却一直进展艰难,而复句中的关系词对汉语复句的研究起着关键的作用。在基于规则的复句关系词自动标识的研究中,规则是研究的核心,决定着自动识别系统的实用性、准确性。本文在复句关系词特征研究的基础上,研究了规则的表示方法、以及规则自动生成器,根据人工挖掘的规则探讨了规则自动挖掘的方法。由于中文复句信息的特殊性和复杂性,本文首先对大量的复句语料进行了研究和分析,总结出了复句中的信息特征,然后将这些特征利用统一的符号进行形式化,使得计算机能够理解这些复句规则的信息。根据这些复句规则的特点,将这些规则分类入库。其次,在规则库不断的完善和扩充时,对每一条入库的规则在入库之前进行规则冲突的检测和处理。通过冲突的检测和处理使规则库中的规则保持一致性,避免重复的、矛盾的规则入库,同时保证包含冲突的规则在入库之前得到处理,避免规则引擎调用的时候出现混乱。本文通过对人工挖掘的1029条规则进行入库检测,根据其检测的结果和人工的确认,发现规则冲突检测的方法是可行有效的。针对人工挖掘规则的各种不便和可能的错误,在规则形式化和人工挖掘规则的研究工作的基础之上,本文探讨了一种基于频繁项集的汉语复句关系词关联规则挖掘算法。通过自动的进行大量的复句语料筛选、复句特征分析和规则库中规则的匹配,可以将人们从繁重的人工挖掘的过程中解脱出来。
其他文献
人工神经网络是近年来的热点研究领域,其应用领域诸多,包括:信息处理、材料学、交通、经济等,并在不断拓展。在众多的神经网络中,又以BP(BACK-PROPAGATION,简称BP)神经网络的
随着互联网及信息技术的快速发展,现代社会所面临的问题已由如何获得信息转变为了如何在迅猛增长的海量数据中找到有价值的信息。气象资料类型复杂,数据量庞大,其中蕴藏着大量的
白从20世纪60年代出现机器人以来,机器人技术已经经历了几十年的快速发展,从最初的传统工业领域向军事、医疗、服务等领域渗透。服务机器人作为机器人家族中的年轻成员,是一
随着无线技术的进步和微型传感技术的发展,无线传感器网络成为一种非常重要的信息收集和处理方式。节点定位是无线传感器网络应用中最关键的支撑技术。由于无线传感器网络往
快速的经济发展、不断升级换代的计算机软硬件以及不断提高的网络速度,互联网已经渗透到人们生活的各个领域之中,再加上物联网技术的火热,各种基于网络互连智能化的应用逐步融入
自动人脸识别技术由于其广阔的应用前景,目前已成为生物识别领域热点研究课题之一。经过近50年的发展,二维人脸识别技术已日趋成熟,但也易受姿态变化等影响。三维人脸识别的提出
并行多处理器系统的容错计算一直是研究者关注的问题,识别故障处理器节点的过程称为系统故障诊断。系统的故障诊断,主要分为两种方式,一种是电路级诊断,一种是系统级诊断。在电路
中文句法分析是自然语言处理领域中的一个重要课题。针对汉语本身的特点,本文将介词用法融入到句法分析结果中,使用介词用法属性对Stanford Parser进行后处理。首先,为了得到
下料是工业生产中不可缺少的重要部分,也是一直以来企业试图节省成本的关键环节之一。目前,在经典的、一般的下料问题研究较为成熟的情况下,实际生产中常常出现的各种特殊下
在当今知识经济时代,知识已成为社会发展的重要资源,如何有效的管理知识就成为当代一个重要的研究方向。截至目前,我国已有近百个规模不同的中医药数据库完成建设并投入使用,