多信息融合中文关系抽取技术研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:c329619217
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机在各个领域的广泛普及和Internet的迅猛发展,现实世界中的信息量呈指数级增长。如何从这些海量信息中抽取人们所需要的特定信息成为一个迫切需要解决的难点。关系抽取(Relation Extraction)是信息抽取领域一个重要的研究方向。关系抽取是指自动识别用自然语言表达的两个实体之间的关联,例如“比尔·盖茨是微软公司首席软件架构师”,在这个句子中,人物实体“比尔·盖茨”和组织机构实体“微软公司”之间存在雇佣关系,即比尔·盖茨是微软公司的雇员,担任首席软件架构师的职位。   该文描述了一种融合多信息的实体语义关系抽取方法,充分利用中文的各种特征和信息来提高关系抽取的性能。该方法主要结合特征向量和树核函数两种方法;特征向量表示了文本的语言信息,树核方法表示了文本的结构化信息。我们从有监督学习和无监督学习两个角度解决该问题,下面就这两个角度进行深入的分析:   1)从有监督学习角度来分析,通过对语料的统计,非关系实例所占的比例达到了95%。为了防止出现太多的噪音,本文首先过滤非关系实例,结合实体对上下文和对应的词性、两个实体的类型和子类型以及两个实体的位置关系四个特征,利用SVM分类器对候选关系实例进行二元分类,在ACE2005语料上的实验结果显示,关系检测的F值达到了96.83%。然后,利用上一步得到的候选关系实例集合,结合语言和结构特征,利用多元分类的方法进行关系类别的识别。实验结果显示,在6大类上,F值达到了74.10%,取得了良好的效果。   2)从无监督学习角度来分析,其不需要大量的标注语料,节省了大量的人力物力。这也是未来研究的发展趋势,能解决标注语料不足的问题。目前在中文关系抽取的研究主要集中在有监督学习及半监督领域,本文首次尝试采用无监督方法。结合语料本身和中文关系类别识别的特点,本文提出了XLS-means的聚类方法,结合语言和结构特征,对候选关系实例进行聚类,在6大类上,F值达到了35.08%,优于其他聚类算法。
其他文献
本文主要实现了基于混合预处理方法的嵌入式零树块编码算法,其目的是为了让该算法能够在以后的嵌入式体系结构中更好地应用。   首先,研究了小波变换以及多尺度几何分析方法
在计算机网络化迅猛发展的时代,如何有效、快速地从大量数据中获取人们需要的知识成为许多学者以及研究人员关注的焦点。数据供给能力和数据分析能力间的矛盾日益突出,使得人们
文档协同编辑是计算机支持的协同工作的重要应用之一,主要是为了实现多人异地同步编辑共享文档。随着分布式技术的不断发展,文档协同编辑工作模式产生了组织分工逐渐细化、人们
随着科技的进步,射频识别技术(Radio Frequency Identification,RFID)技术已应用于诸如仓储管理与物流、邮件/快运包裹处理、图书管理、医疗保健等领域。RFID技术与互联网、
作为快速搭建企业级应用管理平台的重要手段,软件复用技术在全球信息化建设进程中扮演越来越重要的角色,是实现软件工业化、规模化、标准化的重要途径。而软件框架又是实现大规
随着计算机和互联网技术的飞速发展,在自然语言处理领域,以双语平行语料库为基础的研究日益增多。双语平行语料库可被应用于机器翻译、双语词典编纂、词义消歧及跨语言信息检索
近年来,突发事件频繁发生,对人类的生命财产安全造成巨大威胁,严重影响整个社会的稳定和经济的发展。提升应急响应能力、构建高效的应急响应决策支持系统一直是近年来许多政府部
基因芯片的出现给生命科学研究、疾病诊断、新药开发、食品监督等领域带来了革命性的变化,而在一个典型的基因芯片的运作中,会有成千上万的基因表达数据产生,对基因表达数据
挖掘数据流的频繁项已受到广泛关注,研究者们提出了一些高效的数据流上挖掘频繁项的算法,尽管这些算法能够比较好的找到频繁项,但对频繁项频数的估计往往存在较大误差。而我们提
随着Internet的普及,XML逐渐成为了信息交换和编码的主流格式和事实标准。而传统的关系数据库查询算法对于具有半结构特性的XML已不再适用。因此,如何快速的在XML数据集中找到