网络文本中部分整体关系的获取方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:guidahuasheng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本知识获取是知识工程乃至人工智能的关键技术和热门研究课题。文本知识获取的主要目的,就是从非结构化或者半结构化的自然语言文本中,挖掘出结构化的数据,使得机器易于理解,人们也可以更迅速、更精确的获取想要的信息。部分整体关系是一类基础而重要的语义关系,研究部分整体关系的自动获取,不仅有助于解决一系列自然语言处理问题,在人造物的设计、生化试剂的配置等实际问题中也有重要应用。  随着信息技术的发展,尤其是近年来互联网的迅猛发展,电子文档越来越多,其中蕴含的知识越来越丰富。Web成为知识获取的重要数据源。然而,互联网的浩瀚,也为文本知识自动获取提出了新的挑战。因此,有必要研究从大规模网络文本中自动获取部分整体关系的方法。  现有的研究工作存在需要训练语料、依赖较多资源和工具、不注重后期验证等不足。针对这些问题,本文开展了部分整体关系的获取和验证等问题的研究,主要贡献如下:  1.提出了一种从Web中获取给定概念的部分整体关系的方法  本文研究了在给定一个整体概念的情况下,从Web中获取它的部分概念。我们使用框架的方式描述部分整体关系,使用项、连接符和谓词作为模式中的组成元素。在模式选择上,本文挑选了那些含有部分概念丰富、准确率较高且易于获取其中部分词的并列结构模式。我们用查询模式从Google中下载对应的锚文本,进行预处理后作为语料库,再用模式进行匹配。在模式匹配后,首先利用文法对不含部分知识的句子进行过滤,然后对部分概念区进行外层剥离处理,即抽取到部分整体关系。  2.提出了一种基于并列结构的部分整体关系验证模型  在初步抽取到的候选部分整体关系基础上,本文提出了一种基于并列结构的关系验证方法。以概念为点、在句子中的并列关系为边,本文将同一整体的候选部分概念构成图,用层次聚类算法对该图进行自动聚类,使正确的部分概念聚集在一起。在层次聚类基础上,本文挖掘并列结构的特性、图的特点和汉语的语言特点,采用惩罚逗号边、去除低频边、奖励环路、加重相同后缀和前缀等5种方法调整图中边的权重,在不损失层次聚类的高准确率条件下,大幅提高了召回率。最终实验显示,大多数概念的关系获取准确率都在80%以上,F值也超过70%。  3.提出了一种基于种子概念的部分整体关系获取方法  利用少量的部分整体关系概念对(称为“种子概念”),本文提出了一种从百度百科中获取部分整体关系的方法。首先本文从百科中获取与给定的种子概念同属一个领域的其他概念,构成领域词表;然后将那些同时包含部分概念领域词表和整体概念领域词表中的概念的句子抽象成句法模式,本文将相似的模式聚类并按类中所有模式覆盖的句子数为依据进行排序,选择top-k的类中的模式作为模式学习的结果;最后利用学习到的模式,从百度百科语料中匹配出符合模式的句子,利用前面建立的领域词表,从句子中识别出部分概念和整体概念,形成部分整体关系实例对。本文在成分-物体关系上的进行了实验,本文的获取结果准确率为83.1%。  4.提出了一种基于种子模式的部分整体关系获取方法  利用少量人工筛选的部分整体关系的句法模式(称为“种子模式”),本文提出了另一种从百度百科中获取部分整体关系的方法。首先本文利用已有的百科词条和百度百科中的语义信息构建一个大的实体名称库;利用实体名称库将百度百科中的句子抽象成模式;在给定一些部分整体关系模式的基础上,通过一种迭代式算法不断扩充模式库,本文使用一种基于编辑距离的算法度量模式之间的相似度,并将相似的模式进一步融合泛化成表达能力更强的模式;最后利用学习到的模式,从百度百科中抽取部分整体关系实例对。最终实验显示,该方法获取的结果准确率较为满意。
其他文献
机群数据库系统成为大容量数据处理密集系统的有效载体,其应用范围越来越广、系统规模越来越大。本文以国家网络安全监测系统中对大规模机群数据库系统的需求出发,总结了其对机
随着Internet的飞速发展,Web上的网页数据量成几何级数的增长。为了更快更准确的找到最需要的信息,人们越来越依赖于搜索引擎系统。尽管各大搜索网站不断的改进搜索引擎技术,但
学位
随着支持SIP协议的众多服务器和终端产品的相继推出,全面评测这些产品的性能成为目前亟待解决的问题。在此背景下,作者对SIP协议测试方法和测试工具进行了深入的研究并已取得
随着软件规模的日益增大,软件变得越来越复杂。各种软件安全缺陷引起了严重的安全问题,甚至造成资源的重大损失。为了降低这种风险和损失,软件开发人员在实施软件工程的过程中采
学位
骨架是图像几何形态的一种重要拓扑描述。随着MRI,CT及其它3D重建技术的发展,3D图像数据应用越来越广泛。3D骨架在图像数据的压缩,物体识别与表面重建,3D植物建模及植物根系图像
机器翻译是自然语言处理中的一个重要研究方向。近年来,统计机器翻译取得了很大的成功,基于短语的翻译系统在机器翻译评测中占据了主要地位,并且取得了领先的成绩。最大熵模型可
当今已经成为社会信息化的基础平台,它是各种网络资源的互联。我国目前所处的网络环境的特点是机遇与挑战并存。一方面,互联网在我国处在快速发展阶段;另一方面,我国在互联网发展
学位
中国地质大学校园网规模不断扩大,原有的网络管理方式已不能满足发展的需要,如何保证网络快速,安全,稳定地运行已成为目前最主要的任务。本文利用SNMP协议,采用B/S开发模式,开发了
学位
当前,多核/众核体系结构已经成为主流架构。然而,多核/众核平台的实际性能与其拥有的资源并不完全匹配,平台可扩展性较差。如何充分利用多核/众核平台上丰富的计算资源成为学术
在多媒体时代,视频是包含信息量最大、最直观的一种信息传播媒介。然而,由于数字视频数据量巨大,必须经过压缩编码才能实现视频的传输、存储和播放。视频压缩编码技术一直是多媒