基于新闻数据的中文人物社会关系抽取研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:zzy705664916
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网规模的不断扩大,其中蕴含的信息和数据也在持续增长。信息抽取技术的目标是从互联网中的海量无结构化数据中挖掘出结构化的数据。实体关系抽取是信息抽取的子任务,已经成为数据挖掘与信息检索领域的一个研究热点。人物关系抽取属于实体关系抽取的一个方面,人物关系三元组数据被用于构建人物关系网络和问答系统,具有较高的应用价值。但是,目前关系抽取研究主要集中在英文语料的处理上,基于中文数据的关系抽取研究进展比较缓慢且研究难度较大。基于机器学习的关系抽取方法因其在关系抽取结果上较好的表现,已经成为目前的研究热点。按照训练数据获取方式的不同,本文对基于半监督学习,远监督学习和无监督学习的三种方法进行研究,主要贡献如下:1.有监督学习的关系抽取方法对人工标注的训练数据的依赖性较强,且人工标注的成本过高。为了在少量标注数据的条件下也能获取较高的关系抽取性能,本文对半监督学习的关系抽取方法进行研究。使用基于标签传播的半监督学习算法能提升少量标注数据下的关系抽取效果,但是随机选择训练样本会影响关系抽取性能。为了提升标签传播算法的关系抽取效果,本文将标签传播算法与主动学习方法相结合用于人物关系抽取。这个方法主动选取对于关系分类的帮助最大的样本进行标注,可以减少无效标注样本数量,在相同标注数据量的条件下提升系统的性能。2.在目前的关系抽取研究中,远监督方法通常用于自动构建训练数据,但是远监督学习的基本假设存在不准确的问题,从而在训练数据中会引入噪声数据。本文针对该问题提出了基于打分函数过滤训练数据中噪声的方法,能减少基于远监督学习获取的训练数据中的噪声数据。另外,针对目前关系抽取系统的准确率不够理想的问题,本文应用词向量技术从单句文本中提取基于词向量的若干特征加入常用的关系抽取特征系统中,用于提升人物关系抽取系统的表现。3.以上方法都需要预先定义关系类型后进行关系抽取获得相应的关系实例。这些方法会限制了关系抽取模型可以获得的关系种类,无法得到新的关系类型的关系三元组数据。因此本文提出了一种不需要训练数据以及预先定义的关系类型的基于无监督学习的关系抽取方法。该方法首先从新闻标题数据获得关联度较高的人物对用于关系抽取研究;然后,抓取关联人物对所在新闻数据进行预处理后,利用TF-IDF得到人物对共现句子中的关键词;其次,基于词语共现信息得到词语之间的关联,进而建立关键词关联网络:最后,利用对关联网络进行图聚类分析以获得人物关系。
其他文献
计算机技术、多媒体技术以及Internet技术的长足发展导致了大量图像的出现,如何有效地、快速地从大规模图像数据库中检索出所需的图像是目前一个相当重要又富有挑战性的研究
目前因特网使用的核心协议IPv4是20世纪70年代末设计的。无论从网络规模还是从传输速度上看,IPv4协议的不足渐渐显现出来。其中最主要的问题在于32bit的IP地址不够用。为此,I
随着医学成像技术的发展,医学影像已经成为一项极其重要的诊疗技术。然而,随着数字化医疗设备如CT、MR、DSA、DR在临床医学诊疗中的大量应用,以及计算机技术在医疗中的迅速普
近年来,随着信息技术在教育领域的广泛应用,各种各样的智能教辅平台迅速发展并吸引了大量的用户,逐渐成为了学习者进行知识构建和协作学习的主流学习环境。与传统教育相比,智
随着多队列万兆网卡的普及,内核网络包I/O子系统的低效性越发突显。学术界和工业界为了解决这一问题而提出的高性能用户空间包I/O框架逐渐成为构建高性能网络系统的基础。然
随着计算机互联网技术的飞速发展,计算机网络在给人们带来极大便利的同时,各种网络入侵与攻击也接踵而至,入侵检测系统就充当了抵御网络入侵的武器。一方面,随着计算机网络高
序列模式挖掘是从大型时序数据库中发现事件之间存在的隐藏的、有趣的序列关系,挖掘出基于时间或者其它顺序的出现频率高的频繁序列模式。它弥补了关联规则挖掘不能反映事件在
在过去几十年里,传统的关系数据库管理系统(RDBMS, Relational Data-Base Management System)在数据管理方面发挥了重要的作用。但是,近年来随着计算机应用技术的不断发展,数
图像变形根据一定的变形函数将源图像映射到目标图像以产生图像的局部变形,该项技术可以被广泛应用于虚拟现实、动画、医学图像处理以及影视娱乐等各个领域。映射分为正向映
信息检索技术是当前最热门的研究课题之一,它主要研究如何从海量信息中快速准确的查找到用户需要的信息。但在实际应用中,由于用户查询描述方法的局限性,系统返回的检索结果