海量互联网文本中的实体关系抽取研究与实现

来源 :北京邮电大学 | 被引量 : 3次 | 上传用户:liangmingming
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的飞速发展,海量的互联网文本数据给实体关系抽取的研究引入了新一轮的机会与挑战。开放式的实体关系抽取不同于传统的实体关系抽取方法,不需要事先确定好关系类型体系也不需要标注好训练集,可以用来解决针对互联网文本的抽取任务。单机环境下的开放式实体关系抽取方法由于受到硬件环境的限制无法处理海量的互联网文本数据,本文借助于Hadoop分布式计算框架对单机环境下的算法进行了并行化,从而实现了针对海量互联网文本的处理。开放式实体关系抽取得到的关系指示词中包含了一些同义词近义词,通过对这些词进行聚类可以进一步抽象出关系类型,更好的描述实体关系。基于以上内容,本文的主要研究工作如下:1.提出了 一种新的中文无指导的开放式实体关系抽取方法UCOERE,UCOERE包括预处理、复句分解、关系三元组抽取、关系三元组过滤四个阶段。预处理完成了对输入语料的断句、分词、实体识别;在关系三元组抽取阶段,本文基于句法分析树提出一种叫做最短连通距离和的算法;在复句分解阶段,通过定义规则将复句分解为单句,极大的提升了句法分析器的性能;最后,在关系元组的过滤阶段,本文借鉴了全局排序和类型排序的方法对提取到的关系元组进行过滤,通过加入近义词合并提升了关系词典的质量。2.目前开放式实体关系抽取还没有一个统一的评判标准,本文参考了句子抽样的思想给出计算正确率、召回率和F1值的计算公式,实现了对UCOERE算法的评价。3.针对单机环境无法处理海量数据的问题本文基于Hadoop框架对UCOERE算法实现了并行化,提出了 PUCOERE算法。4.谱聚类算法具有良好的健壮性以及优秀的性能并且只需要提供相似度矩阵即可实现聚类,这对高度抽象的词语来说非常便利。本文利用谱聚类结合词语之间的相似度计算提出了一种新的关系类型自动构建方法。
其他文献
<正>在"学习践行强军目标、做新一代革命军人"主题教育活动中,我们紧紧围绕"理论灌输牵引、配合活动深化、岗位实践见效、制度机制固化"的目标思路,从立起军人样子中选题破题
NPC1L1是近年来人们研究高脂血症的重点内容,该蛋白已被证实在胆固醇的肠道吸收和胆汁分泌中发挥了关键作用。NPC1L1调节体内胆固醇的生物合成,是维持生物体胆固醇动态平衡的
十八大以来,习近平围绕我国传统文化的思想精华、时代价值、历史地位和具体弘扬途径展开了深入研究,形成了系统的、科学的马克思主义传统文化观,本文分四部分对其进行了思考
菌落形态是鉴别和分类菌种的重要特征之一。以分形和多重分形理论为基础,以计算机图像识别技术为手段,考察霉菌(绿僵菌)菌落形态的定量描述,分别测定各菌落样本的分形特征(覆盖维)和
近年来,互联网发展迅速,网络数据量飞速增长,这使得传统的方法很难从海量的网络数据中有效的提取出有用的信息。信息抽取与实体知识库的提出可以有效的解决这一问题。论文基
采用TaqMan荧光标记探针技术原理,建立副结核分枝杆菌特异的实时荧光PCR快速检测鉴定方法并组装形成临床诊断试剂盒。试剂盒提供荧光PCR与样品核酸提取试剂,检测全程包括样品
V法造型在生产中的应用越来越广泛,但V法造型设备的发展却远满足不了生产的需求。本文介绍了穿梭式造型机V法造型线的设计思路,V法造型线的组成和工作特点。经生产实践证明,
目的:本研究从医学信息学的视角出发,以搭建疾病预测模型构建策略为目的,探究海量异构的电子病历数据中隐性知识到显性知识的发现途径。同时,进行糖尿病视网膜病变预测模型构
中华文化源远流长,是中华民族5000多年来的智慧结晶,在新形势下如何继承与弘扬传统文化,使传统文化在世界各国文化交流、融合的大潮中不断焕发新的生机,是值得我们深思的问题
目的探讨护理干预在促进急性脑梗死神经功能恢复、改善生活质量中的应用效果。方法将90例急性脑梗死患者随机分为观察组和对照组,对照组采用常规护理,观察组给予早期康复、心