实体关系抽取算法研究

来源 :北京邮电大学 | 被引量 : 18次 | 上传用户:hydhyd112
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
实体关系抽取是信息抽取的一个重要分支,它是指通过信息抽取技术,从自然文本抽取出实体及其之间的关系,即将非结构化数据变成半结构化数据或结构化数据的技术。随着互联网的日益普及和广泛应用,互联网数据急剧膨胀,海量无标签数据中富含大量命名实体及其关系属性,如,人物、机构以及他们之间的关系,如何从海量数据中高效、精准的抽取出这些实体及关系属性,成为目前实体关系抽取面临的重大挑战。近年来,消息理解会议(Message Understanding Conference,MUC)、自动内容抽取(Automatic Content Extraction,ACE)和文本分析会议(Text Analysis Conference,TAC)等评测的出现推动了文本关系抽取技术研究的发展。英语填空(English Slot Filling,ESF)任务,是文本分析会议(Text Analysis Conference,TAC)中知识库群体(Knowledge Based Population,KBP)的子任务。该任务主要是抽取人物和机构的特定的关系属性值,并将这些信息用于维基百科信息框的完善以及参考知识库的构建。本文对语义关系抽取的关键问题进行了研究,主要是针对以上填空任务所定义的关于人物的25中关系属性和组织机构的16种关系属性进行抽取。基于目前语料集只含有部分标签甚至无标签的特点,本文主要采用半监督的关系抽取算法-bootstrapping算法,将该任务往年实体及其关系属性值对作为种子,构建一种语义约束的-bootstrapping模型。本文研究的主要内容及其创新点如下:1.研究了关系抽取中约束关系语义的触发词特征,并提出一种基于激活力的触发词挖掘方法。该触发词挖掘方法通过统计触发词和关系实例之间的相互激活关系,定义了一种衡量触发词触发某种关系能力的新测度:触发力。本文将该方法应用于ESF任务中,对各个实体关系的触发词进行抽取,取得了良好的实验效果。2.研究了关系抽取中关系模式的表达方法,提出了一种新的模式表示方法:语义最短依存路径模式。语义最短依存路径采用从实体到其关系属性值的最短路径作为模式,并采用触发词作为该模式的语义约束。相比于传统关系模式表示方法,语义最短依存路径模式包含了更丰富的句法特征和语义特征,具有更强的关系指向性。3.研究了bootstrapping模型中用于衡量关系模式相似性的相似性测度,提出了一种自底向上的核函数测度。该测度假设距离关系属性值越近的依存特征的关系指向性越强,其权重越大;距离属性值越远的依存特征的权重越小,通过加权两个模式的各个特征之间的相似度来计算两个模式的相似度。4.研究了关系抽取中语义约束的bootstrapping模型的构建。对传统bootstrapping关系模型进行归纳总结,并定义了一种新的语义约束的bootstrapping关系抽取模型。本文定义了构建语义关系抽取模型的关键算法,并着重描述了如何对传统bootstrapping模型添加语义约束,从而抑制bootstrapping模型的语义漂移问题。最后,对全文的工作进行了总结,并对下一部分研究方向进行了展望。
其他文献
目的探讨MBD4蛋白在子宫内膜腺癌中的表达及临床意义。方法采用免疫组织化学SP法检测45例正常子宫内膜和60例子宫内膜腺癌中MBD4蛋白的表达,并分析其与临床分期和病理分级的
2018-2019赛季国际雪联自由式滑雪空中技巧世界杯收官之战于2019年3月3日在长春市莲花山滑雪场落下帷幕,我校师生共收获4金、3银、1铜及国际雪联年度女子最佳新人奖。徐梦桃
2018年是实施乡村振兴战略的起步之年,是贯彻习近平新时代中国特色社会主义思想和党的十九大精神的开局之年,也是我到新岗位履职新使命的奋战之年。一年来,我们认真贯彻习近
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
如今,数据生成的速度远超人们的想象。在以前,人是数据产生的主要来源;而现在,图像设备、传感器、无人机、互联汽车、物联网设备及工业设备组件等,以多样的途径生成各类格式
图像的识别与理解是医学影像自动诊断的核心内容,在医学图像研究中具有重要的价值和意义。医学图像中蕴含着丰富的人体图像信息和规则,使得医学图像的显示、理解、应用都面临
测量技术是现代工业的基础技术之一,测量的精度和效率在一定程度上决定着制造业乃至科学技术的发展水平。随着工业制造技术和加工工艺的改进与提高,人们对测量手段的速度和精
采用热卷、热校的方法,成功完成了单层板焊结构余热回收锅炉汽包的制造,阐述了Mn-Mo钢板(SA302G:B)和15CrMo锻件的热成形、焊接、热处理等制造技术。
目的探析降压麻醉联合高容量血液稀释技术用于脊柱手术麻醉中的优势。方法选取2018年6月至2018年12月于本院行脊柱手术治疗的120例患者,随机分为两组,各60例。观察组患者采用