基于词向量的开放关系抽取与分类技术研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户：lingshao2009

【摘要】

：

关系抽取是一类重要的信息抽取(Information Extraction,IE)任务,旨在从无结构或半结构的自然语言文本中抽取实体间的关系信息。传统的关系抽取大部分是抽取预定义的关系,为

【作者】

：

刘沛骞

【出处】

：

北京邮电大学

【发表日期】

：

2019年01期

【关键词】

：

开放关系抽取开放关系分类词向量半积极学习短语向量表示

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

关系抽取是一类重要的信息抽取(Information Extraction,IE)任务,旨在从无结构或半结构的自然语言文本中抽取实体间的关系信息。传统的关系抽取大部分是抽取预定义的关系,为抽取新的关系,需要编写新的关系抽取规则或标注新的数据集。而大规模真实文本中包含着非常丰富的实体关系,难以全部预先定义,为了有效获取这些信息,Banko 等于 2007 年提出了开放关系抽取(Open Relation Extraction,ORE)的任务,旨在尽可能抽取大规模文本中存在的各类实体关系。近十年来,研究者们发布了许多开放关系抽取系统。然而,目前的ORE系统在抽取性能方面还存在问题,比如抽取出不符合事实的关系三元组,并且在抽取效率方面还不能满足处理大规模Web文本的需求。另一方面,虽然ORE系统可以从文本中抽取出所有类别的关系,但一些下游任务只对少量特定的关系类别关系感兴趣。所以,开放关系的分类对下游应用具有重要价值,但目前还没有对开放关系分类的相关研究。本文在前人研究的基础上开展工作。主要内容和贡献包括:(1)提出了一种基于词向量的开放关系抽取模型。近年来出现的绝大多数ORE系统都是建立在有监督学习或依存分析基础上的,这不仅需要有标的训练语料,而且需要使用外部的NLP(Natural Language Processing)工具,这会导致错误传播和效率下降。本文提出一种新的开放关系抽取方法。该方法用基于Skip-gram模型的词向量距离计算候选三元组的可信度。基于贝叶斯理论的分析结果表明,本文所使用的可信度近似于候选三元组三元素联合概率的极大似然估计。进一步的实验结果表明所提出的算法在公开的WEB-500&NYT-500数据集上取得了 67.0%的F1值,超过了一些最新的ORE系统。(2)提出了一种面向开放关系分类的半积极学习算法。ORE系统的抽取结果中包含所有类别的关系,但一个具体的下游任务只需要使用少量特定类别的关系,且不同的下游任务感兴趣的关系类别也不相同。所以,对抽取的开放关系进行分类对下游应用具有重要价值。本文提出了一种对开放关系进行分类的半积极学习算法,SemiE。该算法是一种基于词向量的学习方法,只存储每个分类的“中心点”。其训练的时间复杂度为O(n),预测的时间复杂度和空间复杂度都是O(k),其中n为训练样例的数目,k为分类的数目。实验结果表明SemiE在SemEval-2010 Task 8数据集取得的F1值为84.6%,与最新的基于深度学习的语义关系分类模型具有相当的性能,但训练的时间复杂度较低。(3)提出了一种基于单词信息量的短语向量表示模型用于进一步提升开放关系抽取和分类模型的性能。在实体关系三元组中,实体和关系往往是用短语而非单词表示,为此,本文提出了一种新的短语向量模型计算短语向量表示。该模型基于短语中单词的信息量计算短语的向量表示。这是一种带权的向量累加方法,通过强化短语中“重要”词汇而弱化其中的“次要”词汇来更好的反映短语的语义。将所提出的短语向量表示应用于开放关系抽取与分类中,实验结果表明在WEB-500&NYT-500 数据集上的F1值为69.0%,在 SemEval-2010 Task 8数据集的F1值为85.1%,进一步提升了开放关系抽取和分类的性能。(4)实现了一个基于上述技术的开放关系抽取系统。该系统以纯文本或HTML文本为输入,输出一组开放关系三元组,每个三元组都带有基于Skip-gram模型词向量计算的可信度。

其他文献

变频分体机IPM保护的研究

屏蔽外围检测信号输入和软件的保护功能,对整机进行GB 4706.32的非正常实验。实验结果表明,IPM能实现自身保护,切断压缩机供给电流,整机经历失效后符合标准19.13的要求。

会议

软件评估变频分体机IPM

往复活塞式空压机的噪声与疲劳寿命问题研究

往复活塞式空压机是一种利用曲柄滑块机构提升气压的机械。凭借其压力范围广、适应性强等独特的优点,应用范围越来越广。但目前往复活塞式空压机在工业应用中仍存在许多问题:

学位

往复活塞式空压机噪声检测ANSYS Workbench降低噪声疲劳仿真预测

移动新媒体对青年党员政治学习影响研究

当前信息社会全面推进,移动新媒体的受众越来越广泛,“学习强国”APP以其独有的新媒体特征,成为新时代党员政治学习的重要平台。在当前推进马克思主义学习型政党建设的背景之下,加强党员的政治学习格外重要,利用移动新媒体进行政治学习对党员积极有效的政治学习具有显著促进作用。本研究以四川高校青年学生党员为研究对象,在习近平关于新闻舆论的论述、政治学习理论以及移动新媒体理论的研究框架下,以问卷调查与深度访谈为

学位

移动新媒体“学习强国”APP青年党员政治学习影响

非物质文化遗产的工业产权保护对策研究

我国的非物质文化遗产是中华民族宝贵的精神财富和社会财富,对其进行有效的保护与传承,不仅能促进传统文化产业健康发展,而且有利于坚定国民文化自信。但是,我国非遗正面临严

学位

非物质文化遗产工业产权专利信息商标保护对策

杜湖杂交羊批次化生产关键技术研究

人工授精、同期发情和羔羊早期断奶是批次化生产的关键技术。精液品质是人工授精技术的重要环节,同期发情能有效缩短世代间隔,合理的羔羊补饲模式可延长母羊使用年限,促进羔羊早期断奶和生长发育。为了促进杜湖杂交羊批次化生产效率,本课题对以下三部分内容进行了研究:不同采精季节对杜泊羊精液品质的影响;不同处理方法对湖羊同期发情与产羔效果的影响;隔栏补饲时间对杜湖杂交羔羊生长性能、免疫和生化指标的影响。以杜泊种公

学位

杜泊羊湖羊精液品质同期发情羔羊断奶隔栏补饲时间

酸碱处理对热加工莲藕片品质和细胞壁多糖结构的影响研究

莲藕质地的差异是影响其加工方式以及价格的主要原因,因此掌握莲藕热加工后质地差异的机理并通过调控达到期望的口感至关重要。醋酸和碳酸氢钠是两种常用的食品添加剂,并且在

学位

莲藕质地挥发性物质醋酸碳酸氢钠细胞壁多糖原子力显微镜

泰国留学生中级汉语综合课《阳光与月色》教学设计

中级汉语综合课是一门为了提高学生汉语水平而设置的具有综合性和过渡性的课程。通过这门课程,学生不仅能获取丰富的语言知识,提高言语技能和交际技能,而且能掌握各种学习方法和技巧,提高自主学习的能力,学生可以更快更好地实现汉语水平向高级阶段的跃进。本文以《博雅汉语·中级冲刺篇Ⅱ》的第四课《阳光与月色》为例,以泰国留学生为教学对象,进行中级汉语综合课的教学设计。本文包括五部分,具体安排如下:第一章是绪论,本

学位

《阳光与月色》中级汉语综合课教学设计

接触器动态特性在振动条件下的测试分析及其对电寿命的影响

交流接触器是一种广泛应用于生产生活中的低压电器。接触器的使用寿命与动作过程中的动态特性密切相关。振动作为一项比较常见的客观存在因素,部分接触器处于振动环境中,外界长期的振动应力往往会引起接触器的寿命降低。因此,本文在振动环境下对接触器的动态特性进行研究,并分析动态特性对接触器电寿命的影响。主要研究内容包括以下几个方面:首先,在对接触器内部结构和工作原理分析的基础上,结合其吸合过程中的动态模型,对振

学位

交流接触器振动条件动态性能评价电寿命初始动态性能

认知科学视野下高中生物理抽象思维的培养

面对经济、科技的飞速发展,社会生活的深刻变化以及人才培养质量的新要求,高中作为奠定学生终身发展基础的关键时段,其课程要求已不再满足于仅培养学生的基础知识与技能。在2

学位

认知科学高中物理教学抽象思维

E基金公司自建TA系统测试流程优化研究

随着我国资本市场的逐步放开、政策的日渐完善和投资者投资理念的愈发成熟,我国公募基金行业资产管理规模持续增长,这为推动国内创新创业、经济转型升级提供了强劲动力。在我国公募基金公司的具体运营管理过程中,TA(Transfer Agent)系统是不可缺少的一部分,该系统一方面需要承担基金产品从发行到清盘的整个运营工作;另一方面该系统是连接投资人和基金公司之间的重要桥梁,需要满足投资人的各种交易需求,对投

学位

公募基金注册登记系统测试流程流程优化

基于词向量的开放关系抽取与分类技术研究

与本文相关的学术论文