基于弱监督与表示学习的关系抽取算法研究

来源 :北京邮电大学 | 被引量 : 2次 | 上传用户:seacowo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
我们生活在信息时代,但是从中获取有用和结构化的知识并非易事。近期的研究估计,人类已经存储了超过295艾字节(295*1018字节)的数据。大部分的文本数据以非结构化形式存在,如新闻文章、论坛与留言板、电子邮件、社交网络状态更新,和近十亿计的网页。如何有效的利用人类所产生的数据,进行深度数据挖掘与文本理解有重要意义,这些数据可以用于强化搜索结果、知识图谱补全,自动问答系统等。为了在信息中提炼出知识,本文研究了从海量非结构化文本进行关系抽取的方法,并提出了基于弱监督与表示学习的实体关系抽取方法,主要完成了以下几方面的工作:1.针对弱监督学习会引入噪声的问题,本文提出了基于模糊分类的多实例多标签学习算法。针对某个特定实体对,将多种关系和多个样本整合起来一同学习,并通过模糊分类的方法聚合句子级特征。相比其他弱监督学习方法,本文提出的方法能够提升2%以上的fl值。2.提出了基于词向量和循环神经网络进行自动特征抽取的方法。传统的特征抽取方法依赖人工经验与知识,并且是针对特定问题的设计,扩展性不强。神经网络能够自动进行特征抽取,分层对原始文本进行处理,并且不需要进行预处理。实验证明利用不同神经网络产生的特征,都对系统性能有一定提升。3.设计并实现了基于弱监督和神经网络特征提起的实体关系抽取平台。该实验平台整合了多项工具,包括文本检索、文本分析等,能够利用知识库对文本进行自动标注,学习关系抽取模型,最后输出关系抽取结果。在LDC与New York Times数据集上,本文提出的方法较传统方法,均有一定的效果提升。综上所述,本文提出的方法能够有效提升实体关系抽取系统性能,利用弱监督扩展了学习语料,通过表示学习增强了系统在不同领域的扩展性,同时能够减少预处理工作。这些内容对于关系抽取研究有一定的贡献与参考价值。
其他文献
具有大比率高活性(001)面的锐钛矿TiO2的成功合成及其作为光催化剂的成功应用被认为是近年来光催化领域的一项重大突破。这一高活性面的成功应用对TiO2在相关的技术领域如光
该文从医院传播体系构建、品牌形象塑造、专家形象展示、医患关系改善等方面阐述了直播在南京医科大学第二附属医院宣传中产生的积极效果,并在医院直播平台建设和内容选择上
随着"一带一路"倡议日益得到广泛认同,我国对外交流与合作不断深化和加强。我国出境旅游人口日益增多,各类媒体平台相应推出有关旅游类节目。自媒体近几年发展势头迅猛,本文
本文利用水热合成技术,设计并制备了14个不同的以过渡金属-多唑类有机单元修饰的多酸(POM)基配合物。通过元素分析、IR、TG、PXRD和单晶X-射线衍射对晶体结构进行了表征,并且对多
随着现代科学技术的迅猛发展,纳米功能材料给人类带来了福音。设计简单、易操作、成本低廉、绿色环保的工艺流程具有重要的意义,是当今纳米材料研究的热点。放眼大自然奇观,自然
在界定幼儿园实际教育成本含义的基础上,确认其成本项目包含人员支出、公用支出、固定资产折旧和土地使用成本,以此为基础构建了幼儿园实际教育成本计量模型,并以佛山市某幼
环己烷液相氧化制备环己醇和环己酮(KA油)是工业生产中的重要反应,因现有技术中环己烷转化率低,产生大量废碱液等缺点,而被广泛研究。现有文献中涉及的催化剂活性位淋洗现象
稀土硼酸盐微米发光材料由于稳定的物理化学性质以及优良的发光性能,在荧光灯、平板显示等领域有广泛的应用价值。本文采用水热法合成了均匀单分散的稀土硼酸盐晶体。首先,利
锡基材料作为一种高比容量锂离子电池负极材料,已经在研究中引起了极大的重视。锡基材料在充放电过程中会发生体积膨胀,甚至发生粉化和脱落,从而使材料的循环性能变差。虽然目前