开放式中文实体关系抽取研究

被引量 : 0次 | 上传用户:wjw842008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
实体关系是描述实体之间语义关系的重要途径。实体关系抽取是信息抽取任务中的重要环节,也有着广泛的应用前景。随着Web2.0的迅猛发展,人们对实体关系抽取提出了新的要求,以适应从快速增长的海量互联网文本中迅速准确地获取对用户有价值的信息。传统的实体关系抽取需要预先定义关系类型体系,然而定义一个全面的实体关系类型体系是很困难的。开放式实体关系抽取技术通过使用关系指示词描述关系的方法解决了预先定义关系类型体系的问题,但是在中文上的研究还比较少。因此,针对不同的应用场景,本文提出了两种不同的开放式实体关系抽取方法,并且探索自动构建关系类型体系的相关方法。针对句子的开放式实体关系抽取问题,本文提出基于有指导的开放式实体关系抽取方法。首先,制定开放式实体关系抽取语料标注规范,并且构建开放式实体关系抽取语料库;然后,通过分析语料中的语言现象,制定了先识别实体对和先识别关系指示词两套方法,并且设计了泛化能力强的特征抽取方案。在开放式实体关系语料上测试的F值达到61.41%。针对互联网的开放式实体关系抽取问题,本文提出面向大规模网络文本的无指导开放式中文实体关系抽取(UnCORE:Unsupervised Chinese Open Entity RelationExtraction for the Web)方法,首先使用实体之间的距离限制和关系指示词的位置限制获取候选关系三元组,然后采用全局排序和类型排序的方法来挖掘关系指示词,最后使用关系指示词和句式规则对候选关系三元组进行过滤得到最终的关系三元组。在获取大量关系三元组的同时,还保证了80%以上的微观平均准确率,满足实用要求。本文使用基于关系指示词聚类的方法自动构建关系类型体系。基于RNN-LM的关系指示词相似度计算方法和基于HowNet的关系指示词相似度计算方法,尝试使用近邻传播聚类算法和层次聚类算法对关系指示词进行聚类。在PER-PER实体对类型的关系指示词集合上实验,平均F值最高达到64.25%。最后,为了把本文的相关研究成果展示给研究人员,搭建了两个演示系统:面向句子的开放式实体关系抽取系统和开放式实体关系三元组查询系统。面向句子的开放式实体关系抽取系统从用户输入的自然语言文本中抽取关系三元组,并且把抽取结果以网页的形式展现。开放式实体关系三元组查询系统对从互联网文本中挖掘的大量关系三元组构建索引,用户输入查询的实体,系统返回该实体相关的关系三元组,并且以清晰直观的方式展示关系三元组。
其他文献
警察辅助制度的推广带来了巨大的制度效益,但是由于对这一制度的法律规范不健全,也带来了诸多争议。警察辅助人员是否有权粘贴“违法停车告知单”乃是这一制度中饱受争议的一
古诗是我国的文化瑰宝。古诗是小学生语文学习的重要组成部分,同时在其中占据重要位置。从情景再造的角度对小学古诗教学的审美策略进行分析,这对古诗教学的顺利进行有积极意
本文基于斜拉桥长期索力监测的需要,针对实际工程中索力仪对于安装减振器后的拉索索力测量不准确的现象,以频率法为基础,借鉴已有解析法和Ritz法计算理论,从直接解析、换算刚度、
在交通系统逐渐智能化的今天,如果交通管理中心以及出行市民可以直观、及时的掌握十字路口、交通事故易发点、停车场车位信息等关键点的路面情况,使得交管中心可以掌握交通状况
炎帝作为中华民族的始祖,其在中国古代历史文化中的地位是十分崇高的。据传说以炎帝为首的姜姓部落在清姜河畔的姜氏城一带繁衍生息,而清姜河畔的姜氏城正位于现今的宝鸡市。所
混凝土装配式结构作为一种优势明显的建筑结构形式,必然成为未来建筑工业化的发展方向之一,而制约装配式结构发展的主要因素是节点的连接问题。柱子是框架及框剪等结构的主要抗
随着社会主义市场经济的不断完善以及世界经济一体化进程的加快,我国的企业管理正在从完善职能管理向加强项目管理转变。项目管理作为一门新的学科,越来越为中国的政府部门和企
跑酷运动属于新兴的街头极限运动,目前国内体育理论界对于跑酷运动的研究较少,有关跑酷运动在中国或者世界的传播进程的研究资料相对匮乏。本研究立足于这样的背景及理论形势下
作为湘江重要河段,湘潭段水域连接株洲市与长沙市,对湘江流域总体水质有重要影响。随着湘江流域经济的快速发展,大量工农业污染负荷排入湘江,引发水环境危机。因此,合理规划沿江水
随着科技发展,模拟集成电路信号处理已经进入高速度、低功耗、高集成度阶段。因为沟道面积的不断减少、信号频率的不断增加,所以集成电路对电磁干扰的敏感度不断增强。电流镜作