Web实体活动与实体关系抽取研究

被引量 : 0次 | 上传用户:qqliser
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的迅速发展,Web已经成为一个巨大的数据源,拥有海量数据。如何高效、全面、准确的集成Web上有价值的信息,为市场情报分析、搜索引擎、智能问答等系统提供数据支持,丰富市场情报分析和智能问答等系统的知识库,帮助完善分析推理的结果,使搜索引擎返回更加精准的检索数据,成为数据集成、信息检索、自然语言理解等领域研究的热点和难点。要集成Web数据,首要问题是如何将Web上的无结构和半结构化数据通过信息抽取技术转变为计算机可读的结构化数据。Web数据具有大规模、异构性、自治性、分布式等特点,现有的信息抽取技术无法同时满足高效、全面和准确的数据集成需求。一方面,在面对大规模、分布式的Web数据时,现有的信息抽取技术旨在高效的抽取Web上的命名实体、实体关系和实体属性(数据对象),但是抽取方法受抽取对象领域的限制,抽取结果较为简单,信息内容不够丰富:另一方面,面对异构性、自治性强的无结构化Web数据,现有的信息抽取技术旨在抽取结果的准确性,抽取效率不能满足大规模信息抽取的需要。本文致力于研究Web信息抽取技术,目标在于在保障抽取结果准确率的前提下,面向大规模、异构性的Web数据,充分挖掘Web上的有价值信息,丰富信息抽取的内容。Web上存在大量描述实体行为活动的数据,现有的信息抽取技术未能详细刻画和抽取实体活动这一类特殊信息;面对大规模Web数据,现有的关系抽取技术主要以二元关系为抽取对象,并未考虑二元关系的时效性,从而导致关系实例的可用性较差。本文针对现有Web信息抽取技术未能充分利用Web上有价值的数据,抽取结果内容不够丰富,可用性差的问题展开研究,主要工作和贡献概括如下1.提出一种基于SVM和扩展条件随机场的Web实体活动抽取方法,能够面向多领域,准确的从Web数据源抽取实体活动这一未被利用的数据类型。Web实体活动是指存在于Web上描述实体行为活动的数据,传统信息抽取技术较少单独考虑这一特殊的数据类型。本文首先对Web实体活动进行了详细刻画,基于格语法提出了实体活动的形式化定义,并提出一种基于SVM和扩展条件随机场的Web实体活动抽取方法,能够从Web上准确的抽取实体的活动信息。首先,为了避免人工标注训练数据的繁重工作,提出一种基于启发式规则的训练数据生成算法,将语义角色标注的训练数据集转化为适合Web实体活动抽取的训练数据集,分别训练支持向量机分类器和扩展条件随机场。在抽取过程中,通过分类器获得包含实体活动的有效语句,然后利用扩展条件随机场对传统条件随机场中不能够利用的标签频率特征和关系特征建模,标注自然语句中的待抽取信息,提高标注的准确率。通过多领域的实验证明,该抽取方法能够较好的适用于Web实体活动抽取。2.提出了一种自举式Web实体关系时效信息抽取方法,有效解决了传统关系抽取中时间维度缺失的问题,丰富抽取内容,增强抽取结果的可用性。传统关系抽取主要以二元关系抽取为研究对象,但是现有抽取技术都是在假定关系实例时间无关性的基础上进行的,导致了抽取结果的时间维度缺失、可以性差。针对以上问题,本文提出了一种自举式的Web实体关系实效信息抽取方法,该方法能够抽取给定关系类型下所有关系实例以及关系实例对应的时效信息。方法中,首先对待抽取的3元关系:二元关系中的2个实体以及关系的时效信息,进行重新建模,通过将实体关系视作一个事实维度形成新的二元关系,最后利用经典的自举式二元关系抽取方法进行关系实例和时效信息的抽取。相比传统的自举式抽取过程,本文引入马尔科大逻辑网,用于弱化规则和模板的硬性约束,提高抽取的召回率;通过引入L1范数模型选择高质量模板,帮助提高抽取结果的准确率;关系的抽取对象为Web上的自然语句,方法中引入语义解析,充分利用自然语句中的依赖特征。实验证明,该方法能够在多领域高效准确的抽取给定关系类型下的关系实例以及实例的对应时效信息,最后,通过实验证明,在自举式抽取过程中引入MLN、L1范数模型进行模板选择以及语义解析对抽取结果的提高都有显著帮助。
其他文献
作家王安忆以《雨,沙沙沙》为我们带来了清新明朗,在《小鲍庄》中完成了寻根的尝试,更以《长恨歌》彰显了富丽繁华,在《富萍》中刻写了那份纯净生动,后来的《逃之夭夭》又以
近年来,国家经济迅速发展,但是非再生能源的消耗也随之大量增加,因此能否保证国家经济持续高速发展的关键落在了解决能源短缺的问题上,为此在中共十七大上,国家领导人明确提
<正> 1980年美国国立癌症研究所 Rosenbarg研究室首先发现在白细胞介素Ⅱ(Interleu-kin-2IL-Ⅱ)存在的条件下,经短期培养的淋巴细胞(46-72h)对肿瘤细胞有杀伤作用。因为这种
儒家管理思想构建了中国传统管理思想的主体框架,而先秦儒家管理思想是儒家管理思想的源头活水。在现代化过程中,东亚经济的腾飞,尤其是三十年来中国经济的持续高速发展,让世
通过对公共休闲空间与绿化景观设施的概述,归纳了绿化景观设施的功能构成,针对现阶段城市公共休闲空间的绿化景观设施设计存在的问题,提出了具体的设计原则及设计要点,对工程
目前高职课程教学普遍存在着与工作实际相脱节、重知识传授轻动手能力训练、教材以学科知识体系为导向等问题,严重阻碍了教学质量的提高。同时,随着计算机网络技术的发展,学
从分析《建筑施工技术》课程的实训目标入手,概述了钢筋绑扎的施工工具和操作准备,归纳了钢筋绑扎的操作过程,并介绍了6种常用的钢筋绑扎方法,对提高学生的专业技能有着重要
介绍区域空调在发达国家中的发展趋势及其在节能、环保、运行管理方面的优势,指出区域空调具有良好的发展前景。
本文以α-烯烃为原料,通过使用(C2H5)2AlCl/TiCl4催化体系配位聚合的方法齐聚合成制备了Ⅳ类高级润滑基础油(PAO),并对聚α-烯烃类高级润滑基础油(PAO)合成工艺条件和精制流
指出城市商业建筑外部空间的规划不仅仅是为开发者创造一个获利的空间,更多的是最大范围地为城市的公共空间做出贡献,在此背景下,以苏州圆融时代广场为例,探讨了在城市商业建