论文部分内容阅读
随着互联网技术的迅速发展,Web已经成为一个巨大的数据源,拥有海量数据。如何高效、全面、准确的集成Web上有价值的信息,为市场情报分析、搜索引擎、智能问答等系统提供数据支持,丰富市场情报分析和智能问答等系统的知识库,帮助完善分析推理的结果,使搜索引擎返回更加精准的检索数据,成为数据集成、信息检索、自然语言理解等领域研究的热点和难点。要集成Web数据,首要问题是如何将Web上的无结构和半结构化数据通过信息抽取技术转变为计算机可读的结构化数据。Web数据具有大规模、异构性、自治性、分布式等特点,现有的信息抽取技术无法同时满足高效、全面和准确的数据集成需求。一方面,在面对大规模、分布式的Web数据时,现有的信息抽取技术旨在高效的抽取Web上的命名实体、实体关系和实体属性(数据对象),但是抽取方法受抽取对象领域的限制,抽取结果较为简单,信息内容不够丰富:另一方面,面对异构性、自治性强的无结构化Web数据,现有的信息抽取技术旨在抽取结果的准确性,抽取效率不能满足大规模信息抽取的需要。本文致力于研究Web信息抽取技术,目标在于在保障抽取结果准确率的前提下,面向大规模、异构性的Web数据,充分挖掘Web上的有价值信息,丰富信息抽取的内容。Web上存在大量描述实体行为活动的数据,现有的信息抽取技术未能详细刻画和抽取实体活动这一类特殊信息;面对大规模Web数据,现有的关系抽取技术主要以二元关系为抽取对象,并未考虑二元关系的时效性,从而导致关系实例的可用性较差。本文针对现有Web信息抽取技术未能充分利用Web上有价值的数据,抽取结果内容不够丰富,可用性差的问题展开研究,主要工作和贡献概括如下1.提出一种基于SVM和扩展条件随机场的Web实体活动抽取方法,能够面向多领域,准确的从Web数据源抽取实体活动这一未被利用的数据类型。Web实体活动是指存在于Web上描述实体行为活动的数据,传统信息抽取技术较少单独考虑这一特殊的数据类型。本文首先对Web实体活动进行了详细刻画,基于格语法提出了实体活动的形式化定义,并提出一种基于SVM和扩展条件随机场的Web实体活动抽取方法,能够从Web上准确的抽取实体的活动信息。首先,为了避免人工标注训练数据的繁重工作,提出一种基于启发式规则的训练数据生成算法,将语义角色标注的训练数据集转化为适合Web实体活动抽取的训练数据集,分别训练支持向量机分类器和扩展条件随机场。在抽取过程中,通过分类器获得包含实体活动的有效语句,然后利用扩展条件随机场对传统条件随机场中不能够利用的标签频率特征和关系特征建模,标注自然语句中的待抽取信息,提高标注的准确率。通过多领域的实验证明,该抽取方法能够较好的适用于Web实体活动抽取。2.提出了一种自举式Web实体关系时效信息抽取方法,有效解决了传统关系抽取中时间维度缺失的问题,丰富抽取内容,增强抽取结果的可用性。传统关系抽取主要以二元关系抽取为研究对象,但是现有抽取技术都是在假定关系实例时间无关性的基础上进行的,导致了抽取结果的时间维度缺失、可以性差。针对以上问题,本文提出了一种自举式的Web实体关系实效信息抽取方法,该方法能够抽取给定关系类型下所有关系实例以及关系实例对应的时效信息。方法中,首先对待抽取的3元关系:二元关系中的2个实体以及关系的时效信息,进行重新建模,通过将实体关系视作一个事实维度形成新的二元关系,最后利用经典的自举式二元关系抽取方法进行关系实例和时效信息的抽取。相比传统的自举式抽取过程,本文引入马尔科大逻辑网,用于弱化规则和模板的硬性约束,提高抽取的召回率;通过引入L1范数模型选择高质量模板,帮助提高抽取结果的准确率;关系的抽取对象为Web上的自然语句,方法中引入语义解析,充分利用自然语句中的依赖特征。实验证明,该方法能够在多领域高效准确的抽取给定关系类型下的关系实例以及实例的对应时效信息,最后,通过实验证明,在自举式抽取过程中引入MLN、L1范数模型进行模板选择以及语义解析对抽取结果的提高都有显著帮助。