论文部分内容阅读
随着万维网的迅速发展,网络上的数据量越来越大,并且仍保持着高速的增长,网络中的海量数据正在成为一个最重要的信息源。在这些饱含数据信息的网络资源中,由于半结构化信息有很多的优点使得它正在成为不同领域行业网站中最重要的WEB数据抽取对象之一。本文主要研究了如何有效地抽取行业领域网站中的领域数据并对这些异构数据集成,以提供面向领域的增值服务。
本文研究的基于领域模型的数据抽取与集成是通过对WEB半结构化数据(WEB表)中布局表与属性/值表的表结构分析,并结合领域需求的特点,在WEB数据模型的基础上提出了WEB数据模式和领域数据模型,给出了基于WEB数据模式的数据抽取算法和基于领域数据模型的数据集成算法。
由于web信息是不断发展和丰富的过程,本文采用实体扩充和属性扩充来完善基于领域模型的抽取与集成算法。实体扩充算法首先通过基于领域模型的抽取方法获取领域数据作为种子集合,然后使用实体扩充方法自动获取领域行业中的其他WEB表格的领域数据。该方法将网络表格和领域实体建模成二分图,通过计算出扩展实体集合和种子集合的相似度和扩展实体集合自身的紧密度,并对相似度和紧密度加权计算作为扩展实体的质量分数,根据质量分数对扩展集合进行迭代替换,直到找出的扩展实体集合的质量分数最大,并且扩展实体集合的实体不再变化。该方法中实体间的相似度计算方法可以用其他的相似度计算方法替代,使得该实体扩充模型具有很好的扩展性。
属性扩充算法首先在训练阶段生成分类器和类别约束,然后在部署阶段进行网络文本中属性值的抽取和分配工作,最后将抽取的属性扩充到领域属性模型中。属性扩充的部署阶段主要通过实体约束和类别约束来排除大部分的错误属性,然后采用整数线性回归的方法找出与文本片段具有最大关联的属性值。
结合行业领域中领域数据的特点以及数据呈现的页面之间的关系,本文将这些领域数据抽取和集成的方法用于了房产数据的抽取。试验结果表明,本文的基于领域抽取与集成算法能够有效地实现行业领域数据的自动地抽取和集成工作。