基于领域模型的数据抽取与集成

来源 :沈阳建筑大学 | 被引量 : 0次 | 上传用户:hblhzl_18
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着万维网的迅速发展,网络上的数据量越来越大,并且仍保持着高速的增长,网络中的海量数据正在成为一个最重要的信息源。在这些饱含数据信息的网络资源中,由于半结构化信息有很多的优点使得它正在成为不同领域行业网站中最重要的WEB数据抽取对象之一。本文主要研究了如何有效地抽取行业领域网站中的领域数据并对这些异构数据集成,以提供面向领域的增值服务。   本文研究的基于领域模型的数据抽取与集成是通过对WEB半结构化数据(WEB表)中布局表与属性/值表的表结构分析,并结合领域需求的特点,在WEB数据模型的基础上提出了WEB数据模式和领域数据模型,给出了基于WEB数据模式的数据抽取算法和基于领域数据模型的数据集成算法。   由于web信息是不断发展和丰富的过程,本文采用实体扩充和属性扩充来完善基于领域模型的抽取与集成算法。实体扩充算法首先通过基于领域模型的抽取方法获取领域数据作为种子集合,然后使用实体扩充方法自动获取领域行业中的其他WEB表格的领域数据。该方法将网络表格和领域实体建模成二分图,通过计算出扩展实体集合和种子集合的相似度和扩展实体集合自身的紧密度,并对相似度和紧密度加权计算作为扩展实体的质量分数,根据质量分数对扩展集合进行迭代替换,直到找出的扩展实体集合的质量分数最大,并且扩展实体集合的实体不再变化。该方法中实体间的相似度计算方法可以用其他的相似度计算方法替代,使得该实体扩充模型具有很好的扩展性。   属性扩充算法首先在训练阶段生成分类器和类别约束,然后在部署阶段进行网络文本中属性值的抽取和分配工作,最后将抽取的属性扩充到领域属性模型中。属性扩充的部署阶段主要通过实体约束和类别约束来排除大部分的错误属性,然后采用整数线性回归的方法找出与文本片段具有最大关联的属性值。   结合行业领域中领域数据的特点以及数据呈现的页面之间的关系,本文将这些领域数据抽取和集成的方法用于了房产数据的抽取。试验结果表明,本文的基于领域抽取与集成算法能够有效地实现行业领域数据的自动地抽取和集成工作。
其他文献
近些年无线网络的应用越来越广泛,无线网络的基础理论与关键技术的研究具有更加重要的科学意义和经济价值。传统拥塞控制协议在无线计算机网络中性能表现不佳,使得对无线网络中
随着移动互联网技术的发展,大批量的多媒体服务涌现在现有的网络环境中,加之各种便携式移动设备通过无线的方式接入到网络中,使得网络带宽资源常显不足,并影响到网络传输服务
改革开放以来,关于大型堤坝安全监控指标研究比较成熟,大型堤坝抵御风险能力不断地增强,改变了过去因洪涝灾害发生危及堤坝安全的状况。但是,中小型堤坝安全隐患仍然存在,经常发生
随着科技的进步,电子词典得到了广泛的应用。当前,国内知名的电子词典产品主要针对英语单词的查询,并没有涉及积分等复杂公式的计算和查询。但是数学又非常的重要,它是一切自
目前计算电磁学是电子工程科学中的一个重要研究领域。随着计算机硬件与相关算法的发展,电磁仿真科学在民用与军用方面都得到了广泛应用。本文使用计算机图形学的加速技术对
近年来,中国在国际舞台上开始扮演越来越重要的角色,然而与此不相映衬的却是中国的服装行业同国外服装行业相比,显得竞争力较为薄弱。对于这种境况,国内服装行业越来越意识到
图像配准是图像分析和理解的关键环节,是将不同时间、不同的传感器(成像设备)和(或)不同条件下(天候、照度、摄像位置和角度等)获取的同一场景的两幅(或多幅)图像进行匹配、叠加的处
作为能够快速、无痛苦、准确并且可以提前诊断的诊病方式,中医学的手掌诊病得到了普遍的认可。中医专家根据手掌不同位置、不同的纹理、色泽等信息就可以得出诊断,这样就可以
随着科学技术的发展,工业和生活的用水增加,排放的污水量增加,为了让人们能喝到干净的水,污水处理技术在人类生存的迫切需求之下快速的发展;污水处理过程不是一种简单的污水
图像分割是图像处理领域的关键环节,在医学图像处理、视频图像处理、遥感卫星图像处理等方面都有重要的应用。在对遥感图像进行预处理的基础上,采用图像分割方法能够有效提取