面向领域的Web数据集成中数据抽取的研究

来源 :山东大学 | 被引量 : 0次 | 上传用户：tiger_adan

【摘要】

：

随着Internet及其相关技术的飞速发展,互联网已成为最大的信息源。无论对于企业还是个人,Web逐渐成为最主要的信息来源。目前,90%的全球500强企业已建立了完善的市场情报分析

【作者】

：

王立红

【机构】

：

山东大学

【出处】

：

山东大学

【发表日期】

：

2009年期

【关键词】

：

数据抽取数据集成市场情报机器学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着Internet及其相关技术的飞速发展,互联网已成为最大的信息源。无论对于企业还是个人,Web逐渐成为最主要的信息来源。目前,90%的全球500强企业已建立了完善的市场情报分析系统。而中小型企业在资金、技术、人力等方面的不足,导致无法开展完善的市场情报分析工作。如何有效地集成Web数据,为中小型企业提供完善的市场情报分析支持,具有相当重大的意义。由于Internet上数据量具有动态性、分布性和多样性等特点,如何从Internet上快速、准确和稳定地获取有价值的商业信息,为市场情报分析提供支持,成为一个巨大的挑战。由于网站数量过多以及由此带来的信息泛滥,使得有用信息的获取越来越困难。获取信息的传统方式搜索引擎和Web查询已无法满足这种需求。而Web数据抽取技术可以满足这种需求,它更侧重于从Web文档集合中发现相关文档,并从中抽出用户关心的数据,即将HTML等半结构化的数据转换成为结构化的数据。目前大量的网上数据信息被保存在网站的后台数据库中,Web数据库依据用户的查询要求动态的生成Web页面,即查询相关的Web。由于这些Web页面是由同一模板生成,所以Web页面中的数据记录之间具有极高的代码结构相似性,Web数据记录对应的DOM子树之间自然也就具有很高的结构的相似性。本文把为中小型企业提供完善的市场情报分析支持作为背景,在面向领域特征的基础上,提出了可以从查询相关的Web中抽取带有语义描述的目标数据的Web数据抽取系统。本文所做的工作主要有页面标签的识别、数据抽取和标签分配。页面标签的识别是从Web Form中的Form标签与相关的查询结果列表页面中的标签的对应关系入手,提出了用机器学习技术和模式匹配技术来识别列表页面中的标签。数据抽取是从分析Web文档与DOM树的对应关系入手,提出了一种基于DOM树匹配的模板检测方法。该方法依据Web数据记录和DOM树的一一对应关系,通过分析多条数据记录的代码结构,得到数据记录对应的模板,使用该模板可以实现对由该模板生成的所有类似数据记录的发现和抽取。标签分配利用Web Form查询接口和已经识别出的列表页面中的标签,以及一些启发式规则对表中的目标数据分配对应的标签。本文对如何有效的抽取出带有语义描述的目标数据进行了探索性的研究。并对所设计的方法进行了详细地实验分析。实验结果表明本文所提出的方法是正确的且效果比较理想。本文对抽取问题的解决提供一种有效的思路和方法,同时对市场情报分析工作提供了一定的帮助。这使本文课题研究既具有探索性的理论研究价值,也具有较大的应用价值和现实意义。

其他文献

设计模式支持的界面对象间的交互研究

用户界面是软件系统的重要组成部分,是用户和计算机之间沟通的桥梁。界面开发的质量和效率,成为影响软件产品质量的一个重要因素。然而开发图形用户界面GUI的工作量和难度十

学位

工程化开发界面设计模式模式对象交互关系代码自动生成

基于颜色和空间特征的图像检索技术研究

随着互联网的高速发展,多媒体信息的急剧增加,人们迫切希望能够快速高效地获取所需要的多媒体信息。有效地组织、管理和检索大规模的多媒体信息成为迫切需要解决的问题,其中

学位

图像检索颜色特征特征匹配

Web服务工作流重构机制与算法研究

网络环境的复杂多变使得Web服务本身具有诸多不确定因素,同时Web服务的可用性也时常发生动态变化;用户期望可以在体验服务流程过程中,随时随地的提出更多个性化的需求,以上诸

学位

Web服务智能流程工作流重构领域本体动态服务组合图算法

数据库模式匹配方法的研究

随着信息化时代的不断发展,对发掘异构模式之间语义一致性的要求日益迫切。模式匹配作为模式操作的第一步,在数据集成、数据转换、模型管理、电子商务、语义Web等领域都起到

学位

模式匹配数据库数据集成

基于渗透图的网络弱点评估研究

随着计算机网络技术的迅速发展,网络安全问题已成为当前网络技术研究的重点。理论和实践分析表明,诸如计算机病毒、恶意代码、网络入侵等渗透行为之所以能够对计算机网络产生

学位

网络安全风险评估渗透图网络弱点关联关系

基于图像处理的汽车牌照识别系统的研究

车牌识别是一项应用非常广泛的技术,在人们的生活中发挥着重要的作用。车牌定位、字符分割和字符识别是车牌识别的三个重要阶段,且是车牌识别技术的研究重点。本文从这三个阶

学位

车牌识别车牌定位字符分割直方图

利用虚拟机动态迁移技术整合模拟和虚拟环境

系统模拟和虚拟化技术对当今计算机科学研究和相关产业有着重要的影响,整合模拟和虚拟这两个计算环境是一项具有挑战性和有意义的工作。利用两者环境各自所具有的优势,一方面

学位

模整合模拟虚拟机动态迁移操作系统计算环境

关系数据库关联规则挖掘算法研究

随着数据库技术的快速发展,全球范围内的数据存储量急骤上升,面对这一挑战,数据挖掘技术应运而生,关联规则挖掘,尤其是关系数据库关联规则挖掘作为其中的一个重要研究内容,其

学位

关系数据库数据挖掘关联规则

基于TPM联盟的可信云平台管理模型

随着云计算的发展,越来越多的企业开始采用云计算。然而,云计算的发展仍然面临着很多挑战,其中云安全已成为其发展的最大障碍。将可信计算技术与云计算相结合是解决云安全问

学位

TPM联盟云计算可信云平台时间树

基于卷积曲面的三维树木建模

在三维场景的建模中,必不可少的当然是树木。然而树木由于自身的复杂性,并不像汽车、房屋一样便于绘制。如何使用计算机语言快速、简便、逼真地绘制出一颗树木,一直是计算机

学位

树木建模参数曲面隐式曲面L系统GPU着色语言

面向领域的Web数据集成中数据抽取的研究

与本文相关的学术论文