面向领域的Web数据集成中数据抽取的研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:tiger_adan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet及其相关技术的飞速发展,互联网已成为最大的信息源。无论对于企业还是个人,Web逐渐成为最主要的信息来源。目前,90%的全球500强企业已建立了完善的市场情报分析系统。而中小型企业在资金、技术、人力等方面的不足,导致无法开展完善的市场情报分析工作。如何有效地集成Web数据,为中小型企业提供完善的市场情报分析支持,具有相当重大的意义。由于Internet上数据量具有动态性、分布性和多样性等特点,如何从Internet上快速、准确和稳定地获取有价值的商业信息,为市场情报分析提供支持,成为一个巨大的挑战。由于网站数量过多以及由此带来的信息泛滥,使得有用信息的获取越来越困难。获取信息的传统方式搜索引擎和Web查询已无法满足这种需求。而Web数据抽取技术可以满足这种需求,它更侧重于从Web文档集合中发现相关文档,并从中抽出用户关心的数据,即将HTML等半结构化的数据转换成为结构化的数据。目前大量的网上数据信息被保存在网站的后台数据库中,Web数据库依据用户的查询要求动态的生成Web页面,即查询相关的Web。由于这些Web页面是由同一模板生成,所以Web页面中的数据记录之间具有极高的代码结构相似性,Web数据记录对应的DOM子树之间自然也就具有很高的结构的相似性。本文把为中小型企业提供完善的市场情报分析支持作为背景,在面向领域特征的基础上,提出了可以从查询相关的Web中抽取带有语义描述的目标数据的Web数据抽取系统。本文所做的工作主要有页面标签的识别、数据抽取和标签分配。页面标签的识别是从Web Form中的Form标签与相关的查询结果列表页面中的标签的对应关系入手,提出了用机器学习技术和模式匹配技术来识别列表页面中的标签。数据抽取是从分析Web文档与DOM树的对应关系入手,提出了一种基于DOM树匹配的模板检测方法。该方法依据Web数据记录和DOM树的一一对应关系,通过分析多条数据记录的代码结构,得到数据记录对应的模板,使用该模板可以实现对由该模板生成的所有类似数据记录的发现和抽取。标签分配利用Web Form查询接口和已经识别出的列表页面中的标签,以及一些启发式规则对表中的目标数据分配对应的标签。本文对如何有效的抽取出带有语义描述的目标数据进行了探索性的研究。并对所设计的方法进行了详细地实验分析。实验结果表明本文所提出的方法是正确的且效果比较理想。本文对抽取问题的解决提供一种有效的思路和方法,同时对市场情报分析工作提供了一定的帮助。这使本文课题研究既具有探索性的理论研究价值,也具有较大的应用价值和现实意义。
其他文献
用户界面是软件系统的重要组成部分,是用户和计算机之间沟通的桥梁。界面开发的质量和效率,成为影响软件产品质量的一个重要因素。然而开发图形用户界面GUI的工作量和难度十
随着互联网的高速发展,多媒体信息的急剧增加,人们迫切希望能够快速高效地获取所需要的多媒体信息。有效地组织、管理和检索大规模的多媒体信息成为迫切需要解决的问题,其中
网络环境的复杂多变使得Web服务本身具有诸多不确定因素,同时Web服务的可用性也时常发生动态变化;用户期望可以在体验服务流程过程中,随时随地的提出更多个性化的需求,以上诸
随着信息化时代的不断发展,对发掘异构模式之间语义一致性的要求日益迫切。模式匹配作为模式操作的第一步,在数据集成、数据转换、模型管理、电子商务、语义Web等领域都起到
随着计算机网络技术的迅速发展,网络安全问题已成为当前网络技术研究的重点。理论和实践分析表明,诸如计算机病毒、恶意代码、网络入侵等渗透行为之所以能够对计算机网络产生
车牌识别是一项应用非常广泛的技术,在人们的生活中发挥着重要的作用。车牌定位、字符分割和字符识别是车牌识别的三个重要阶段,且是车牌识别技术的研究重点。本文从这三个阶
系统模拟和虚拟化技术对当今计算机科学研究和相关产业有着重要的影响,整合模拟和虚拟这两个计算环境是一项具有挑战性和有意义的工作。利用两者环境各自所具有的优势,一方面
随着数据库技术的快速发展,全球范围内的数据存储量急骤上升,面对这一挑战,数据挖掘技术应运而生,关联规则挖掘,尤其是关系数据库关联规则挖掘作为其中的一个重要研究内容,其
随着云计算的发展,越来越多的企业开始采用云计算。然而,云计算的发展仍然面临着很多挑战,其中云安全已成为其发展的最大障碍。将可信计算技术与云计算相结合是解决云安全问
在三维场景的建模中,必不可少的当然是树木。然而树木由于自身的复杂性,并不像汽车、房屋一样便于绘制。如何使用计算机语言快速、简便、逼真地绘制出一颗树木,一直是计算机