论文部分内容阅读
随着Internet及其相关技术的飞速发展,互联网已成为最大的信息源。无论对于企业还是个人,Web逐渐成为最主要的信息来源。目前,90%的全球500强企业已建立了完善的市场情报分析系统。而中小型企业在资金、技术、人力等方面的不足,导致无法开展完善的市场情报分析工作。如何有效地集成Web数据,为中小型企业提供完善的市场情报分析支持,具有相当重大的意义。由于Internet上数据量具有动态性、分布性和多样性等特点,如何从Internet上快速、准确和稳定地获取有价值的商业信息,为市场情报分析提供支持,成为一个巨大的挑战。由于网站数量过多以及由此带来的信息泛滥,使得有用信息的获取越来越困难。获取信息的传统方式搜索引擎和Web查询已无法满足这种需求。而Web数据抽取技术可以满足这种需求,它更侧重于从Web文档集合中发现相关文档,并从中抽出用户关心的数据,即将HTML等半结构化的数据转换成为结构化的数据。目前大量的网上数据信息被保存在网站的后台数据库中,Web数据库依据用户的查询要求动态的生成Web页面,即查询相关的Web。由于这些Web页面是由同一模板生成,所以Web页面中的数据记录之间具有极高的代码结构相似性,Web数据记录对应的DOM子树之间自然也就具有很高的结构的相似性。本文把为中小型企业提供完善的市场情报分析支持作为背景,在面向领域特征的基础上,提出了可以从查询相关的Web中抽取带有语义描述的目标数据的Web数据抽取系统。本文所做的工作主要有页面标签的识别、数据抽取和标签分配。页面标签的识别是从Web Form中的Form标签与相关的查询结果列表页面中的标签的对应关系入手,提出了用机器学习技术和模式匹配技术来识别列表页面中的标签。数据抽取是从分析Web文档与DOM树的对应关系入手,提出了一种基于DOM树匹配的模板检测方法。该方法依据Web数据记录和DOM树的一一对应关系,通过分析多条数据记录的代码结构,得到数据记录对应的模板,使用该模板可以实现对由该模板生成的所有类似数据记录的发现和抽取。标签分配利用Web Form查询接口和已经识别出的列表页面中的标签,以及一些启发式规则对表中的目标数据分配对应的标签。本文对如何有效的抽取出带有语义描述的目标数据进行了探索性的研究。并对所设计的方法进行了详细地实验分析。实验结果表明本文所提出的方法是正确的且效果比较理想。本文对抽取问题的解决提供一种有效的思路和方法,同时对市场情报分析工作提供了一定的帮助。这使本文课题研究既具有探索性的理论研究价值,也具有较大的应用价值和现实意义。