论文部分内容阅读
网页浏览和搜索引擎的关键字检索是人们从Internet上获取信息的传统方法,其局限性主要表现在:网页浏览方式很难在Internet上定何特定的知识;搜索引擎则很容易将所需知识淹没在大量的无关网页中。随着网络技术的发展,目前出现了一些全新的基于Web的应用,例如监控股票市场的及时行情,比较各个站点的商品价格等等,在此情形下仅凭搜索引擎和Web查询等技术已无法满足这些新兴的需求。为解决这一问题,Web信息抽取技术应运而生,并帮助人们从网络所提供的大量信息中提炼出其所关心的特定部分信息。与信息检索技术不同,Web信息抽取技术侧重于从web文档集合中发现相关文档,并从中抽出用户关心的数据。
在目前绝大部分基于Web的应用中,往往是将大量的数据保存在网站的后台数据库中,当用户提出某种信息需求时,Web服务器即根据用户的查询要求或条件将相关数据注入网页模板中,动态的生成Web页面以展示用户所需要的信息。在这类应用中有一个特性,即Web页面中的数据记录间具有极高的结构相似性,并且Web数据记录对应的DOM子树间也具有很高的结构相似性。因此,本文首先从分析Web文档与DOM树的对应关系及其规律入手,借鉴网页去噪的剪枝思想,提出一种基于相似性比较的信息抽取算法,即DES算法,该算法通过对基于同一模板的两个相似网页内容相似度的比较,准确定位网页中的数据区域,并在此基础上,分析数据区域中数据项之间的结构相似性,识别数据项,从而实现对Web信息以数据记录的形式进行抽取。另外,为对所抽取的Web信息做进一步的处理,本文利用ETL集成工具ODI对抽取自不同数据源的信息行清理、转换,将信息集成到目标数据仓库中,进而使得所抽取的Web信息可以直接被其它的应用程序利用,可进一步完成信息搜索、数据挖掘、机器翻译、文本摘要等后续Web信息处理工作。
此外,本文以基于相似性比较的方法为基础,实现了一个Web信息抽取与集成的原型系统,并对系统进行了实验分析。经实验证明,该算法对于各类动态Web网页信息有着很好的抽取效果。