基于相似性比较的Web信息抽取与集成

来源 :东南大学 | 被引量 : 0次 | 上传用户:h459403474
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网页浏览和搜索引擎的关键字检索是人们从Internet上获取信息的传统方法,其局限性主要表现在:网页浏览方式很难在Internet上定何特定的知识;搜索引擎则很容易将所需知识淹没在大量的无关网页中。随着网络技术的发展,目前出现了一些全新的基于Web的应用,例如监控股票市场的及时行情,比较各个站点的商品价格等等,在此情形下仅凭搜索引擎和Web查询等技术已无法满足这些新兴的需求。为解决这一问题,Web信息抽取技术应运而生,并帮助人们从网络所提供的大量信息中提炼出其所关心的特定部分信息。与信息检索技术不同,Web信息抽取技术侧重于从web文档集合中发现相关文档,并从中抽出用户关心的数据。 在目前绝大部分基于Web的应用中,往往是将大量的数据保存在网站的后台数据库中,当用户提出某种信息需求时,Web服务器即根据用户的查询要求或条件将相关数据注入网页模板中,动态的生成Web页面以展示用户所需要的信息。在这类应用中有一个特性,即Web页面中的数据记录间具有极高的结构相似性,并且Web数据记录对应的DOM子树间也具有很高的结构相似性。因此,本文首先从分析Web文档与DOM树的对应关系及其规律入手,借鉴网页去噪的剪枝思想,提出一种基于相似性比较的信息抽取算法,即DES算法,该算法通过对基于同一模板的两个相似网页内容相似度的比较,准确定位网页中的数据区域,并在此基础上,分析数据区域中数据项之间的结构相似性,识别数据项,从而实现对Web信息以数据记录的形式进行抽取。另外,为对所抽取的Web信息做进一步的处理,本文利用ETL集成工具ODI对抽取自不同数据源的信息行清理、转换,将信息集成到目标数据仓库中,进而使得所抽取的Web信息可以直接被其它的应用程序利用,可进一步完成信息搜索、数据挖掘、机器翻译、文本摘要等后续Web信息处理工作。 此外,本文以基于相似性比较的方法为基础,实现了一个Web信息抽取与集成的原型系统,并对系统进行了实验分析。经实验证明,该算法对于各类动态Web网页信息有着很好的抽取效果。
其他文献
随着互联网的发展,理解网络行为对于网络管理、规划和发展都有重要意义,网络流量测量是研究网络行为的基础,也是分析网络状况、掌握网络流量特征的有效方法,因此网络流量测量变得
学位
信息化社会的发展对人的身份的有效鉴定提出了更高的要求,这使掌纹识别技术的研究走向深度。其中,基于方向特征的掌纹识别方法表现最为突出,取得了很好的识别效果。该方法一
市场竞争的加剧,对工作流产品的时效性、柔性和可靠性提出了更高的要求。而动态多变的业务环境,加上业务流程常具有一定的时间约束,工作流系统的运行过程中时间异常的出现频率大
当前E-Science等网格应用日益普及,致使以IP over Optical为核心的光网格计算环境相关技术得到了广泛关注,目前国际上许多研究组织或机构,重点资助了一批专项研究项目(如:DRA
学位
随着嵌入式应用的日益普及,业界对嵌入式操作系统用户界面美观性等诸多方面提出了更高的要求,而桌面环境为操作系统提供一个更加完善的界面以及大量各类整合工具和应用程序,由于
移动Ad Hoc网络(Mobile Ad Hoc Network,MANET)是由一组带有无线通信收发装置的移动终端节点组成的一个多跳、临时和无中心的网络。路由协议一直是MANET研究比较活跃的领域,
学位
近年来随着多媒体数据成指数级的增长,多媒体分类和检索变得越来越迫切。当人们在浏览和理解视/音频内容时,作为多媒体数据中标志性部分的音频,为人们的感知提供了重要线索。
学位
P2P技术和流媒体技术的结合,为网络上的音视频数据的传输问题开辟了新的发展方向,这种方式采用P2P分布式的特性对流媒体数据进行分发。基于随机网络拓扑的P2P流媒体内容分发
随着计算机模拟技术的发展,对计算机运算速度、处理精度的要求越来越高。为了在有限的计算机资源条件下求解大规模计算机模拟任务,因此基于高性能计算机技术的并行计算技术得
学位
随着多媒体技术的发展和互联网的普及,数字多媒体作品的制作、处理和网上传播越来越便捷,多媒体数字化给人们提供便利的同时,也给知识产权的保护带来挑战,数字媒体作品尤其是