基于平面图的网页分块算法的研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:linan9348
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网页结构的复杂化与内容的多主题化,搜索引擎的结果越来越无法满足人们的需求,因为网页作为最基本的信息获取单位已不再合适,要更准确的获取web上的信息,就必须对网页进行分块。然而,现有的网页分块方法多是在DOM结构上的启发式方法,如VIPS(Vision basedPage Segmentation)。这种方法简单易实现,效率也较高,但不具有普遍适用性。另一种基于图论的方法Graph Approach,它将网页转换成图来表示,然后对图进行划分,得到划分结果再映射到网页上。该方法能够应用到web上所有的网页,具有普遍适用性,但由于代表网页的图非常大,划分困难,效率较低,不具实用性。针对现有网页分块方法不足,本文提出一种基于平面图的网页分块算法。该算法首先将抽取网页结构和视觉信息构造一个无向加权图,其中图的顶点是网页DOM树中的可视叶子节点,图的边为浏览器中显示的节点位置关系。接下来通过Gomory-Hu算法对图进行划分,从而实现网页分块。由于这种结合使用结构信息和视觉信息构造的图是平面图,因而算法效率很高。同时,Gomory-Hu算法可以很好地保证图划分的质量。实验表明,同VIPS算法以及Deepayan的图论算法相比,本文算法的准确率和召回率均有很大提高,同时算法运行时间远远低于Deepayan的图论算法。
其他文献
基于BP算法的BP网络在计算上以并行为主,具有很强的鲁棒性和容错能力,并且非线性单隐层BP网络可以实现以任何精度近似任何连续非线性函数,因此BP网络在实际应用中受到广泛关注。
Web服务作为新一代的平台独立的分布式计算方式,具有适合异构系统集成、易于开发和部署、易于发现和调用等诸多优势,近年来逐渐流行,在很多领域得到了广泛应用,但是Web服务仍然面
一个移动Ad hoc网络(MANET)是一系列相互之间可以通信、完全自组织、自配置无线移动节点的集合。MANET网路由协议用于发现和维护节点之间的路由。Internet接入,通常是指MANET非
伴随着互联网、物联网和移动互联网的快速发展,每天会产生海量数据,数据处于爆炸式的增长状态,这预示着大数据时代的到来。大数据时代的数据具有数量大、结构复杂的特点,导致
近年来,随着人民生活水平的提高,对于食物的营养要求也不断提高,鱼虾等水产品由于其具有高蛋白低脂肪的特点受到大家的青睐。因此,海产品的淡水养殖给养殖户带来了较大的经济收益
在现代企业应用中,多个应用系统或者同一个系统的多个用户之间往往需要进行数据信息交换,如何保证数据传输中的安全变得越来越重要。本文在深入研究现有数据交换技术和保证数
苹果iPhone的面世促进了市场上触摸屏幕手机的发展,越来越多的厂商加强了触摸屏手机的研发力量。美国高通(Qualcomm)公司提出的CDMA(Code Division Multiple Access)技术,由于
交通状态主要表示为交通流状态,宏观上主要是指城市道路交通的拥堵程度。在城市道路交通控制过程中,交通状态的判定是前提和基础。传统的交通状态判定的研究通常是针对高速路
基于半导体的以Flash为存储介质的存储器是一种高性能、低能耗的新兴存储设备,它的问世将逐渐取代以磁记录方式存储数据的硬盘。但由于Flash存储芯片本身容量的限制和芯片中
随着计算机和网络技术的飞速发展,日益普及的互联网为我们提供了大量的经济利益和生活便利的同时,也带来了大量的信息安全问题,如个人隐私信息、商业与军事机密信息的泄露、