基于网站模型板树的网页分析技术研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:xiangceng666
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web InfoMall是一个历史网页的存储和展示系统,已经存储了从2001年至今的中国互联网上近50亿网页,并且数据量以每月3000万的速度增长着。当网页数据被收集到系统中后,需要经过复杂的网页分析过程来提取页面的各种属性,随着数据量的不断增大,该过程消耗的资源也会不断增加,这使得提高网页分析的效率成为了一个重要的课题。随着互联网的发展,网页模板的使用越来越普遍,为了给用户更好的体验,大多数门户网站都选择采用模板技术生成自己的网页。相关研究表明,模板内容占互联网网页内容的比例在50%以上,并且模板内容的规模以每年6%的速度快速增长着。通过对网页模板的分析我们发现,相同模板的网页往往具有相同或者相似的网页属性,例如网页类型、主题分类和页面重要度等,这意味着通过模板匹配的方法可以达到快速分析网页相关属性的目的,对于减少网页分析过程的资源消耗有非常重要的意义。  本文提出了一种基于Simhash的网页模板聚类算法。本文选取了链接路径作为网页的模板特征,采用Simhash算法为每个网页计算一个64位特征值代表网页的模板特征,网页之间的Simhash特征值越相似,对应网页的模板就越相似。然后提出了一种模板聚类算法对网页进行模板聚类,选取对普遍的模板特征值作为聚类中心,具有相似Simhash特征值的网页被聚类到一起,每个聚类代表一个网页模板。基于网页模板聚类的结果,本文提出了一种网站模板树的构造方法。网站模板树是指一个网站使用的所有模板的树状结构,方便对站内网页模板进行管理。首先采用广度优先算法自顶向下构造网站连接图,然后通过链接规约的方式把网站连接图规约为网站的模板树。在构造模板树的过程中,本文提出了一种基于模板的网页类型判断优化算法,可以大大提高网页类型判断的准确率。同时,本文提出了一种基于网站模板树的网页分类算法,在快速对模板对应的网页集合进行主题分类的同时,达到细化模板树的目的。最后,实现了一种基予网站模板树的网页模板查询系统来提高、WebInfoMall系统中网页分析过程的系统效率。当网页从互联网被收集到系统中后,优先在模板查询系统中进行模板匹配,匹配命中的网页可以快速得到该模板对应的相关网页属性,这样可以大大减少网页分析过程对于系统资源的占用。
其他文献
随着多核技术、云计算技术的发展,我们常常会面临一台多核机上运行若干组不同的计算任务的情景。在这样的情景下,内存、高速缓存、总线等存储相关的竞争会对计算性能产生较大影
随着信息时代的到来,在各式各样的现实应用中,由于度量误差、数据不完整性等原因,产生了大量的不确定数据,不确定数据扮演着十分重要的角色。同时,数据仓库与OLAP(On-Line An
近年来,随着计算机硬件和软件的快速发展,使得软件工程面临着严峻的挑战:软件系统变得越来越复杂,大大增加了开发和维护的难度。如何更快地开发出满足需求的应用系统已经成为软件
为了解决PC机自身结构缺陷,改变传统安全技术(如防火墙、杀毒软件和入侵检测系统等)在应对如今与日俱增的信息安全问题情形下的被动局面,从芯片、硬件结构和操作系统等方面综合
随着计算机网络的快速发展,各个领域的信息呈现指数级增长的趋势。领域性分析是知识构建、语义理解、文本分类、数据发掘等研究的基础,具有非常重要的意义。本文从词的层次上
MapReduce是应用于大规模数据处理的并行计算框架。从2004年Google提出该框架开始,MapReduce逐渐被越来越多的互联网公司和研究机构应用于日志分析、数据挖掘等领域。MapRedu
用于生态环境观测的无线传感器网络已经在许多不同类型的生态系统中得到广泛应用。这些系统普遍采用Sensor Web体系构建,以消除由于生态系统之间以及内部传感器接口和协议的异
网络钓鱼(Phishing)是一种在线欺诈行为,它利用钓鱼网页仿冒正常合法的网页,窃取用户敏感信息从而达到非法盈利目的。随着互联网的蓬勃发展,网络钓鱼这种以互联网为载体的犯罪行
随着技术的发展,大幅面、高分辨率的显示设备在我们的生活中越来越常见,这些显示设备以其大数据集显示能力在各个科研领域都得到了广泛的应用,但是目前仍缺乏针对这种大型显示设
现今,随着万维网(WorldWideWeb)的快速发展,非结构化数据大量涌现。多样化的数据检索任务向云环境中海量非结构化数据上的索引技术提出了迫切要求。有别于传统的结构化小规模数