基于网站模型板树的网页分析技术研究

来源 :北京大学 | 被引量 : 0次 | 上传用户：xiangceng666

【摘要】

：

Web InfoMall是一个历史网页的存储和展示系统,已经存储了从2001年至今的中国互联网上近50亿网页,并且数据量以每月3000万的速度增长着。当网页数据被收集到系统中后,需要经

【作者】

：

孙广宇

【机构】

：

北京大学

【出处】

：

北京大学

【发表日期】

：

2012年期

【关键词】

：

网络数据库数据管理网页分析程序语言

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

Web InfoMall是一个历史网页的存储和展示系统,已经存储了从2001年至今的中国互联网上近50亿网页,并且数据量以每月3000万的速度增长着。当网页数据被收集到系统中后,需要经过复杂的网页分析过程来提取页面的各种属性,随着数据量的不断增大,该过程消耗的资源也会不断增加,这使得提高网页分析的效率成为了一个重要的课题。随着互联网的发展,网页模板的使用越来越普遍,为了给用户更好的体验,大多数门户网站都选择采用模板技术生成自己的网页。相关研究表明,模板内容占互联网网页内容的比例在50％以上,并且模板内容的规模以每年6％的速度快速增长着。通过对网页模板的分析我们发现,相同模板的网页往往具有相同或者相似的网页属性,例如网页类型、主题分类和页面重要度等,这意味着通过模板匹配的方法可以达到快速分析网页相关属性的目的,对于减少网页分析过程的资源消耗有非常重要的意义。　　本文提出了一种基于Simhash的网页模板聚类算法。本文选取了链接路径作为网页的模板特征,采用Simhash算法为每个网页计算一个64位特征值代表网页的模板特征,网页之间的Simhash特征值越相似,对应网页的模板就越相似。然后提出了一种模板聚类算法对网页进行模板聚类,选取对普遍的模板特征值作为聚类中心,具有相似Simhash特征值的网页被聚类到一起,每个聚类代表一个网页模板。基于网页模板聚类的结果,本文提出了一种网站模板树的构造方法。网站模板树是指一个网站使用的所有模板的树状结构,方便对站内网页模板进行管理。首先采用广度优先算法自顶向下构造网站连接图,然后通过链接规约的方式把网站连接图规约为网站的模板树。在构造模板树的过程中,本文提出了一种基于模板的网页类型判断优化算法,可以大大提高网页类型判断的准确率。同时,本文提出了一种基于网站模板树的网页分类算法,在快速对模板对应的网页集合进行主题分类的同时,达到细化模板树的目的。最后,实现了一种基予网站模板树的网页模板查询系统来提高、WebInfoMall系统中网页分析过程的系统效率。当网页从互联网被收集到系统中后,优先在模板查询系统中进行模板匹配,匹配命中的网页可以快速得到该模板对应的相关网页属性,这样可以大大减少网页分析过程对于系统资源的占用。

其他文献

程序存储局部性调优和分析方法的研究

随着多核技术、云计算技术的发展，我们常常会面临一台多核机上运行若干组不同的计算任务的情景。在这样的情景下，内存、高速缓存、总线等存储相关的竞争会对计算性能产生较大影

学位

存储局部性高速缓存失效率曲线虚拟机云计算

基于不确定数据的多维分析方法的设计与实现

随着信息时代的到来,在各式各样的现实应用中,由于度量误差、数据不完整性等原因,产生了大量的不确定数据,不确定数据扮演着十分重要的角色。同时,数据仓库与OLAP(On-Line An

学位

不确定数据多维存储数据仓库立方体计算倒排索引

基于有色网的构件系统及其组装的形式化建模

近年来，随着计算机硬件和软件的快速发展，使得软件工程面临着严峻的挑战：软件系统变得越来越复杂，大大增加了开发和维护的难度。如何更快地开发出满足需求的应用系统已经成为软件

学位

构件系统形式化建模有色Petri网软件复用性

基于可信计算平台的可信性动态度量研究

为了解决PC机自身结构缺陷，改变传统安全技术(如防火墙、杀毒软件和入侵检测系统等)在应对如今与日俱增的信息安全问题情形下的被动局面，从芯片、硬件结构和操作系统等方面综合

学位

信息安全可信动态度量计算平台系统架构交互式马尔可夫链模型

词语领域性分析方法研究及应用

随着计算机网络的快速发展,各个领域的信息呈现指数级增长的趋势。领域性分析是知识构建、语义理解、文本分类、数据发掘等研究的基础,具有非常重要的意义。本文从词的层次上

学位

词语领域性分析领域部件词链接分析话题模型文本分类

MapReduce推测执行策略及倾斜数据处理优化

MapReduce是应用于大规模数据处理的并行计算框架。从2004年Google提出该框架开始,MapReduce逐渐被越来越多的互联网公司和研究机构应用于日志分析、数据挖掘等领域。MapRedu

学位

数据处理并行计算管理程序程序设计

溯源技术在生态环境观测传感网工作流中的研究与实现

用于生态环境观测的无线传感器网络已经在许多不同类型的生态系统中得到广泛应用。这些系统普遍采用Sensor Web体系构建，以消除由于生态系统之间以及内部传感器接口和协议的异

学位

生态环境观测无线传感器网络科学工作流溯源技术

基于集成学习的钓鱼网页检测系统

网络钓鱼(Phishing)是一种在线欺诈行为，它利用钓鱼网页仿冒正常合法的网页，窃取用户敏感信息从而达到非法盈利目的。随着互联网的蓬勃发展，网络钓鱼这种以互联网为载体的犯罪行

学位

钓鱼网页特征提取集成学习基础分类器

基于智能手机的大屏幕指点交互技术研究

随着技术的发展，大幅面、高分辨率的显示设备在我们的生活中越来越常见，这些显示设备以其大数据集显示能力在各个科研领域都得到了广泛的应用，但是目前仍缺乏针对这种大型显示设

学位

智能手机指点交互多通道融合控制方式

分布式地理模型运行环境执行引擎实现

现今，随着万维网(WorldWideWeb)的快速发展，非结构化数据大量涌现。多样化的数据检索任务向云环境中海量非结构化数据上的索引技术提出了迫切要求。有别于传统的结构化小规模数

学位

非结构化数据云计算环境分片位图索引缺失符号

基于网站模型板树的网页分析技术研究

与本文相关的学术论文