基于分块链接的网页排序并行算法设计与实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：honghongjiang

【摘要】

：

网页和纯文本的结构差异性决定了传统的信息检索排序算法不能完全适应网络发展，基于链接分析的网页排序算法便应运而生，并成为现代搜索引擎的关键技术。知名的搜索引擎公司在对

【作者】

：

何勇

【机构】

：

哈尔滨工业大学

【出处】

：

哈尔滨工业大学

【发表日期】

：

2007年期

【关键词】

：

分块链接网页排序并行算法链接分析技术排序结果

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

网页和纯文本的结构差异性决定了传统的信息检索排序算法不能完全适应网络发展，基于链接分析的网页排序算法便应运而生，并成为现代搜索引擎的关键技术。知名的搜索引擎公司在对搜索结果进行排序时，基本都融合了基于链接分析的排序结果，例如谷歌(Google)使用了著名的PageRank算法，而百度(Baidu)也有自己的链接分析技术。　　本文通过对经典的网页链接排序算法PageRank和HITS的研究学习，发现传统的PageRank算法只考虑网页之间的链接关系而忽略了网页正文和链接文本的重要性，同时传统的PageRank算法将网页中的链接看作是互不相关的，而实际上网页中的链接通常是以分块的形式存在，分块内的链接在语义和功能上具有很大的相似性。因此本文通过提取网页中的分块链接，引入了分块链接的链接文本与网页正文的相似度，根据该相似度值赋予每个链接不同的权重来实现对PageRank算法的改进。并设计并行的改进PageRank算法，来适用于机群环境。　　本文的主要研究内容如下：　　(1)通过分析原始网页，建立网页的DOM树来提取出网页中的分块链接，并使用空间向量模型来计算分块链接中的链接文本与网页正文的相似度，在此基础上实现对经典PageRank算法的改进；　　(2)设计实现了并行的改进PageRank算法，以便能使用机群来计算每个网页改进的PageRank值；　　(3)将计算出的改进PageRank值应用于Inar搜索引擎，模拟用户的输入，对经典PageRank算法和改进PageRank算法的排序结果进行分析比较，证明了改进算法的高效与有效性。　　最后，本系统已成功应用在Inar搜索引擎中。通过实验表明，本文所做研究的内容，有效的提高了Inar搜索引擎性能，达到了很好的预期效果。

其他文献

搜索引擎的话题在线聚类及标注方法研究

随着计算机技术的普及以及互联网的快速发展，搜索引擎已经成为人们日常生活中必备的信息搜索与获取工具。虽然搜索引擎发展非常迅速，但其效果远未达到令人满意的程度。用户不得

学位

搜索引擎在线聚类标注方法文本特征

基于全能体技术平台的分布式文件共享系统设计与实现

随着计算机网络的快速发展，以及计算机用户的增多，使得Internet上的信息呈爆炸式增长。传统的基于C/S结构的文件共享系统已经不能满足用户的需求，一批基于P2P结构的文件共享系统

学位

全能体技术平台分布式文件共享系统C/S结构P2P网络层次架构

基于PDA的心电监护系统的设计与实现

随着人们工作压力的日益增大，心血管疾病是现代工业社会中对人类生命威胁最大的疾病,我国城镇中现有4000多万冠心病患者。由于心脏疾病发病时具有很大的突然性,如果失去了宝贵

学位

PDA架构心电监护系统移动设备心电异常

一种基于稳定度的Ad Hoc网络路由协议的研究

AdHoc网是由一组带有无线收发装置的移动终端组成的一个多跳临时性自组织网络。它起源于军事上的需求，并且近几年来，随着便携式计算机设备的普及以及无线通信技术的快速发展，人

学位

稳定度Ad Hoc网络路由协议自组织性拓扑结构

基于值传递的故障诊断——模型、诊断和测试

基于模型的诊断是由Reiter在1987年提出的一种基于逻辑推理的故障诊断方法.待诊断系统的行为可以通过系统的输入输出变量之间的对应关系来描述.由于其一般性和在许多领域的应

学位

故障诊断诊断模型极小诊断值传递诊断分解可采纳性诊断测试故障诊断算法

基于规则权重合成的垃圾邮件过滤算法研究

电子邮件过滤系统的主要任务是帮助用户节省手动删除垃圾邮件的时间和精力，帮助服务器过滤掉垃圾邮件以节省网络资源。邮件过滤属于文本分类的二值分类，系统必须具有实时性、高

学位

电子邮件过滤系统规则权重合成垃圾邮件BP神经网络

基于FCM的改进WM算法及在模糊系统参数优化的应用

许多工业生产存在非线性、时变性、维数高的等不确定性特点，因此较难用传统的建模方法进行精确地描述。为构造一个合理的、可追踪的模型就需要引入模糊性的概念，并且理论已经证

学位

参数优化数学建模样本数据模糊规则提取山峰函数减法聚类算法

基于音频分析的视频摘要技术研究

数字视频属于国家重点发展的信息产业领域，宽带网络和数字电视的迅速发展，使得视频点播、交互电视、视频网站等应用都将面临大量涌现的数字化视频数据，对视频摘要技术的研究对基

学位

视频摘要技术音频信息能量阀值短时能量变化

金融年报语义网中本体自动扩展与语义标注方法

语义网提出以来，本体(ontology)正在成为人工智能和知识工程中的一种重要工具，在知识的获取、表示、分析和应用等方面具有重要的意义。其中，本体的构建与扩展是本体研究的核心和

学位

语义网本体自动扩展语义标注方法HTML文档转换

求解大学排课问题的启发式方法

课程编排对每个大学的管理部门来说都是每个学期不得不面对的一个挑战。大学课程编排问题是一个NP完全问题。对大多数大学教育机构来说，课程编排是最普通最难的问题之一。课程

学位

高等院校课程编排启发式算法

基于分块链接的网页排序并行算法设计与实现

与本文相关的学术论文