基于酉变换的权威页面挖掘算法研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:y5603179
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
因特网目前是一个巨大、分布广泛、全球性的信息服务中心。它涉及新闻、广告、消费信息、金融管理、教育、政府、电子商务和许多其它信息服务。Web包含了丰富和动态的超链接信息,以及Web页面的访问和使用信息,这为数据挖掘提供了丰富的资源。Web挖掘就是从Web文档和Web活动中抽取感兴趣的潜在的有用模式和隐藏的信息。首先,本文对搜索引擎和Web页面挖掘进行了系统性的综述,内容包括搜索引擎的工作原理、搜索引擎分类和Web挖掘分类等方面,并重点分析和总结了经典权威页面挖掘算法的优缺点。然后,对酉变换理论及乘幂法基础知识进行了介绍,详细介绍了奇异值分解变换(简称SVD)和截断奇异值分解变换(简称TSVD),这些内容是本文研究内容的数学理论基础。本文研究的核心内容是Web挖掘技术,将Web内容挖掘与Web结构挖掘两种思想相融合,给出基于截断奇异值分解的权威页面挖掘算法。基于TSVD的权威页面挖掘算法的处理过程主要分为两个部分,在Web结构挖掘基础上结合页面权重的内容挖掘变换算法,得到一个权重链接矩阵,然后对该矩阵进行TSVD变换,得到最终权威页面的排序。已有的文献所采用的权威页面挖掘算法基本上都是只采用一种挖掘机制,其中基于Web内容挖掘的算法较多,研究也比较成熟,基于Web结构挖掘的算法相对较少,两种机制各有优缺点。在此基础上,本文提出的基于TSVD权威页面挖掘算法,实质上是尝试将两种Web挖掘方式结合起来,以一种互补的方式,实现权威页面的挖掘,目的是有效提高查准率和查全率。使用截断奇异值分解变换的目的是能降低计算量,过滤掉冗余的数学计算,提高搜索响应时间。最后,借助matlab仿真工具,对三种权重计算方案进行比较分析。详细介绍TSVD算法对典型的静态页面链接拓扑结构的权威页面挖掘过程,将经典PageRank算法的排序结果与TSVD算法的排序结果对比。仿真实验表明,本文提出的基于酉变换的权威页面挖掘算法相对于经典PageRank算法具有更好的查询性能和更高的查询准确度。
其他文献
随着计算机和信息技术的发展,现代物流业正迈入信息化、自动化的发展时代。在物流配送活动中,物流配送路径的优化作为物流配送系统优化中关键的一环,是物流领域亟待解决的热
本文研究了正交多幕光线散射补偿算法。投影机将图像投射到不同的屏幕上,屏幕上的光线会在光的散射作用下投射到与之相邻的屏幕上,使部分画面出现色彩增强和颜色不连续问题。
特征提取是人脸识别中的最基本的研究工作之一,其本质是将高维原始数据投影到更有利于分析的低维空间中。特征提取的经典算法有主分量分析方法,局部保持投影和边界费舍儿方法
近年来,随着Internet的迅猛发展,WWW技术已经成为了广泛应用,遍布世界各地的信息服务中心,数据挖掘技术也越来越多的应用到万维网中,于是产生了Web数据挖掘技术,Web使用模式挖掘是W
随着计算机被各行各业的普遍应用,数据库的应用越来越广泛。并行传输中长事务的调度问题日益凸显,其中长事务的处理和调度是一个关键的问题,对调度方法的研究势在必行。提高
随着传感器网络(Wireless Sensor Network,WSN )在军用和民用领域的快速发展,逐渐暴露了一些亟待解决的安全问题。其中,广播认证是WSN中极具挑战性的安全问题之一。在多数WSN
近年来,宽带数据和多媒体业务需求急剧增长,三网融合已成为信息业发展的重大趋势,呈现出以高清视频为核心的、交互的、多样化、个性化、融合化的通信业务,例如IPTV、视频会议
作为一种新颖的信息检索任务,近几年来,意见检索逐渐进入了人们的视线并渐趋引起人们的重视。而在现有的意见检索研究中,主流的研究方法是分别计算目标文档的主题相关程度值
计算机图像处理作为计算机技术在工业生产,人民生活中一个重要的技术和处理手段广泛应用到社会的各个层面和岗位上,它所具备的缜密性,科学性,严谨性带给一些行业质的变化,它的应用正在慢慢深入人心。信息化的处理方式也正逐渐成为整个经济建设,工业发展的一个前进方向和指标。将计算机图像处理技术应用到工业的X射线无损检测中来,是近几年经常讨论的一个话题。本文着重以焊缝这个缺陷为例,详细介绍了整套计算机图像处理系统
近年来,随着经济的迅猛发展,计算机技术和信号处理技术在研究和应用上有了质的飞跃,室内智能监控越来越受到人们的关注。智能监控系统摆脱了传统视频监控单一性功能的缺点,能