一种改进的Web社区挖掘算法

来源 :郑州大学 | 被引量 : 0次 | 上传用户:ely_5
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的快速发展,Web资源飞速增长,并朝着多元化、复杂化的方向发展。如何从中提取出潜在的、有价值的信息,进而充分、有效地利用Web信息资源,是当今信息领域重要又极具挑战性的研究课题。Web社区是Web中非常重要的信息,它可以对互联网进行各种意义上的划分。因此,通过合理的策略快速发现海量Web页面中的Web社区,对信息检索及搜索引擎都具有非常重要的意义。Web页面之间的链接关系为Web社区发现提供了极其丰富的信息线索,可以从链接结构中获得Web拓扑结构模型。本文研究了Web社区发现的三种典型算法,并对这三种算法进行了具体的比较和分析,指出了算法中存在的缺陷和改进的方向。本文对传统的基于流量的社区发现算法中边容量与社区规模之间的关系进行了深入的研究,传统算法给每条边的边容量分配一个常量值,把每条边看作同等重要,而实际上每条边所包含的信息价值并不相同,因此常常把包含噪音页面的图结构提取出来,并且在某些情况下不能提取出大小合适的社区。针对这一问题,本文提出了一种改进的Web社区挖掘算法,改进算法考虑不同边的重要性差异,将加权PageRank算法中页面的重要度转化为衡量页面之间边重要性的传递概率值,并使用该值对边容量进行赋值,解决了传统算法中存在的问题。实验结果对比和分析表明,与原始算法相比,改进的算法所获得的社区中与主题相关的平均页面数目有明显提高,并降低了提取出噪音页面的可能性,有效的提高了Web社区的质量。
其他文献
随着科学技术的发展以及机器人应用领域的扩大,人们对机器人技术提出了更高的要求,希望机器人具有更高的智能和更强的环境适应能力,机器人视觉伺服研究正是为了满足这一要求而展
随着计算机和网络技术发展,企业内部的管理模式也发生了重要改变。社会逐步由个人工作时代迈入了协同工作时代。而群件正是适应这种工作模式变革而产生和发展的。群件很大程度
随着互联网技术的飞速发展,网络正在成为人们进行信息交流和信息处理的有效平台,网上信息迅速增长,信息的种类也越来越多,人们面对太多的信息无法选择和消化,此种现象称为信息过载
随着互联网服务的发展,作为网络交互双方建立信任基础的用户身份信息正在越来越频繁的使用。于此同时,对包含在身份信息内涉及到隐私和机密的部分进行有效保护成为网络用户关心
为了解决在自然条件下地下管网容易受腐蚀的问题,采用基于腐蚀电化学原理的防腐层缺陷检测技术和控制技术并应用于阴极保护装置中,通过对被保护金属管道施加阴极电流,使其阴极电
随着网络技术和计算机图形学的不断发展,3D游戏已经越来越受到广大青少年的喜爱,各式样的游戏层出不穷。然而,目前我国的网络游戏市场却基本上为国外产品所占领,而且国内大部分游
利用计算机来调度任务,已经广泛运用于信息社会中的各个领域,无论是银行机构、医疗保健、科研教育,还是企事业单位、军事管理,计算机都已经成为不可或缺的角色。信息社会的高科技
随着互联网的普及和电子商务的发展,电子商务系统结构变得越来越复杂,用户经常会迷失在大量的商品信息空间中。电子商务推荐系统能够直接与用户交互,向访问网站的顾客提供商品信
传统的信号处理难以满足智能系统的需求,多模态信息融合技术的出现推动了图像处理的发展,避免了单一模态获得信息的片面性,对多模态不同侧面的互补或冗余信息进行了综合。融合后
无线传感器网络(Wireless Sensor Networks,简称WSNs)集微机电技术、传感器技术、通信技术于一体,可广泛应用于教育、军事、医疗、交通、环境监控等诸多领域,拥有巨大的应用