Web结构挖掘算法的改进研究

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户:longshentailang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息的网络化给广大用户带来方便的同时,由于其面向对象的广泛化,网络上存储的信息庞大而纷繁复杂,这样就给使用者获取有用信息带来了很大的困难。Web挖掘就是应对这种情况,是数据挖掘在Web环境下的应用。描述了Web结构挖掘的两种经典的算法:PageRank算法和HITS算法。PageRank算法在计算页面的权威值的过程中只考虑页面之间的链接关系,而忽略了页面本身的重要性。处于不同的站点下的页面的重要性不同的,就同一页面来说,放在教育部的网站下和放在北邮的网站下,人们关注的程度肯定不同。显然教育部的页面更重要些,在运算过程中也就要相应的赋予更高的权威值。同样的对于HITS算法,其在由根集向基集的扩展过程中会引入大量的相关度很小的链接面,这样不但给迭代运算带来了不必要的浪费,而且无关页面也会影响查询主题,从而引起“主题漂移”。本文主要从理论方面研究Web数据挖掘,对PageRank算法和HITS算法做了改进处理;同时对Web挖掘也做了详细的说明。该研究工作在算法的可行性和有效性上得到了验证。本文所做的主要工作如下:1.对经典的Web结构挖掘算法PageRank算法及Hits算法进行分析,并对这两种算法中存在的缺陷进行了系统的阐述。2.对PageRank算法做了改进:在应用PageRank算法计算页面权威值之前,分析各个网站的权威度,把网站的权威度作为评估页面权威值的一个影响因子。3.对HITS算法提出新的算法:在扩展后的基集上保留频繁页面集,忽略阙值小于给定值的页面,从而提高搜索的质量和效率。4.对改进的算法的可行性进行了理论检验,通过真实数据的对比,验证了改进算法的有效性。
其他文献
伴随着Internet网络的茁壮成长,网络游戏、视屏会议、视频教学等商业服务开始由IP网络来承载。这些对QoS要求较高的服务,对现在网络的可行性和可靠性提出了更高的要求。虽然,
伴随着未来集中规模采购规范、物资种类与数量的增加、供应商数量增长、以及降低采购成本支出、和供应商形成一体化战略伙伴关系的要求下,很多现代大型集团需要建设一级部署的
肥胖是指长期能量摄入超过消耗,导致体内过多的能量以脂肪的形式储存,脂肪的聚集达到损害健康的程度。肥胖能降低骨质疏松性骨折的风险,但是也提高了一些严重威胁生命的疾病如2
移动互联网时代的到来,标志着通信与互联网的融合进一步加强,未来通信的发展将以提供服务为导向,不断满足日益个性化、动态化的用户业务需求。高带宽、超大容量的光纤传输已
狂犬病是由狂犬病病毒(Rabies Virus)引起的中枢神经系统感染的人畜共患传染病,发病后几乎全部以死亡而终。本研究旨在用免疫信息学和重组表达技术制备特异性诊断重组蛋白,并建
智能光网络的出现,为下一代光传送网的发展指明了方向,其优越的传输性能和管理机制不仅满足了原有业务的需求,而且对于新兴的具有突发特性和统计复用特性的数据业务也能提供
摘要:在新课改的背景下,越来越注重信息素养的培养。在当前这个信息技术迅速发展的社会,信息技术的教学越来越被重视,新课程改革也对高中信息技术的教学提出了更高的要求。在高中信息技术的教学中老师要注重教学方式的改变,能够根据学生们的实际情况调整教学方式。在教学中,注重学生们学习信息技术的兴趣的培养,调动学生们学习的积极性,从而促进学生们积极主动的进行信息技术的学习,全面提高学生们信息技术的学习效率。  
随着英特网和多媒体等业务的发展,用户对接入网络带宽的需求呈指数增长。光纤具有容量大、传输距离远等优点,以光纤作为传输介质可以大幅提高接入网的容量和跨度。光纤到户(F
目的:利用bac-to-bac杆状病毒表达系统对RGDV-P8和RGDV-Pns10基因加以表达,得到RGDV-P8和RGDV-Pns10基因的真核表达产物,为RGDV-P8和RGDV-Pns10的功能研究奠定基础。方法:在RGDV-
乡镇供电所是最基层的供电服务组织,承担着服务“三农”的重要责任,是供电企业直接面对用电客户的窗口.供电所的服务质量,直接决定和影响着客户的获得感和满意度.rn2017年,国
期刊