基于链接相似性分析的WEB结构挖掘方法研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:zhuxu19860802
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
WEB服务和应用近年来得到了飞速发展,其信息量呈几何级数增长,每天都有数以百万计的网页加入到WEB中。它已经成为了一个涉及教育、政府、电子商务、新闻、广告、消费信息、金融管理和许多其它信息服务的、巨大的、分布广泛、全球性的信息服务中心。WEB网页它们之间相互链接,盘根错节,组织成了一个类似于人类社会的网络,结合链接相似性分析方法,将对WEB资源挖掘进行研究,帮助人们高效的获取所需信息,寻找所需领域的权威信息。本文针对WEB结构挖掘中的四个问题进行研究:WEB页面链接预测算法、垃圾页面(SPAM)识别算法、WEB结构挖掘算法以及WEB页面聚类算法。首先,提出了基于相似性的多路径游走链接预测算法。1)提出新的衰减因子,通过使用新的衰减因子定义出新的相似度公式;2)改进Rubin算法,与新的相似度公式相结合进行相似度计算,得出节点的相似度;3)对节点相似度排序,从而进行预测可能性判断,得出预测结果。4)最后通过实验对算法进行了验证。其次,提出了页面互相链接相似度的概念,然后给出了一个Spam页面链接结构的假设,并且提出了一种基于页面互链接相似度聚类的Spam页面识别算法,该算法考虑了网页之间会出现的彼此互相连接的关系,因此更加合理;并通过实验分析,验证了所提假设,并实验验证了算法的有效性。再次,针对PageRank算法其存在的“主题漂移”和偏重旧网页现象,提出了一种基于相似度和时间反馈因子的改进PageRank算法。第一步,利用向量空间模型VSM来计算链接文本和其指向网页之间的相似度;第二步,根据网页产生时间,设计一个时间反馈因子,削弱旧网页的网页等级值,提高新网页的网页等级值;第三步,将相似度值和时间反馈因子融入到PageRank算法计算网页等级值中,根据算法流程计算改进后网页的PageRank值。最后通过实验对算法的性能进行了分析。第四,研究国内外已有的基于局部信息的启发式聚类方法研究现状,然后进行总结分析;并详细研究基于局部信息的标签传播方法,分析该算法在迭代过程中,采用随机策略为某个节点选择所属的簇结构时所存在的问题;随后提出了一种针对随机策略选择簇结构问题的改进聚类方法——基于节点属性相似度的标签传播算法;最后,为了帮助高效的发现互联网的分组信息资源,通过实验对该算法的有效性和性能进行了验证,并将其在实际的网页聚类中进行了应用。本文最后得出结论,并对未来工作进行了展望。
其他文献
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
为了更好地保障铁路车站行车安全,文章基于铁路车站行车安全管理现状,分析了铁路车站行车安全管理中现存的主要问题,并针对这些问题,提出了一系列提升铁路车站行车安全管理水
根据对比试验结果分析了开式叶片泵叶轮与泵体之间的间隙对泵性能的影响,确定了叶轮与泵体间合理的间隙范围。
1 药品的进货来源情况  在检查中,发现很大部份卫生所多渠道进货,尤其是向私营无证药贩购药,造成假劣药品泛滥;实行乡村一体化管理之后,由于一个卫生所往往是由两个或两个
期刊
以两条包含一个制造商和一个零售商的竞争供应链为对象,分别建立Stackelberg博弈、Nash博弈以及Stackelberg-Nash博弈三种决策模型,研究供应链间竞争强度以及制造商零售商议
普适计算是继大型主机计算、桌面计算后的第三代计算,它将物理世界与计算世界融合为一体,使得人们与计算的联系空前紧密。随着各类普适计算项目的出现,人们主要关注的是新技
目的通过研究石膏成分保留及解热作用,探讨柴葛解肌颗粒醇沉工艺合理性。方法采用络合滴定法测定柴葛解肌颗粒醇沉前后浸膏中含水硫酸钙含量,采用2,4-二硝基苯酚致大鼠发热模
小切口甲状腺腺叶切除术中超声刀无缝扎技术与传统缝扎技术的对比摘要:目的:探讨超声刀无缝扎技术在小切口甲状腺腺叶切除术中的临床应用价值。方法:78名患者按照所采用的手术技
主动队列管理(AQM)算法的稳定性在拥塞控制中发挥着非常重要的作用,也就是说,通过链路的信息流的速率应该趋向于一种平衡,最好接近于链路的容量,而不是在剩余带宽和完全超载
对所研制的几种压缩非石棉(CFS)密封板的机械性能进行了试验研究,比较了压缩非石棉板与传统石棉橡胶板(CAF)和进口CFS的差异,分析了代石棉纤维含量对石棉板性能的影响,阐述了