Web结构挖掘研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:kang573
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅速发展,WWW已经成为全球最大的信息库。但是面对WWW里浩如烟海的信息,如何快速准确地找到所需信息或是提取有用知识便成为一个急需解决的问题。将传统的数据挖掘技术和Web数据的特点结合起来,进行Web挖掘成为解决这一问题的有效途径。Web挖掘主要包括内容挖掘、结构挖掘和使用挖掘三个方面,本文主要涉及Web结构挖掘。研究表明Web上的链接结构含有非常丰富和重要的信息,链接分析技术已经被成功的用于研究网络的链接结构来查找重要页面。本文对经典的Web结构挖掘算法HITS和PageRank做了深入的学研究与探讨,对比分析了它们各自的特点。针对Google所使用的PageRank算法,在分析了该算法的形成思路、计算方法后,提出了站内链接、入站链接和出站链接等几条网站布局的优化策略。考虑到PageRank算法将页面权威值平均分配会影响到网页排序质量这一不足,提出了基于入度大小来分配权威值的改进PageRank算法(Improved PageRank,简记为:IPR),该算法认为那些入度较高的页面具有更高的价值,在分配权威值时提高了对高入度页面的分配比例。最后通过试验仿真建立了一个网络图,验证了改进算法的有效性。
其他文献
图像特征匹配是计算机视觉、模式识别等领域的一项重要研究内容,同时它也是其它计算机视觉应用的一个重要步骤,如图像配准、目标识别、图像拼接、三维重建等。因此,对于图像
网格计算环境是一种动态的、多协议的环境,具有复杂的安全性问题,需要用新的技术进行处理。本文以网格安全基础设施(GSI)为基础,根据网格的特征,运用已有的安全技术提出了基
脑卒中疾病对人类的身体健康产生了重大的威胁,并且其发病率在最近几年有渐渐增长的趋势,若能提前对疾病的发生进行分析预测,这对于人们提前采取预防措施和相应的医疗方法有
据有关部门研究表明,USB移动存储设备导致的泄密已经成为了内网信息流失的主要途径。因此,有必要为内网中的电子文件提供针对移动存储设备的信息安全保障。本文在研究了内网
传统呼叫中心是一种基于公共交换电话网(Public Switched TelephoneNetwork,PSTN)的呼叫中心,随着计算机和通信技术的发展,呼叫中心的功能在不断完善和逐渐增强。但传统呼叫
伴随时代的进步,工业、农业的迅速发展,在经济快速增长的同时,带来的自然环境的破坏,洪涝灾害、雨雪冰冻等极端天气在近年不断出现,降水量的预测深受人们关注。目前国内外关
点是几何模型表示中基本的元素,被广泛用于三维物体模型的表示。空间变形技术在几何造型和计算机动画等领域有着广泛的应用,如何实现在点模型上进行空间变形是当前研究的热点
在现代企业运营模式中,如何提高客户的满意程度,并获得客户的信赖是现代企业在商潮中取得胜利的关键。呼叫中心就是企业用来达到这些目的的最好手段。现在已经有越来越多的企
安全问题是电子商务与电子政务的核心问题。公钥基础设施(Public Key Infrastructure)主要是在分布式的计算机环境中提供数据的机密性、完整性和身份认证和行为的不可抵赖性
后勤保障是打赢现代战争的关键,武器弹药的维护与存储则是后勤保障的重要环节。军火库是存储武器弹药的场所,它的环境直接关系到武器弹药在战时能否正常使用,因此为了加强后勤保