Web数据挖掘中PageRank和K_means算法的改进研究

来源 :兰州交通大学 | 被引量 : 1次 | 上传用户:zhoumingjiang123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自20世纪90年代以来,互联网和万维网得到了迅猛发展,其功能和业务也在不断扩展和增加,这使得它们成为21世纪用户获取资源、数据和信息的主要场所,这也使得Web数据挖掘的任务迫在眉睫。当前,k_means算法是最经典和使用最广泛的划分聚类算法,而PageRank算法是Web结构挖掘中使用最广泛的算法。基于此,研究了这两种算法的原理,并提出了两种算法的改进方法。传统k_means算法选择初始聚类中心的方法是随机数法,这种方法易产生聚类结果陷入局部最优解和聚类精度低的问题,而且聚类结果受孤立点的影响很大。为了解决这一问题,提出了一种基于密度标准差的k_means改进算法。首先计算数据集样本的平均值和标准差,接着计算每个数据点的密度分布函数值,然后计算样本的平均密度和密度标准差,若某一数据点的密度分布函数值小于样本的密度标准差,则划分为孤立点;搜索密度分布函数值数组中的最大值,那么最大值对应的样本点即为初始聚类中心,并将以初始聚类中心为原点,以样本平均值为半径的圆内各点的密度函数值赋值为0,如此重复,直到找到k个初始聚类中心。传统PageRank算法不考虑用户的喜好,存在主题漂移的现象,为了改进PageRank算法的两个缺点,提出了基于用户喜好和主题链接的改进PageRank算法。该算法首先计算网站的出度和入度的权威值,其次计算用户访问某一网站的概率,紧接着计算此网站的权威值,然后计算此网站内的网页的主题链接向量,接着计算主题链接向量的相似度,最后计算网页的PR值,以PR值的大小排序此网站内的网页,如此循环,直至网页全部排序完毕。两种传统算法和改进算法均由Python语言在PyCharm平台编码实现。通过实验对比传统算法和改进算法,实验结果表明,改进k_means算法消除了孤立点的影响,具有更高的准确率和更好的聚类结果。改进PageRank算法能够根据用户喜好来排序网页,大大提升了用户的体验度,减少了用户自己筛选有用网页的时间。用户不同,得到的排序结果也是不同的。由于此改进算法是基于主题链接的相似度计算PR值的,故此算法在一定程度上可以改进主题漂移的现象。从而证明了两种改进算法的可行性。
其他文献
商丘是一个历史文化名城,也是一个交通便利的区域性商贸城市。随着旅游业的发展,旅游经济在国民经济中的地位越来越重要,而旅游业的市场定位是发展旅游业的首要问题。商丘市在20
学与用的关系体现为:学是用的积淀,正如俗语所言“厚积薄发”;用是学的动力,也有俗语为证:“书到用时方恨少”。可见,学与用是互为因果关系的关联体:二者互为条件、缺一不可,只有学和
文章从考古学、文化人类学、现代图像学、符号学以及文献学等途径对民间艺术形象加以印证、分析,超越其存在形态,进入其内蕴界域,探寻其或流于表层或潜入深层的内涵与意义。
加强农民培训是加快现代农业发展、延长农业产业链条,打破农业增收瓶颈的重要手段。但由于新疆幅员辽阔,教育资源匮乏且分布不均、就近就地培训难度较大等因素制约,农民培训
配备核算精确、功能完备、使用安全、操作方便的会计软件,是企事业单位开展会计电算化工作不可缺少的必要条件之一.一般来说,配备会计软件的方式主要有:选择通用会计软件、定
随着近几年来我国城市化发展脚步加快,人们对电源的需求量也在逐渐增大。电网的建设需要不断持续增加来满足人们对电源的需求,因此,保证变电站的安全运行是至关重要的。文章
在图像测量中,图像边缘的精确定位与检测是影响测量精度的关键。为了实现快速、高精度的图像边缘定位与检测,提出了一种改进的Zernike方法,采用四个方向模版Sobel算子对图像初处
<正>《工程建设》(CN43-1465/TU,ISSN 1673-8993,邮发代号42-114)是由中华人民共和国新闻出版总署批准的国家级综合性技术期刊,由中冶长天国际工程有限责任公司主管、主办。
办好农村学校,关键在老师。$$在调研中我们发现,如果一个老师带的是成绩较差的班级,采用“成绩绝对值”的激励方式无法起到强大的激励作用,因为这个老师认为无论他们做什么,他带的
会议
早期美国研究型大学聘任教师的主要方式是“近亲繁殖”,这在当时维护了本校与本专业已经形成的科学研究特色与学术传统,但阻碍了大学教师流动,导致大学教师学缘结构单一,学术思想