论文部分内容阅读
自20世纪90年代以来,互联网和万维网得到了迅猛发展,其功能和业务也在不断扩展和增加,这使得它们成为21世纪用户获取资源、数据和信息的主要场所,这也使得Web数据挖掘的任务迫在眉睫。当前,k_means算法是最经典和使用最广泛的划分聚类算法,而PageRank算法是Web结构挖掘中使用最广泛的算法。基于此,研究了这两种算法的原理,并提出了两种算法的改进方法。传统k_means算法选择初始聚类中心的方法是随机数法,这种方法易产生聚类结果陷入局部最优解和聚类精度低的问题,而且聚类结果受孤立点的影响很大。为了解决这一问题,提出了一种基于密度标准差的k_means改进算法。首先计算数据集样本的平均值和标准差,接着计算每个数据点的密度分布函数值,然后计算样本的平均密度和密度标准差,若某一数据点的密度分布函数值小于样本的密度标准差,则划分为孤立点;搜索密度分布函数值数组中的最大值,那么最大值对应的样本点即为初始聚类中心,并将以初始聚类中心为原点,以样本平均值为半径的圆内各点的密度函数值赋值为0,如此重复,直到找到k个初始聚类中心。传统PageRank算法不考虑用户的喜好,存在主题漂移的现象,为了改进PageRank算法的两个缺点,提出了基于用户喜好和主题链接的改进PageRank算法。该算法首先计算网站的出度和入度的权威值,其次计算用户访问某一网站的概率,紧接着计算此网站的权威值,然后计算此网站内的网页的主题链接向量,接着计算主题链接向量的相似度,最后计算网页的PR值,以PR值的大小排序此网站内的网页,如此循环,直至网页全部排序完毕。两种传统算法和改进算法均由Python语言在PyCharm平台编码实现。通过实验对比传统算法和改进算法,实验结果表明,改进k_means算法消除了孤立点的影响,具有更高的准确率和更好的聚类结果。改进PageRank算法能够根据用户喜好来排序网页,大大提升了用户的体验度,减少了用户自己筛选有用网页的时间。用户不同,得到的排序结果也是不同的。由于此改进算法是基于主题链接的相似度计算PR值的,故此算法在一定程度上可以改进主题漂移的现象。从而证明了两种改进算法的可行性。