Web数据挖掘中PageRank和k_means算法的改进研究

来源 :兰州交通大学 | 被引量 : 0次 | 上传用户:yancliu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自20世纪90年代以来,互联网和万维网得到了迅猛发展,其功能和业务也在不断扩展和增加,这使得它们成为21世纪用户获取资源、数据和信息的主要场所,这也使得Web数据挖掘的任务迫在眉睫。当前,k_means算法是最经典和使用最广泛的划分聚类算法,而PageRank算法是Web结构挖掘中使用最广泛的算法。基于此,研究了这两种算法的原理,并提出了两种算法的改进方法。
  传统k_means算法选择初始聚类中心的方法是随机数法,这种方法易产生聚类结果陷入局部最优解和聚类精度低的问题,而且聚类结果受孤立点的影响很大。为了解决这一问题,提出了一种基于密度标准差的k_means改进算法。首先计算数据集样本的平均值和标准差,接着计算每个数据点的密度分布函数值,然后计算样本的平均密度和密度标准差,若某一数据点的密度分布函数值小于样本的密度标准差,则划分为孤立点;搜索密度分布函数值数组中的最大值,那么最大值对应的样本点即为初始聚类中心,并将以初始聚类中心为原点,以样本平均值为半径的圆内各点的密度函数值赋值为0,如此重复,直到找到k个初始聚类中心。
  传统PageRank算法不考虑用户的喜好,存在主题漂移的现象,为了改进PageRank算法的两个缺点,提出了基于用户喜好和主题链接的改进PageRank算法。该算法首先计算网站的出度和入度的权威值,其次计算用户访问某一网站的概率,紧接着计算此网站的权威值,然后计算此网站内的网页的主题链接向量,接着计算主题链接向量的相似度,最后计算网页的PR值,以PR值的大小排序此网站内的网页,如此循环,直至网页全部排序完毕。
  两种传统算法和改进算法均由Python语言在PyCharm平台编码实现。通过实验对比传统算法和改进算法,实验结果表明,改进k_means算法消除了孤立点的影响,具有更高的准确率和更好的聚类结果。改进PageRank算法能够根据用户喜好来排序网页,大大提升了用户的体验度,减少了用户自己筛选有用网页的时间。用户不同,得到的排序结果也是不同的。由于此改进算法是基于主题链接的相似度计算PR值的,故此算法在一定程度上可以改进主题漂移的现象。从而证明了两种改进算法的可行性。
其他文献
bHLH/HLH转录因子是一类调控植物生长发育的关键转录因子。近年来,虽然有很多关于bHLH/HLH转录因子的研究报道,但有关该类转录因子调控植物细胞伸长的分子机制仍然没有解析清楚,有待进一步深入研究。我们在拟南芥中分离鉴定了两个bHLH家族的转录因子AtLP1和AtLP2,研究表明这两基因参与拟南芥细胞伸长和极性生长。系统进化树分析显示AtLP1和AtLP2位于同一进化分支,属于bHLH/HLH
学位
[db:内容简介]
睡眠与觉醒是人体中枢神经系统中的一种主动节律性活动,被形象化地称为人体的生物钟。睡眠是个体最基本的生存需求,而睡眠障碍却严重地影响了人们的生活质量。随着现代社会生活节奏的加快,人们对睡眠的关注程度越来越高,睡眠质量问题已经成为世界性的健康问题。目前,大学生普遍面临着学业繁重、就业竞争和人际关系等方面的心理压力,许多人不能很好地安排作息时间,以至于造成严重的睡眠不良问题。有调查报告指出,大学生中存在
目的观察超早期应用氨甲环酸对特急性创伤性硬膜外血肿进展的影响。方法选取我科2011年9月至2014年9月收治的80例符合入组标准的特急性创伤性硬膜外血肿,分为治疗组42例,超早期(伤后3小时内)行抗纤溶治疗;对照组38例,受伤3小时后行抗纤溶治疗。分别于受伤3小时后、24小时内动态复查头颅CT观察硬膜外血肿变化。结果治疗组血肿扩大发生率(23.87%)显著低于对照组(44.73%)(P20.05)
近年来,利用非平衡等离子体技术处理燃烧烟气中的主要污染物No及SO已经发展成为一种新兴的技术。等离子体放电的理论和计算机模拟处于初始阶段,使得放电参量的选取较为盲目,放电难以获得和控制。因此,对放电过程中的物理过程和化学反应机理的研究具有重要意义。本文针对介质阻挡放电等离子体NO/SO/N/O系统进行了动力学研究。根据相关理论知识的掌握,将整个反应过程的模型分为两部分:高能电子撞击气体的离解,电离
电力是国民经济发展的基础。改革开放以来,全国电力工业得到了迅猛的发展,促进了国民经济的发展,为国家的可持续发展打下了良好的基础。同时,电力推向了市场,国民经济的发展也对电力建设提出了更高的要求。但是,随着经济的发展,电力供给水平受到了很大影响,原有的发电设备落后,电力结构和电源分布不合理,能源利用率低,环境污染严重,并且供电管理对用户用电缺乏激励机制,导致在需求侧用电混乱。电力市场的需求侧管(DS
学位
大规模MIMO(Mutiple-Input Mutiple-Output)技术在基站(Base Station, BS)配置大量天线并利用同一时频资源同时服务多个用户(User Equipments, UEs),可大大提高频谱效率、数据速率、以及能量效率,成为未来5G无线通信系统的关键技术之一。未来5G移动通信系统将大力发展物联网(Internet of Things,IoT)应用、机器到机器(M
学位
研究电磁波在等离子体鞘层中的传播特性,对评估等离子鞘套覆盖下飞行器的通信信道的特性,探索缓解黒障问题的方法具有重要意义。自从Yee在1966年提出时域有限差分(Finite-Difference Time-Domain FDTD)方法以来,由于其在稳定性,准确性,容易建模等方面的优势,该方法已经被广泛应用于各种电磁问题的仿真计算。近年来,随着大批优秀的关于等离子体的FDTD计算模型被提出,FDTD
舞阳矿集区位于华北板块与秦岭造山带结合部位,处于鲁山背孜—舞阳出山复背斜构造的东段。研究区具典型的台地型双层地壳结构,基底地层为新太古界太华群,零星出露于研究区西部和南部的小丘陵区,面积16.4km~2,自下而上可分为:赵案庄组、铁山庙组、杨树湾组,为一套角闪岩相变质岩系,是赵案庄式-铁山庙式沉积变质型铁矿的赋矿层位.舞阳铁矿区大理岩分布于铁山庙组地层,与条带状磁铁矿整合产出,长期以来
目的:研究清肺汤方对ARDS患者的临床治疗效果。方法:选择南通大学第二附属医院ICU住院行机械通气的急性呼吸窘迫综合征(ARDS)患者60例,将60例ARDS患者随机分为清肺汤组和常规组。清肺汤组方:炙麻黄,黄芩,金荞麦,鱼腥草,葶苈子,熟大黄。在入院第1天和第7天进行白细胞、C-反应蛋白、降钙素、血气分析检测、机械通气时间测定、APACHEⅡ评分、肺损伤评分记录、血管外肺水指数监测和不良反应发生