面向微博话题的粒子群优化聚类算法研究

来源 :河南理工大学 | 被引量 : 0次 | 上传用户:stanley45518501
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web技术的快速发展使微博成为人们进行沟通与交流的一种新型社交网络平台。在该平台上,用户可以自由地发表对某些话题的观点与看法。微博内容简单、发布容易的特点使其每天产生的信息总量巨大,从这些庞大的微博信息中提取出人们感兴趣的热点话题成为时下聚类分析的研究重点。本文的主要研究内容如下:(1)首先,在对聚类算法、粒子群优化算法(Particle Swarm Optimization,PSO)和微博话题的国内外研究现状进行阐述的基础上,深入研究和分析了聚类算法和PSO算法的基本原理及改进思想,同时根据项目和数据分析的需求成功搭建了用于处理大数据的Spark集群。(2)其次,提出了基于时间因子的混沌粒子群优化K-means算法(the K-means algorithm of Chaotic Particle swarm optimization with Time Factor),即KCPTF算法。在该算法中,为保证粒子的全局寻优能力,引入了反映时间效应的非线性递减时间因子,使粒子在算法初期可快定位在近最优解附近;为防止粒子群陷入局部最优解,引入了混沌寻优技术,利用混沌技术的遍历性增强粒子的全局搜索能力,并确保了粒子群的多样性,同时启用边界缓冲墙技术来动态调整越界粒子;将改进后的PSO算法与K-means算法进行合并。在Matlab上对UCI数据库中的数据集进行仿真测试,对比实验表明,KCPTF算法的聚类结果有更高的精确度。(3)最后,将本文提出的KCPTF算法应用在对新浪微博话题的聚类上,并在Spark平台上开发出了一个基于新浪微博的热点话题原型系统,该系统可聚类出一定时段内的热点话题,达到了项目在聚类方面的预期要求。
其他文献
当前,随着分布式系统越来越广泛的应用,其高可用性的需求也逐渐增强。作为实现高可用性的关键技术,分布式系统中失效检测的实现逐渐成为学术界的一个研究热点。失效检测技术
中等职业学校计算机实训教学的目标是让职业学校计算机专业学生获得系统的专业技能训练,巩固和加强所学专业理论知识,培养学生动手操作能力和综合运用知识能力。实训教学是计
随着信息技术时代的发展和科学技术的进步,用于学术研究的文献量和各种网络信息量越来越多,如何在海量信息中提炼出学科领域发展方向和研究热点显得尤为重要,特别是学者们对
当今社会是信息化的社会,信息量急剧.的膨胀,如何从大量数据中用非平凡的方法发现知识,已经成为信息产业界广泛关注的问题。数据挖掘可以从大量的信息中发现有用的信息和知识
随着现在信息技术的日新月异,检测技术在工业、农业、教育、医疗、企业、军事、有着广泛和重要的应用。但是由于信息技术不可避免的存在某种缺陷,目前很多检测问题存在无法测
随着信息技术的发展,流数据挖掘是数据挖掘中具有挑战性的问题之一。实时应用中通常会形成大量的数据流,比如传感网络中的传感数据,web中的web记录等等。传统“先存储后处理
随着社会的发展,世界各国掀起了建设高铁的浪潮。近年来,中国在高铁建设方面取得了举世瞩目的成就,为人类文明进步和社会经济发展做出了不可磨灭的贡献。因此,对列车运行的舒
随着机器学习和计算机视觉研究的不断发展,通过算法自动对现实世界里的目标物进行检测成为了可能。而在目标物检测领域内,人脸检测无疑是现实需求最大、相关研究最多的领域之
随着无线充电技术的发展,我们能为无线传感器网络中的传感器节点进行充电并让网络持续运行。同时数据收集一直是无线传感器网络研究的热点。传统的数据收集方式是传感器节点
在信息技术朝着高性能、多样化、普适化和智能化等主要方向持续发展的今天,因特网上的多媒体业务变得多种多样。组播通信能够很好地解决多个用户的接收问题,其实质就是针对个