基于密度的聚类算法及在新闻话题发现中的应用研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:shiqingfang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着互联网新兴媒体的出现,信息传播手段日益进步,我们逐步摆脱了信息获取渠道和内容的局限,但是这同时又带来了信息过载、传播失控等伴随问题。人们每天都接触着海量的新闻话题,其中相当一部分话题是人们不感兴趣的,如何进行精准有效的话题发现是当前摆在我们面前亟待解决的工作。在新闻报道中最核心的一项信息载体就是文本,因此,文本聚类分析成为信息处理中一个非常基础而又关键的问题。在众多机器学习方法中,聚类分析被认为是快速准确地发现、定位、组织和分析具有特定用途的用户感兴趣信息的高效途径和关键技术。通过聚类分析对文本信息数据进行简化处理表示,在新闻话题发现中有重要的应用意义。在研究话题发现和聚类分析的基础上,将改进的粒子群算法与密度聚类算法结合,本文提出了改进的基于粒子群的密度峰值发现聚类算法,并且把它应用于新闻话题发现中。主要的研究成果包括以下几个方面:(1)针对密度峰值发现聚类算法需人工选择聚类中心的缺点,提出改进的基于粒子群的密度峰值发现聚类算法通过对快速搜索密度峰值发现算法进行分析,针对其不能自动确定聚类中心的缺点,引入粒子群优化算法,将PSO算法和密度峰值发现聚类算法相结合,提出PSO-FSDP聚类算法。该算法首先设置新的适应度准则函数,通过粒子群优化算法输出聚类中心,再进行类簇划分。实验证明,该算法能有效解决传统密度峰值发现聚类算法中无法自动确定聚类中心的局限性,避免了人工选取过程的主观性,具有较强的稳定性和较快的收敛速度,并且取得了良好的聚类效果。(2)针对文本数据高维的特点,将PSO-FSDP聚类算法应用于文本聚类中,实现新闻话题的发现本文通过分析文本向量特征,在快速搜索发现密度峰值聚类方法的基础上,将改进的基于粒子群的密度峰值发现算法应用于文本聚类中。该方法用文本之间的相似度代替文本点距离,解决了原算法不适用于高维的文本数据的问题。提出了以相似度距离代替文本距离的思想,用word2vec工具进行文本建模,通过余弦公式计算文本间相似度,获得文本之间的距离表示,求得每个文本点的密度和其到高密度点的距离,运用PSO-FSDP算法,选取聚类中心实现文本聚类发现新闻话题。与其他文本聚类算法相比较,本文算法具有更高的准确率、召回率和F值,运行过程更加稳定,能够获得更好的文本聚类结果。(3)设计并实现了基于PSO-FSDP算法的新闻话题发现原型系统通过对文本聚类流程进行分析,针对每个流程设计了相应的功能模块,设计并实现了基于PSO-FSDP算法的新闻话题发现原型系统。该原型系统可以有效地对网络中新闻报道进行抓取、分析与处理,并最终提供给用户直观的新发现的话题。
其他文献
学位
Web服务是一种基于网络环境的新型应用程序,是在Internet上进行分布式计算的基本构造模块,其自包含、自描述、松耦合及模块化的特点,使得Web服务在电子商务、应用集成开发等
无线传感器网络伴随微机电系统、片上系统、无线通信和低功耗嵌入式技术的飞速发展应运而生。出于它在军事、环境、城市交通、空间科学等领域的广泛应用前景,无线传感器网络
近年来,随着虚拟现实理论的成熟,以及网络与视频游戏、计算机仿真等需求的高速发展,人们对虚拟场景建模和漫游、场景中的水面等动态模型的渲染也提出了更高的要求。本文主要
目前,分子动力学模拟是应用前景最广泛的计算大型复杂生物体系的方法之一。伴随着分子力学模拟技术的的飞速发展,分子动力学模拟技术应用在许多生物大分子体系中,如水分子化
运动目标检测和跟踪作为计算机视觉领域的研究热点之一,广泛应用于智能视频监控、人机交互、视频会议等领域。运动目标检测与跟踪的主要目的是利用计算机模拟人类视觉感知功
随着Internet在全世界的普及与发展,越来越多的人们通过互联网足不出户地分享信息资源。计算机网络已经和人们的生活紧密的联系在一起,成为大家生活中不可或缺的一部分。但是
软件系统越来越复杂,实现软件需求到设计模型、代码、测试用例等软件产品的跟踪也变得越来越重要。需求跟踪是一种有效的控制手段,它能保持软件开发工作对需求的一致性。需求
随着计算机技术和网络技术突飞猛进的发展,计算机网络技术的应用与人们的社会生活联系越来越紧密,对人们的工作和生活带来了巨大的便利,而网络安全也成为人们目前必须解决的
随着移动通信网络的迅速普及和智能手机的广泛使用,基于位置服务(Location based Services,LBS)为我们的生活提供了巨大的便利。基于位置服务综合了定位、移动通讯、地理信息