论文部分内容阅读
伴随着互联网新兴媒体的出现,信息传播手段日益进步,我们逐步摆脱了信息获取渠道和内容的局限,但是这同时又带来了信息过载、传播失控等伴随问题。人们每天都接触着海量的新闻话题,其中相当一部分话题是人们不感兴趣的,如何进行精准有效的话题发现是当前摆在我们面前亟待解决的工作。在新闻报道中最核心的一项信息载体就是文本,因此,文本聚类分析成为信息处理中一个非常基础而又关键的问题。在众多机器学习方法中,聚类分析被认为是快速准确地发现、定位、组织和分析具有特定用途的用户感兴趣信息的高效途径和关键技术。通过聚类分析对文本信息数据进行简化处理表示,在新闻话题发现中有重要的应用意义。在研究话题发现和聚类分析的基础上,将改进的粒子群算法与密度聚类算法结合,本文提出了改进的基于粒子群的密度峰值发现聚类算法,并且把它应用于新闻话题发现中。主要的研究成果包括以下几个方面:(1)针对密度峰值发现聚类算法需人工选择聚类中心的缺点,提出改进的基于粒子群的密度峰值发现聚类算法通过对快速搜索密度峰值发现算法进行分析,针对其不能自动确定聚类中心的缺点,引入粒子群优化算法,将PSO算法和密度峰值发现聚类算法相结合,提出PSO-FSDP聚类算法。该算法首先设置新的适应度准则函数,通过粒子群优化算法输出聚类中心,再进行类簇划分。实验证明,该算法能有效解决传统密度峰值发现聚类算法中无法自动确定聚类中心的局限性,避免了人工选取过程的主观性,具有较强的稳定性和较快的收敛速度,并且取得了良好的聚类效果。(2)针对文本数据高维的特点,将PSO-FSDP聚类算法应用于文本聚类中,实现新闻话题的发现本文通过分析文本向量特征,在快速搜索发现密度峰值聚类方法的基础上,将改进的基于粒子群的密度峰值发现算法应用于文本聚类中。该方法用文本之间的相似度代替文本点距离,解决了原算法不适用于高维的文本数据的问题。提出了以相似度距离代替文本距离的思想,用word2vec工具进行文本建模,通过余弦公式计算文本间相似度,获得文本之间的距离表示,求得每个文本点的密度和其到高密度点的距离,运用PSO-FSDP算法,选取聚类中心实现文本聚类发现新闻话题。与其他文本聚类算法相比较,本文算法具有更高的准确率、召回率和F值,运行过程更加稳定,能够获得更好的文本聚类结果。(3)设计并实现了基于PSO-FSDP算法的新闻话题发现原型系统通过对文本聚类流程进行分析,针对每个流程设计了相应的功能模块,设计并实现了基于PSO-FSDP算法的新闻话题发现原型系统。该原型系统可以有效地对网络中新闻报道进行抓取、分析与处理,并最终提供给用户直观的新发现的话题。