论文部分内容阅读
随着信息技术的高速发展以及互联网的普及,社交网络已经成为人们生活中不可或缺的一部分,作为一种新兴的社交平台,社交网络正在逐渐改变人们的交流习惯。在社交网络用户数与信息量不断扩大的同时,如何在海量信息中快速而准确地挖掘出用户关注的热点话题,已经成为当今一个热门的研究方向。热点话题发现是通过运用统计分析和数据挖掘等相关技术,利用社交网络中用户发表的言论对话题进行挖掘,最终向用户呈现如新浪微博展示的一个热门话题排行榜。与传统互联网媒体相比,当前社交网络消息文本具有高维性、稀疏性、主题分布不均匀性、网络用语不规范等特点,且信息量呈爆炸式增长,导致传统的话题发现技术直接应用在社交网络中在准确度与效率方面都存在巨大问题。本文通过分析比较各种算法的优缺点进而选用朴素贝叶斯分类算法与单遍聚类(Single-pass)算法作为话题发现的算法,并对算法进行深入的研究分析其存在的问题,分别对其进行改进。本文主要的研究工作有以下几个方面:(1)深入研究当前社交网络中消息文本的特点,详细阐述了话题发现的基本流程,分析并比较话题发现过程中的相关算法,设计并实现一种自动获取实验数据的方式。针对当前社交网络的特点分析目前话题发现技术存在的问题,进而提出一种先分类后聚类的方式挖掘热点话题。(2)针对当前社交网络特点,朴素贝叶斯分类算法进行分类时准确度与速度方面都存在问题,本文引入方差过滤对其进行改进,将改进后的朴素贝叶斯分类算法结合Hadoop平台形成并行的分类,从而达到提高分类的准确度与速度的目的。通过新浪API获取公开的数据集进行对比实验,验证改进算法的有效性。(3)提出基于块的单遍聚类(Single-pass)算法,该算法主要是通过分块的思想来降低传统单遍聚类(Single-pass)算法的时间复杂度,提高聚类的效率;通过新浪API获取公开的数据集进行对比实验,验证改进算法的优势,最后验证了先分类后聚类较直接聚类获取热点话题的优越性。