基于数据挖掘在社交网络中热点话题的研究

来源 :浙江理工大学 | 被引量 : 0次 | 上传用户:stcheer
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的高速发展以及互联网的普及,社交网络已经成为人们生活中不可或缺的一部分,作为一种新兴的社交平台,社交网络正在逐渐改变人们的交流习惯。在社交网络用户数与信息量不断扩大的同时,如何在海量信息中快速而准确地挖掘出用户关注的热点话题,已经成为当今一个热门的研究方向。热点话题发现是通过运用统计分析和数据挖掘等相关技术,利用社交网络中用户发表的言论对话题进行挖掘,最终向用户呈现如新浪微博展示的一个热门话题排行榜。与传统互联网媒体相比,当前社交网络消息文本具有高维性、稀疏性、主题分布不均匀性、网络用语不规范等特点,且信息量呈爆炸式增长,导致传统的话题发现技术直接应用在社交网络中在准确度与效率方面都存在巨大问题。本文通过分析比较各种算法的优缺点进而选用朴素贝叶斯分类算法与单遍聚类(Single-pass)算法作为话题发现的算法,并对算法进行深入的研究分析其存在的问题,分别对其进行改进。本文主要的研究工作有以下几个方面:(1)深入研究当前社交网络中消息文本的特点,详细阐述了话题发现的基本流程,分析并比较话题发现过程中的相关算法,设计并实现一种自动获取实验数据的方式。针对当前社交网络的特点分析目前话题发现技术存在的问题,进而提出一种先分类后聚类的方式挖掘热点话题。(2)针对当前社交网络特点,朴素贝叶斯分类算法进行分类时准确度与速度方面都存在问题,本文引入方差过滤对其进行改进,将改进后的朴素贝叶斯分类算法结合Hadoop平台形成并行的分类,从而达到提高分类的准确度与速度的目的。通过新浪API获取公开的数据集进行对比实验,验证改进算法的有效性。(3)提出基于块的单遍聚类(Single-pass)算法,该算法主要是通过分块的思想来降低传统单遍聚类(Single-pass)算法的时间复杂度,提高聚类的效率;通过新浪API获取公开的数据集进行对比实验,验证改进算法的优势,最后验证了先分类后聚类较直接聚类获取热点话题的优越性。
其他文献
对等网络(P2P,Peer-to-Peer)作为一种新兴的网络计算模式,打破了传统的C/S模式,其应用越来越广泛。但是随着对等网络规模和用户量的增加,P2P环境下的信息量也随之飞速增长,给用户在
随着社会的日益信息化,人们希望能用自然语言与计算机交流,聊天机器人就是这样一种通过自然语言同人进行交流的人机对话系统。ALICE是一个基于经验的人工智能聊天机器人,由于它
学位
随着科学技术的发展和人民生活水平的提高,人们对娱乐方面的要求也越来越高。作为信息的一种载体,图像及视频给人带来的感觉是最直接最丰富的,因此目前有关视频的研究和应用
伴随着半导体制造工艺的发展,单位面积内所能集成的晶体管的数目已经达到极限,单核处理器碰到了无法逾越的障碍,多核处理器逐渐变成人们研究的热门和重点。多核处理器分为同
网格(Grid)计算是近年来逐渐兴起的一个研究领域,Internet技术实现了硬件的连通,Web技术实现了网页的互连,而网格技术将实现的是Internet上所有资源的全面共享。在网格技术发
现代社会,随着计算机速度的提高及计算机图形学的发展,阴影计算已经从原来的不可能或者简单模拟变成当今的高效果实时模拟或者真实模拟。阴影渲染技术已经成为游戏引擎中不可
Web应用以互联网为基础平台,采用Web服务,为用户提供Internet服务的网络应用软件。随着Web技术的成熟与发展,Web应用被广泛应用,软件系统也越来越复杂,Web应用的安全问题愈发
数值方法是数学的一个分支,它的研究对象是利用计算机求解各种数学问题的数值方法及有关理论,其内容主要包括非线性方程(组)的数值解法,求解矩阵特征值,多项式求根问题等。迄
基于内容的图像检索技术的研究融合了非常多计算机领域的技术成果,比如说,有计算机视觉、图形图像处理、图像理解和数据库,它是技术成果的产物,是一种利用一幅图像所包含拥有