流聚类技术在微博中的应用

来源 :浙江大学 | 被引量 : 0次 | 上传用户:whb35750
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微型博客是一种日益兴起的新型社交网络,在微博中,用户之间不仅可以建立好友关系,还可以进行学术交流、通过签到分享自己在不同地点所参与的事件以及对热点问题进行关注和讨论。它具有发布信息快,信息传播速度快的特点。但是因为用户众多,数据量过大,且数据为动态传输,使用传统的静态数据分析方法对其进行分析就不再适合,而需要用到流聚类的方法。本文中,我们把流聚类分为两个层次,其中在线的微聚类层用于暂时性地处理和存储摘要统计信息,由于该组件仅针对摘要统计信息进行处理,从而能够处理流速和流量较大的数据流;另一层是离线的宏聚类组件,针对这一层,我们可以根据需要调整输入的参数(如类或时间段的个数)来对在线微聚类层所存储的摘要统计信息进行聚类,以便能够以不同角度和方式对数据流的聚类结果进行分析,从而提高了聚类结果的精确性和可理解性。之后,本文针对微博数据的特点引入一个用户影响力因子,将之作为微博的权值,从而得到针对微博流聚类更加精确的结果。本文还使用了基于PCA的文本降维技术对目标数据集进行了降维处理,在取得相近结果的基础上,提高了算法的效率。  
其他文献
近年来,随着计算机和信息技术的快速发展,面部表情识别技术越来越受到重视。如何准确有效地提取表情特征并进行分类已经成为一个研究的热点。本文主要研究了表情特征提取和表情
随着中国航天的快速发展,尤其是卫星控制向深空探测、交会对接等领域的扩展,导致星载控制软件的规模越来越大、复杂度越来越高。此外,卫星研制模式由单件定制和试验性生产,向
统计表明,大约75%的人脸图像为非正面的人脸图像,对于人脸识别及其相关问题来说,姿态估计是一个重要的前处理过程。在过去的十几年里,虽然人脸识别问题的研究取得了巨大的进步,但
近年来,各种先进的数字化医疗设备在城市医疗机构大量使用,大大提高了城市的医疗水平,这些设备大多是基于PC机设计的,具有成本高、功耗大、不利于携带等特点,而很多边远乡镇地区医
图像识别一直是计算机图形学中的热门研究领域之一。本文重点研究背散射人体隐藏物识别技术,对其涉及的人体图像预处理、隐藏物特征提取、隐藏物识别等关键技术进行深入研究。
轨道交通的快速发展和规模经济效益,决定了轨道交通的发展趋势。清分系统是集监控和信息处理于一体的综合业务信息处理及管理系统,是网络化运营中重要的一个核心环节。清分系统
作为一种新兴的信息处理模式,云计算(Cloud Computing)在互联网行业飞速发展的背景下,逐渐成为当今的研究热点。云计算以虚拟化技术为支撑,根据用户需求提供动态可扩展的服务,随
被动锁模及调Q脉冲光纤激光器以其光束质量高、稳定性好、系统紧凑、结构简单等特点,在光通信、生物诊断、材料加工、国防等领域具有广泛的应用。可饱和吸收体是被动锁模及调Q
计算机断层成像(ComputerTomography,CT)技术是当今医疗诊断最常用的技术手段之一。它通过测量X射线在不同方向上穿过人体断层时的累积衰减系数,计算出它们在整个断面上的分布
随着Web技术在各行各业的广泛应用,Web服务器上存在大量的日志文件,通过Web日志挖掘,可以发现用户访问Web页面的模型和访问习惯。然而,经典Apriori算法在处理大规模数据时存