【摘 要】
:
微博作为目前最流行的社交应用之一,成为人们信息获取和传播的主要途径。微博数据实际上是一个高速、海量和动态的信息流,更能表达出每时每刻的社会话题及其变化过程,从中进
论文部分内容阅读
微博作为目前最流行的社交应用之一,成为人们信息获取和传播的主要途径。微博数据实际上是一个高速、海量和动态的信息流,更能表达出每时每刻的社会话题及其变化过程,从中进行话题检测及跟踪对舆论监督、民意调查有重大意思。在此背景下,本文提出了一个时效性高、能够处理大规模数据流的聚类算法,并将其用到微博话题检测与跟踪上去,取得了较好的效果。提出了一种基于近邻传播的大规模数据流聚类处理方法(Affinity Propagation in Massive Data Stream,APMStream),主要包括初始聚类、在线聚类、聚类调整和聚类维护四个部分。从分布式迭代和动态调整阻尼系数两个方面改进近邻传播(Affinity Propagation,AP)算法,使其适用于大规模数据的初始聚类。在线聚类能够实时在线处理每个元组,根据与已有聚类的距离将元组归并到聚类中或者创建一个新的聚类。聚类调整首先重新选取聚类中心,然后运用加权的AP算法对新的聚类中心进行聚类。聚类维护通过删除长时间没有更新的聚类和重要程度低的元组,维持系统的负载在合理的范围内。将APMStream方法用到话题检测与跟踪上去,主要包括微博重要程度的度量和微博之间距离的计算,其中微博重要程度是通过基于微博之间的关系计算得到的,作为AP算法的优先权参数,决定微博成为聚类中心的概率大小;微博之间的距离是通过基于公共词块方法计算得到的,用于构造AP算法的相似度矩阵。APMStream方法被设计成为分布式流处理框架Apache Storm的一个拓扑,数据的处理分布在这个拓扑的各个节点上。经过实验验证,APMStream可以快速处理大规模微博数据流,检测微博话题,并且反映微博话题随时间的演化过程。
其他文献
随着多媒体技术的发展和网络的不断普及,数字多媒体成为广受人们欢迎的工作和娱乐内容,在人们享受数字化给生活工作带来便捷的同时,易于拷贝和分发的数字作品也给版权保护带
作业车间调度问题是公认的最难的组合优化问题之一,也是一个典型的NP 难度问题。研究作业车间调度问题具有很高的理论价值。同时,作业车间调度问题是实际工业生产调度问题的抽
随着Internet和信息技术的高速发展,XML文档作为数据存储介质应用范围越来越广泛,XML数据的重复元素检测问题已经引起了从事数据库和Internet应用等研究人员的大量关注。而XM
随着数字信息的爆炸式增长和应用需求的不断提高,企业比以往任何时候都更加依赖于数据。如何对数据进行备份和灾难恢复已成为存储业界研究的热点。传统的数据保护技术已经越来
ERP是整合了企业管理理念、业务流程、基础数据、人力物力、计算机硬件和软件于一体的企业资源管理系统。本文首先阐述了ERP的原理和思想以及发展的历史阶段,论述了中小企业
数据竞争是多线程程序中最复杂的一种并发错误。由于线程调度与多线程程序执行顺序的不确定,导致数据竞争的检测变得异常困难。动态检测数据竞争是指在程序执行过程中实时监
信息技术在当今企业生产活动中的作用越来越重要,实现它的主要方式是企业资源规划(Enterprise Resource Planning)。ERP系统要具有相当的灵活性和扩展性,才能帮助企业在瞬息
出于隔离性和安全性等考虑,虚拟机间的通信过程在通信路径上引入了前后端设备驱动,导致虚拟机间的通信性能与传统的进程间通信相差甚远,而虚拟机间通信的结果仅把数据从内存
飞速发展的网络革命正在改变着人类的生活,高速的通讯系统的研发给IPTV(Internet Protocol Television)的问世和普及带来福音。目前,IPTV正在逐渐成为网络中一项重要的业务走
事件提取是指把非结构化文本中出现的事件的时间,地点,事件主体和事件的具体内容提取出来。随着垂直搜索引擎的出现,事件提取作为信息提取的一个研究方面,近年来成为研究的热点,并