面向微博的热点话题发现及跟踪

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:hzfeng163
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着web2.0的不断发展和基于web2.0的应用不断出现,网民的交流方式大大发生了改变。微博是最近得到高速发展的一个基于web2.0的应用。网民通过微博,可以发表自身信息,关注他人信息或者转发、评论他人的信息。但这也使得网民容易陷入局部信息而忽略了整体信息。因此本文从微博用户发表的信息出发,对微博热点话题进行研究。研究的主要内容包括以下几个方面:1.从微博的组织方式出发,对微博信息进行采集。由于传统的爬虫在微博平台上受到了比较大的限制,所以本文设计了支持Ajax的微博爬虫,爬虫模拟网民浏览微博的方式对微博信息进行采集。同时,讨论了微博信息噪音存在的情况,并对不同的情况使用不同的方式进行预处理。2.针对微博由于字数限制而导致无法使用传统长文本聚类方法进行话题发现的情况,本文提出了微博讨论树的概念,并设计了微博讨论树合并算法,使短文本组织成长文本。3.对微博话题发现进行研究,本文实现了微博语义框架。但单纯从语义出发对微博进行话题发现存在一定缺陷。因此,本文提出使用基于Single-Pass与语义框架相结合的SPS(Single-Pass And Semantics)算法。经实验验证,SPS算法比单纯使用基于统计和单纯使用基于语义的算法有一定的提高。4.为了对热点话题进行跟踪,本文定义了微博的能量,微博讨论树的能量以及话题的能量,并给出计算话题当前能量值的算法。
其他文献
提出了基于模糊支持向量机算法网络大数据下的冗余数据分类优化方法。提取网络大数据环境下的冗余数据属性特征,为冗余数据分类提供准确的数据基础。根据模糊支持向量机相关
影响丁克的主要因素为城市人口比例、大专以上学历的女性比例以及在这两种情况下能接受丁克观念的人数比例,对丁克比例进行了讨论。分别对这三部分进行分析,确定出丁克现象增
本文选择影响森林火灾发生、蔓延的主要气候因子作为区划因子,以数量分类中的加权聚类分析方法为工具,对滇中地区27个县市作出了林火气候区划。森林火险区划可为各级森林防火部门
目的观察化痰通咽汤结合针灸治疗中风后风痰瘀阻证吞咽障碍的临床疗效。方法选取在武汉市第一医院康复医学科住院的证属风痰瘀阻证中风后吞咽障碍患者150例,随机分为对照组和
模式分类方法是模式识别的关键。文中重点研究了支持向量机、BP神经网络、K近邻、朴素贝叶斯、线性判别分析和二次判别分析共六种模式分类方法,并利用MATLAB对UCI上的数据集进
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
<正>众所周知年鉴是一种以年度为单位、逐年出版、记载和反映一年中重大事件、重要情况、最新成果和各种事物发展变化,并收录某些重要文献资料的综合性撰述体裁。年鉴的种类
<正>3月份是"学雷锋志愿服务月",也是各类电力志愿服务活动广泛开展的重要时期。这些头戴小红帽、身穿红马甲的电力志愿者,活跃在火车站、小区、广场、企业或居民家中,为外出
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
目的:探讨快速康复护理在肩袖损伤中应用效果。方法:将94例肩袖损伤患者随机分为观察组(47例)与对照组(47例),对照组给予常规护理干预,观察组则接受快速康复护理干预,观察两