【摘 要】
:
随着越来越多的用户愿意上网发微博,表达对公共事件的关注和看法、表达个人情感或情绪、报道新闻事件、发表观点等,微博已经成为非常有价值的数据源。如何有效地获取和展现微
论文部分内容阅读
随着越来越多的用户愿意上网发微博,表达对公共事件的关注和看法、表达个人情感或情绪、报道新闻事件、发表观点等,微博已经成为非常有价值的数据源。如何有效地获取和展现微博数据中的有效信息,提高信息获取的效率,长期以来一直是一个研究热点。本文分析了微博文本的结构特点,构建了一个微博数据预处理话题检测与跟踪系统。系统通过新浪微博平台获取数据并进行分词,基于分词结果选取特征词构造向量空间模型(VSM);在计算特征权重时基于微博的hashtag信息来提升话题特征词的权重;使用微博转发关系提高微博聚类的准确率;并利用微博的转发数、评论数以及发微博用户信息的相关信息来提取关键词;考虑微博本身的结构特征,针对微博的转发关系,构造转发关系表对微博话题进行自适应地跟踪,进而获取微博话题的发展方向。本文主要工作包括:(1)针对微博文本具有hashtag的特点,并且hashtag通常是对整个微博内容的综合概括,提出了基于hashtag的权重计算方法,该方法能够有效地提高微博聚类的效果。(2)基于转发的微博与被转发的微博之间存在主题内容上的相似性,提出了基于转发关系簇的微博聚类算法,该算法首先基于微博的转发关系构造转发关系矩阵,基于转发关系矩阵构造转发关系簇,然后在转发关系簇的基础上进行聚类分析。(3)基于聚类结果,利用微博的转发、评论数以及微博发布者的信息来提取聚类中的主题词。(4)针对微博的转发关系,构造转发关系表对微博话题进行自适应地跟踪,获取微博事件的发展方向。
其他文献
在一个大规模分布式系统中,为了能够减少失效节点所造成的计算损失,基于卷回恢复的容错技术得到了广泛使用,其中具有代表性的如检查点技术。在设计检查点协议过程中一个关键问题
随着信息社会的发展,拥有海量数据的复杂网络不断出现,如何从这些网络中挖掘出有价值的信息是一个十分艰巨的任务。链接预测是数据挖掘领域的重要分支,也是社会网络分析的关
随着互联网的迅速发展和广泛普及,在很大程度上改变了人们的生活方式,人们不仅被动接受信息,还能与外界进行交互。互联网逐渐成为一种交互式媒体,更多的人通过博客B、BS等网
本文在分析国内外超声诊断仪市场现状后,提出一种基于ARM9的便携式B超仪器设计方案,旨在满足特殊医疗环境下对超声诊断仪的需求。
论文首先分析超声诊断仪的基本原理和结
高清化和智能化是视频监控系统发展的趋势,也是衡量系统优劣的重要标准。高清化主要反映在分辨率上,而智能化主要体现在后期的视频处理上。本文从系统架构设计与实现的角度提
在未来的网络发展中,无线网络将演变成一种支持全IP、基于多种无线网络接入技术的无缝融合异构网络,它们在覆盖范围、接入能力等方面各不相同,没有一种单一的网络可以在带宽
集成无线通信、嵌入式计算、传感器和分布式信息处理技术的无线传感器网络已经成为当前信息网络研究的热点,随着廉价的CMOS摄像头及微型麦克风的出现,以及人们对图像、音频和
对于一种逻辑(?),它在一类结构C上的模型检测问题是询问一个给定的(?)语句在一个给定的C结构中是否成立。核化是一个在设计固定参数算法中广泛应用的技术。核是一个从输入实
目前,图像编辑软件的广泛应用已经导致了许多非法的数字图像使用。在这种情况下,急需开发相关的计算机技术来验证数字图像的完整性,从而阻止对数字图像的恶意伪造。图像哈希是一
多标记学习问题中每个样本可以同时和多个标记相关联,因此比传统的单标记学习有更广的应用空间,并受到越来越多研究者的关注。然而,多标记学习依旧存在着维度灾难、噪音特征