热点话题发现及基于Voronoi的词云图的应用

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:leonmalay
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博由于其内容传播速度的即时性和传播范围的广泛性积累了大量的用户,成为了热点事件的舆论爆发地与传播地。对于微博的某个突发热点事件来说,在一段时间内会产生大量的社交媒体文本数据,并且这个突发热点事件往往会蕴含若干语义相关的子话题,挖掘出微博蕴含的各个子主题信息对于舆论的正确导向具有重要的意义。但是由于短文本的语义稀疏性问题,主题挖掘或文本聚类等文本挖掘算法的效果会受到一定程度的影响。此外,社交媒体文本挖掘的结果往往通过文本可视化技术呈现,以词云图为代表的传统文本可视化模型由于展示的词项散乱排布等问题,不能很好地展示文本数据蕴含的子主题信息。本论文的主要研究内容如下:1、本论文提出了基于语料集本身的文本特征自扩展算法,算法认为文档的某个词是由主题以某个概率抽样生成,继续这个抽样过程即可将若干虚拟词填充到原始文档中完成文本特征扩展,解决了社交媒体短文本的语义稀疏性问题进而提高文本聚类算法的效果,避免了传统文本特征扩展算法依赖外部数据源的问题。2、本论文提出了命名为VoronoiTopicCloud的文本可视化模型,将Voronoi图融入到词云图中,通过Voronoi将平面切分成若干个区域,并将语义相关的词项聚合到一起,解决了以词云图为代表的文本可视化模型因为其展示的词项散乱排布,周围没有上下文信息,因而无法很好地展示话题语义信息的问题。3、本论文设计与实现了微博热点话题挖掘系统,系统通过网络爬虫爬取微博并进行话题挖掘,使用基于语料集本身的文本特征自扩展算法解决短文本语义稀疏性问题,最后通过VoronoiTopicCloud文本可视化模型呈现结果,实现了微博热点话题舆情发现与舆情追踪。论文最后总结了整个研究工作,并阐述了论文未来的研究方向。
其他文献
自然灾难把人类生活环境变成了废墟,为了把自然灾害带来的损失降到最低,需要在灾后对被困的人员实施探测救援,这其中过程,无线通信技术起到了至关重要的作用,一方面通过无线通信技术,救援团队之间能够进行及时的沟通,另一方面,能通过无线通信技术实现通信网络与终端设备的上下行数据交换,可以获取被困人员的实际位置信息,从而给予高效的救援。但是,应用无线通信技术于废墟环境下的终端设备位置信息获取,需要克服几个信号
二十一世纪以来,大数据、云计算、物联网、增强现实和虚拟现实等新兴互联网技术蓬勃发展,各式各样的互联网业务层出不穷,随之而来的是呈井喷式增长的网络数据流量、与日俱增的终端用户对大带宽数字服务需求。而光纤通信系统作为互联网和移动通信网络的骨干核心,承载了绝大部分的网络数据流量。因此,如何在光纤通信系统中实现更大的系统容量、更佳的系统性能、更高的信息速率、更长的传输距离、更低的系统功耗以及更灵活的调制方
时代一直在往前进步,而互联网是其发展的产物,人们对它依赖已经很大,人们不在为产米油盐担心,生活质量提高了,也付出了一定代价,人们压力变大,所以交友时间与质量都变低了,并且现实生活中的社交往往都是在熟人之间,方式单一且交友圈小,所以基于互联网的社交对于现代人来说是十分重要的。单一应用架构的社交系统很难应对海量用户,所以急需构建基于微服务架构的社交系统,这样不仅能应对海量用户,还可以很方便的为系统增加
日冕物质抛射(Coronal Mass Ejection,CME)是对日地空间环境有着巨大影响的太阳爆发活动,当其到达地球时可能会引发地磁场扰动并导致地磁暴。快速准确地预测可以引发地磁扰动的CME事件并预计其到达地球的时间,对于减少CME造成的危害而言至关重要。传统方法在预测CME到达地球时间时大都只针对具有对地有效性的CME事件,即只针对能够到达地球并引发地磁扰动的CME事件,但是现有技术无法预
微创血管介入手术因其术中创口小、病灶定位精准、器械递送灵活、安全性高、术后痊愈快等优势,已成为临床上治疗心血管疾病的主要方式之一。于此同时,医生在血管介入手术机器人辅助下进行人机协同手术能够进一步提高手术的治疗精度与安全性,避免X射线对医生辐射,并使远程手术治疗成为现实。因此血管介入手术机器人已成为医工领域的研究热点。临床上,为保证介入手术的成功性,手术机器人的主从同步控制需具备较高的稳定性与跟随
偏微分方程(PDE)的解可以刻画许多实际问题,例如病毒在人群中的传播情况,金融衍生品的价格等,所以求解PDE对诸多领域,包括物理、生物、金融等都有重要的意义。高维PDE通常难以求解,而传统算法在处理高维PDE时会出现“维度灾难”,即随着维数增加,计算的复杂度将呈指数倍增加。本文对E W等人于2017年提出的基于深度学习的数值方法--深度BSDE方法,从离散精度与神经网络输入信息复杂度两个方面进行优
近年来随着各大视频创作平台的迅猛发展,优质的视频作品越来越多,给广大人民群众在学习、工作之余带来了见识、思考与无尽的欢乐的同时,视频作者们自身也能获得名气以及经济收益。随着深度学习技术的发展,像AI换脸、人脸生成等等技术已经被用于视频内容创作,只是受限于技术使用门槛较高以及前些年技术的不完善,这类视频创作内容很少,其中真正优秀的作品更是少之又少,而且可能会有肖像权侵权问题。为此,本文基于人脸生成、
随着时代的发展和科技水平的进步,人们对移动增强现实(Augmented Reality,AR)技术提出了更高的要求。然而,传统的增强现实只是将虚拟对象简单地叠加到现实世界的顶部,在存在遮挡的情况下无法真正使得虚拟对象与现实世界融合。针对传统移动增强现实的问题,本文设计实现了基于单目3D对象SLAM的移动增强现实系统,使用轻量级语义SLAM算法对周围的环境进行建图,将现实世界的物体表示为立方体的形式
大规模多输入多输出(Multiple-Input Multiple-Output,MIMO)技术具有信息传输速率快、抗干扰性强和频带利用率高等优点,是5G通信系统的核心技术之一,但在实际应用中也面临一些困难和挑战,信号检测便是其中之一。随着天线规模增大,传统MIMO信号检测算法难以在计算复杂度和检测性能之间取得较好的平衡。本文对基站接收天线采用高精度模数转换器(Analog-Digital-Con
近年来,随着互联网行业的迅速发展,互联网也走进了千家万户,不仅丰富了人民的生活,也给很多行业带来了很大的改变,利用互联网技术可以改变传统的工作方式。在铁路调度管理方面,传统的管理模式存在设备管理分散、数据整合困难以及无法形成统一监管等问题,所以多媒体调度管理平台也是顺应数据化和信息化的潮流,推进互联网与业务需求的结合,以达到提高管理工作效率,简化管理工作流程,节省成本的目的。本文对当前调度管理系统