基于多源数据的话题检测与追踪研究

来源 :电子科技大学 | 被引量 : 4次 | 上传用户：prcjzzz

【摘要】

：

随着互联网的普及和科技的发展,包括新闻网站、微博在内的网络平台逐渐成为大众获取信息的重要渠道。面对各网络平台上海量的数据信息,如何快速从中获取自己需要的信息已经成

【作者】

：

程林骏

【机构】

：

电子科技大学

【出处】

：

电子科技大学

【发表日期】

：

2017年01期

【关键词】

：

多源数据频繁词集话题检测话题追踪

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网的普及和科技的发展,包括新闻网站、微博在内的网络平台逐渐成为大众获取信息的重要渠道。面对各网络平台上海量的数据信息,如何快速从中获取自己需要的信息已经成为人们关注的问题。话题检测与追踪正是在这种需求下提出的,它能从信息流中发现相关话题并实现对特定话题的追踪,帮助人们更加全面地认识相关事件。由于各网络平台数据质量参差不齐,话题相关的报道可能分散在多个平台上,而现有话题检测与追踪研究大多关注的是某个特定平台,这容易导致话题报道缺失或者认知的偏差。本论文以新闻、微博为研究对象,针对两类报道存在语义上的共现词集,将两类报道联合起来,实现话题的检测与追踪。本论文主要的具体内容有:（1）本论文提出了一种基于频繁词集聚类的多源数据话题检测方法,该方法可以同时完成两类报道的话题检测。具体过程中,通过对新闻、微博两类报道的频繁词集（高频次共现的词集）进行聚类,发现话题相应的中心向量,并在此基础上通过聚类实现话题检测。算法在话题模型构建、频繁词集相似度计算和话题融合等方面都做了相应的改进。实验中,该算法下话题的平均漏检率低于20%,平均误检率在5%左右,同时两类报道上的检测效果相差不明显。（2）论文对KNN算法进行改进并在此基础上实现了多源数据话题追踪。该算法在话题追踪过程中将两类报道结合起来,实现话题的自适应追踪。具体过程中,算法先通过与话题中心的相似度比较,缩小该报道话题大致的类别范围,再利用与各报道相似性比较确定待追踪报道的类别。另外,针对报道质量参差不齐、话题演变等特点,论文对反馈报道选择策略和话题特征词加权方法提出相应改进。对比实验结果,本文算法能将话题追踪统一检测代价(C_Det)_Norm降低5%左右。通过以上两方面的研究,可以将不同来源的数据有效地结合起来,实现多源数据的话题检测与追踪。该研究可以应用于舆情或情报系统中热点话题检测和对特定话题的持续跟踪。下一阶段,论文可以在其他话题模型的表示、话题中的情感分析和融合更多类型数据等方面开展相关研究。

其他文献

移动机器人视觉SLAM中运动目标移除系统设计与实现

移动机器人由于具备较强的适应性和自主性,在医疗、灾难救援、家政服务等领域得到广泛应用。建立精准的三维地图和实现精确的定位是移动机器人实现自主导航的关键,也是完成后

学位

移动机器人运动目标检测运动目标移除同步定位与地图创建RGB-D SLAM

基于GCC编译器的循环展开关键技术研究

循环展开是一种非常重要的循环变换技术,不仅能够直接提高程序的性能,而且可以为其它优化创造优化机会。目前编译器基本都是使用启发式方法选择展开策略。循环展开与其他优化

学位

GCC循环展开指导语句迭代编译程序调优

标记语言驱动的中国手语合成研究

手语是听力障碍者在日常生活、工作中与人交流、表达意图的主要手段，然而当今社会中信息传播的主要方式都是建立在自然语言之上，对听力障碍者接受信息、融入社会主体造成极大的

学位

中国手语合成中国手语标记语言虚拟人行为动画韵律建模

应用驱动的数据中心流调度仿真平台的设计与实现

数据中心网络的相关研究中,流量管理问题一直备受关注。当前大数据应用对传输时延、网络流量控制提出了更高的要求,这需要对网络流调度进一步优化。同时现有的网络流调度算法

学位

应用驱动仿真网络流调度

基于聚类分区的序列模式挖掘算法研究

信息技术的日新月异使得各个领域的数据量激增,在此背景下诞生的知识发现和数据挖掘给人们提供了一种新的认识数据、理解数据的智能手段。序列模式发现是其中的一个重要研究

学位

数据挖掘序列模式投影数据库分区算法聚类

基于曲面匹配的虹膜识别方法的研究

虹膜识别是模式识别领域的前沿研究方向，是一种新颖的基于生物特征的身份鉴别方法，也是一项具有广阔应用前景的身份认证技术，在信息及安全领域有着重要的应用价值，业已得到国内外

学位

模式识别虹膜识别灰度曲面匹配图像处理特征值

复制-粘贴图象篡改的被动认证算法研究

随着数字图象的应用日益广泛,数字图象编辑处理工具越来越先进,利用这些工具精心修改过的图象很难发现其改动痕迹,图象篡改的事件屡见不鲜。当前,数字图象认证成为了现在研究

学位

被动认证主成分分析模糊不变矩区域生长R-变换

三维体数据的任意裁减技术及其应用研究

可视化是分析处理大规模复杂数据场的重要手段,已经成为科学研究、工程设计等领域不可或缺的工具。直接体绘制方法能反映数据场的整体分布情况,因此成为最重要的体数据绘制方

学位

三维数据场体裁减多分辨率裁减纹理GPU

一种基于Windows平台蜜网系统的研究与设计

随着计算机技术和网络技术的飞速发展，计算机网络对于社会政治、经济和军事等方面重要部门的影响越来越大。但目前的网络组件，不论是硬件还是软件，不论是交换设备还是端设备，都存

学位

网络安全蜜网系统主动防御Windows平台数据捕获

基于动态反馈的集群渲染系统的设计与实现

随着动漫产业的不断发展壮大，动画制作也从传统的二维动画转变到现在主流的三维动画，三维动画带给人们更加真实逼真的感觉，但是三维动画的渲染是一项很复杂的计算，往往很耗时，单机

学位

集群系统负载平衡动态反馈动漫产业动画制作集群渲染任务调度策略

基于多源数据的话题检测与追踪研究

与本文相关的学术论文