基于多源数据的话题检测与追踪研究

来源 :电子科技大学 | 被引量 : 4次 | 上传用户:prcjzzz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的普及和科技的发展,包括新闻网站、微博在内的网络平台逐渐成为大众获取信息的重要渠道。面对各网络平台上海量的数据信息,如何快速从中获取自己需要的信息已经成为人们关注的问题。话题检测与追踪正是在这种需求下提出的,它能从信息流中发现相关话题并实现对特定话题的追踪,帮助人们更加全面地认识相关事件。由于各网络平台数据质量参差不齐,话题相关的报道可能分散在多个平台上,而现有话题检测与追踪研究大多关注的是某个特定平台,这容易导致话题报道缺失或者认知的偏差。本论文以新闻、微博为研究对象,针对两类报道存在语义上的共现词集,将两类报道联合起来,实现话题的检测与追踪。本论文主要的具体内容有:(1)本论文提出了一种基于频繁词集聚类的多源数据话题检测方法,该方法可以同时完成两类报道的话题检测。具体过程中,通过对新闻、微博两类报道的频繁词集(高频次共现的词集)进行聚类,发现话题相应的中心向量,并在此基础上通过聚类实现话题检测。算法在话题模型构建、频繁词集相似度计算和话题融合等方面都做了相应的改进。实验中,该算法下话题的平均漏检率低于20%,平均误检率在5%左右,同时两类报道上的检测效果相差不明显。(2)论文对KNN算法进行改进并在此基础上实现了多源数据话题追踪。该算法在话题追踪过程中将两类报道结合起来,实现话题的自适应追踪。具体过程中,算法先通过与话题中心的相似度比较,缩小该报道话题大致的类别范围,再利用与各报道相似性比较确定待追踪报道的类别。另外,针对报道质量参差不齐、话题演变等特点,论文对反馈报道选择策略和话题特征词加权方法提出相应改进。对比实验结果,本文算法能将话题追踪统一检测代价(CDet)Norm降低5%左右。通过以上两方面的研究,可以将不同来源的数据有效地结合起来,实现多源数据的话题检测与追踪。该研究可以应用于舆情或情报系统中热点话题检测和对特定话题的持续跟踪。下一阶段,论文可以在其他话题模型的表示、话题中的情感分析和融合更多类型数据等方面开展相关研究。
其他文献
移动机器人由于具备较强的适应性和自主性,在医疗、灾难救援、家政服务等领域得到广泛应用。建立精准的三维地图和实现精确的定位是移动机器人实现自主导航的关键,也是完成后
循环展开是一种非常重要的循环变换技术,不仅能够直接提高程序的性能,而且可以为其它优化创造优化机会。目前编译器基本都是使用启发式方法选择展开策略。循环展开与其他优化
手语是听力障碍者在日常生活、工作中与人交流、表达意图的主要手段,然而当今社会中信息传播的主要方式都是建立在自然语言之上,对听力障碍者接受信息、融入社会主体造成极大的
数据中心网络的相关研究中,流量管理问题一直备受关注。当前大数据应用对传输时延、网络流量控制提出了更高的要求,这需要对网络流调度进一步优化。同时现有的网络流调度算法
信息技术的日新月异使得各个领域的数据量激增,在此背景下诞生的知识发现和数据挖掘给人们提供了一种新的认识数据、理解数据的智能手段。序列模式发现是其中的一个重要研究
虹膜识别是模式识别领域的前沿研究方向,是一种新颖的基于生物特征的身份鉴别方法,也是一项具有广阔应用前景的身份认证技术,在信息及安全领域有着重要的应用价值,业已得到国内外
随着数字图象的应用日益广泛,数字图象编辑处理工具越来越先进,利用这些工具精心修改过的图象很难发现其改动痕迹,图象篡改的事件屡见不鲜。当前,数字图象认证成为了现在研究
可视化是分析处理大规模复杂数据场的重要手段,已经成为科学研究、工程设计等领域不可或缺的工具。直接体绘制方法能反映数据场的整体分布情况,因此成为最重要的体数据绘制方
随着计算机技术和网络技术的飞速发展,计算机网络对于社会政治、经济和军事等方面重要部门的影响越来越大。但目前的网络组件,不论是硬件还是软件,不论是交换设备还是端设备,都存
随着动漫产业的不断发展壮大,动画制作也从传统的二维动画转变到现在主流的三维动画,三维动画带给人们更加真实逼真的感觉,但是三维动画的渲染是一项很复杂的计算,往往很耗时,单机