论文部分内容阅读
随着互联网的普及和科技的发展,包括新闻网站、微博在内的网络平台逐渐成为大众获取信息的重要渠道。面对各网络平台上海量的数据信息,如何快速从中获取自己需要的信息已经成为人们关注的问题。话题检测与追踪正是在这种需求下提出的,它能从信息流中发现相关话题并实现对特定话题的追踪,帮助人们更加全面地认识相关事件。由于各网络平台数据质量参差不齐,话题相关的报道可能分散在多个平台上,而现有话题检测与追踪研究大多关注的是某个特定平台,这容易导致话题报道缺失或者认知的偏差。本论文以新闻、微博为研究对象,针对两类报道存在语义上的共现词集,将两类报道联合起来,实现话题的检测与追踪。本论文主要的具体内容有:(1)本论文提出了一种基于频繁词集聚类的多源数据话题检测方法,该方法可以同时完成两类报道的话题检测。具体过程中,通过对新闻、微博两类报道的频繁词集(高频次共现的词集)进行聚类,发现话题相应的中心向量,并在此基础上通过聚类实现话题检测。算法在话题模型构建、频繁词集相似度计算和话题融合等方面都做了相应的改进。实验中,该算法下话题的平均漏检率低于20%,平均误检率在5%左右,同时两类报道上的检测效果相差不明显。(2)论文对KNN算法进行改进并在此基础上实现了多源数据话题追踪。该算法在话题追踪过程中将两类报道结合起来,实现话题的自适应追踪。具体过程中,算法先通过与话题中心的相似度比较,缩小该报道话题大致的类别范围,再利用与各报道相似性比较确定待追踪报道的类别。另外,针对报道质量参差不齐、话题演变等特点,论文对反馈报道选择策略和话题特征词加权方法提出相应改进。对比实验结果,本文算法能将话题追踪统一检测代价(CDet)Norm降低5%左右。通过以上两方面的研究,可以将不同来源的数据有效地结合起来,实现多源数据的话题检测与追踪。该研究可以应用于舆情或情报系统中热点话题检测和对特定话题的持续跟踪。下一阶段,论文可以在其他话题模型的表示、话题中的情感分析和融合更多类型数据等方面开展相关研究。