论文部分内容阅读
微博平台已发展成为网民讨论社会热点事件和分享日常生活的重要社交平台之一。这些用户产生的内容(user generated contents,UGCs)在微博平台上以数据流的形式实时产生和动态更新。快速变化的微博流使得我们迫切需要开发一个有效的监测工具来实时分析微博中产生的话题及其演化趋势,这对突发事件预警、舆情疏导、产品营销、信息推荐等意义重大。面向微博文本流的主题探测与追踪是监测微博流的有效方法之一,它可实时探测网络上的热点动态,进而可以辅助监测人员及时作出应对措施。然而,微博文本的简短性、高噪声、低质量、快速变化、规模庞大等特点使得现有的主题探测与追踪方法面临4个主要挑战:(1)海量低质的微博文本使得主题挖掘的时空开销较大,难以满足实时性要求;(2)高维稀疏的文本向量空间使得现有聚类方法难以挖掘出有价值的主题信息;(3)面向微博文本流的新兴主题探测的及时性与准确率矛盾难以调和;(4)难以准确追踪和刻画微博流中的新兴主题在时间序列上的演化状态。本文针对上述挑战,构建一个面向微博文本流的主题探测与追踪的统一框架,该框架试图分别从微博采样、主题抽取、新兴主题探测与主题追踪等方面提出相应解决方案。本文的主题研究内容可概括如下:(1)针对微博文本海量低质的问题,本文提出一个基于时间-频率变换的高质量微博抽取方法,来从大规模微博文本中抽取出部分有代表性的高质量微博。该方法通过综合考虑微博内容质量、社交网络属性、URL链接等特征,并提出一个基于小波变换的特征融合算法来评估每个特征对微博质量的影响。在大规模新浪微博数据集上的实验结果表明,该方法能有效地抽取出微博集中的高质量微博,且微博之间的信息冗余较小。(2)针对现有基于向量空间模型的文本聚类技术对微博文本进行聚类时面临维度高、特征稀疏和噪声干扰等问题,本文提出基于频繁项集的短文本聚类与主题抽取方法。该方法首先研究短文本的多特征对文本质量的影响,在基于高质量短文本集挖掘出的大量频繁项集基础上,设计一个频繁项集过滤策略,可过滤掉85%的非重要频繁项集;然后定义基于相关文本集的频繁项集相似度,并提出聚类个数自适应的频繁项集谱聚类算法,实现频繁项集聚类与主题抽取;最后基于主题词将大规模短文本划分到相应的主题簇中,从而实现短文本聚类。基于100万条新浪微博文本的实验结果表明,该方法能够全面准确地抽取主题信息,并快速有效地实现海量短文本聚类。(3)针对面向微博文本流的主题探测面临的微博文本相似度难以准确度量、新兴主题词汇难以有效发现等问题,本文提出一个基于高效用模式聚类的主题探测方法。该方法首先从微博流中抽取出一组有代表性的高效用模式,并将其聚集成主题簇。由于该方法直接对语义更丰富的高效用模式聚类而不对充满噪声的微博文本聚类,因此其在大规模微博流上性能表现优良。此外,该方法可同时探测到新兴主题和背景主题。在大规模Twitter和新浪微博上的实验结果表明该方法比基线方法能更好的探测到两类主题。(4)针对面向微博文本流的主题探测与追踪的及时性和准确性需求,本文提出一个基于新颖性概率与衰退性概率的主题探测与追踪方法。该方法将基于时间序列的新兴词汇探测与基于文本空间的潜先设在主题挖掘相结合,来实现潜在主题的新颖性和衰退性评估。特别地,在该方法中,首计了一个基于局部加权线性回归的策略来评估词汇的新颖性和衰退性水平,可突显表达新兴主题的词汇新颖性,而压制表达背景主题的词汇新颖性。其次,通过设计和解决一个相应的最优化问题来获得主题的新颖性和衰退性概率,进而实现新兴主题探测。在100万条新浪微博上的实验结果表明,该方法不仅在新兴主题探测方面比基线基线方法取得更高的准确率、主题一致性和新鲜度,且在主题追踪方面表现优良。