论文部分内容阅读
随着互联网的快速发展,微博、电子商务、论坛、微信等网络平台已经得到了广泛的应用,这些网络平台所产生的短文本信息都以数据流的形式动态产生和实时更新。快速演化的短文本数据流使得我们迫切需要一种行之有效的分析工具来实时监测短文本数据流中产生的主题及其演化过程,这对舆情疏导、社会网络分析、热点事件挖掘、新兴话题追踪等意义重大。面向短文本数据流的主题演化分析是抽取短文本数据流主题及其演化过程的重要手段。这种方法可以实时分析社交媒体上的热点事件,从而协助监测部门及时做出响应措施。但是,由于短文本流的文本长度较短、用语不规范等特点,使得传统主题演化分析方法面临以下四个问题:(1)难以对高冗余、高噪音的海量短文本流进行有效管理,存储和挖掘时空开销较大;(2)现有短文本主题建模聚合方法通常需要外部辅助信息,泛化能力较差;(3)由于短文本的长度有限,上下文特征非常稀疏,使得面向短文本的主题抽取效果不佳。(4)现有的主题演化分析方法主要针对新闻、网页这样的长文本,仅采用文本特征度量主题间的关联性。而短文本长度短,且文本特征不足,仅依靠文本特征很难准确度量主题间的关联关系。针对上述问题,本文构建了一个面向短文本数据流的主题演化分析统一框架,该框架试图分别从短文本数据流压缩采样、短文本聚类、主题抽取、主题演化分析等方面提出相应解决方案。本文的研究内容可概括为以下四点:(1)针对短文本数据流海量低质的问题,本文提出一个基于压缩感知的短文本数据流压缩采样框架。该框架首先通过基于香农熵的贪心算法实现高质量短文本采样,然后利用压缩感知理论框架对短文本数据流压缩,最后利用冗余字典实现短文本数据流的还原。同时,本文提出了一个基于MapReduce的并行化算法以提高短文本数据流压缩采样效率。在大规模短文本数据集上的实验结果表明本文所提出的方法在运行时间、压缩比等评估指标上要优于基线方法,并能直接用于短文本分析任务。(2)针对现有短文本主题建模聚合方法泛化能力较差的问题,本文提出一种基于词向量的短文本聚类方法。该方法首先提出一种新的短文本相似性度量方法,该方法能够将短文本距离分解成词之间的稀疏距离,从而获得语义相关的词对。然后本文基于K‐medoids算法提出K‐same聚类算法,在文本聚类的同时实现聚类中每类短文本数量相同,从而进一步缓解稀疏性问题,为高质量主题抽取奠定基础。实验结果表明本文所提出的方法是一种解决短文本主题抽取稀疏性问题的通用方法。(3)针对短文本信息稀疏,传统主题模型在短文本上效果不佳的问题,本文提出一种新的主题模型,该模型首先利用全局语义关联提高语义相关词分配至同一主题的概率,然后利用局部语义关联去除噪声词,从而有效提高主题模型在短文本上的主题一致性。在两个真实短文本数据集上的实验结果表明,本文所提出的模型在主题一致性和文本分类准确率等评估指标上要优于其他模型。(4)针对现有主题演化分析方法缺乏主题间的关联分析、可解释差等问题,本文提出一种新的主题演化模型OCCTM,该模型首先将短文本划入到其对应的时间窗,然后同时挖掘出每个时间窗中的高质量主题及主题间的关联关系。最后,通过KL散度衡量不同时间窗主题之间的演化关系,从而自动生成主题演化图谱。在真实短文本数据集上的实验结果表明OCCTM生成主题的质量要优于目前最优模型,以及OCCTM模型生成的主题演化图谱可以帮助公众快速了解热点事件的演化过程和核心主题与子主题间的关联关系。