论文部分内容阅读
微信数据作为一种新的社交媒体有着非常迅猛的发展速度,而且据最新的统计显示截止到2015年微信每日活跃账户已经超过一亿了。目前基于微信公共号的订阅模式的信息分发方式已经成为了普遍网民获取信息的重要方式。杂乱无章的信息常常给人们快速获取信息造成困扰,如果能够将信息进行归类总结,将有效提升人们获取信息的效率。因此快速地将海量的微信数据中包含的话题及其详细信息呈献给用户逐渐成为学术界和工业界关注的热点问题。 海量微信数据不但包含丰富多样的话题信息,在同一话题内部的文章也会呈现各自不同的侧重点。如有关习近平的文章,有一部分是有关股市的,有一部分是关于反腐的,有一部分是有关南海问题的。这些有关习近平的文章,被准确高效地聚集到了同一个话题的同时,其内部仍然各有侧重,需要更为精细的分析。 我们发现微信数据具有如下几个鲜明的特性:1)公众号发布的信息常常具有鲜明的主题倾向性;2)专题信息的最新发展动态在微信圈中不断传播演化,逐渐变得丰富复杂,呈现出鲜明的结构特性;3)信息通过转发传播提升热度的同时,也增加了信息的冗余度。这些特性为海量微信数据上的话题分析带来便利的同时,也带来了挑战。主要体现在1)如何向海量微信数据快速高效地引入话题结构;2)如何快速有效地深入分析专题内部的子话题结构,为用户提供更为详实的专题深度分析;3)如何消除子话题之间的信息冗余,为用户呈现泾渭分明的专题内部信息。 针对如何在海量杂乱无章的微信文章中快速挖掘话题信息,本文结合微信数据本身的特点和舆情系统中话题类别信息相对固定的特点提出了一种基于微信公众号的先验知识的快速话题分析方法。文章分析了微信公众号发表文章的两大属性,并且充分的利用这两个属性帮助进行挖掘文章的主题信息,这种充分利用微信公众号自身的属性的主题分析算法可以使得主题挖掘更加快速准确。 为了进一步深入分析话题内部结构,从话题内部子话题之间的复杂关联中,将子话题区分开来,本文提出了去背景化的LDA子话题模型,这种方法是基于LDA主题模型的一种改进,它能够对专题文章进行更深入的分析,抽取出有差异化的子话题结构,先抽取所有文档的公共背景,在迭代的过程中重新考虑每个词的产生方式,它有可能来自公共的背景知识,也可能来自子话题主题模型。为了能够更加快速的挖掘子话题,本文设计并且实现了该算法的并行化,极大地提高了算法的运行速度。 针对子话题关键词词组之间重合度较高的问题,本文提出了专门用于子话题关键词词组抽取的算法,这种算法的目标是抽取差异化的子话题关键词词组,同时确保关键词词组能够比较契合的表达该主题的信息。文章结合上面的的两个目标提出了新的评价指标,实验分析了文章提出的关键词抽取算法的有效性。 最后总结本文的工作主要有以下三个方面: (1)本文结合微信数据本身的特点和舆情系统中话题类别信息相对固定的特点提出了一种基于微信公众号的先验知识的快速话题分析方法,这种方法可以快速的在海量的微信数据中挖掘主题信息。 (2)本文提出了背景化的LDA子话题分析模型,这种模型非常适用于专题文章的子话题分析,与原始的LDA相比,使用背景化的LDA子话题模型能够更加准确的分析出专题文章内部的不同子话题之间的信息差异,并且实现了该算法的并行化。 (3)本文也设计并且实现了抽取差异化的子话题关键词词组的关键词词组抽取算法,并且通过实验证明了该算法的有效性。