面向海量微信数据的话题挖掘算法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:buzi899
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微信数据作为一种新的社交媒体有着非常迅猛的发展速度,而且据最新的统计显示截止到2015年微信每日活跃账户已经超过一亿了。目前基于微信公共号的订阅模式的信息分发方式已经成为了普遍网民获取信息的重要方式。杂乱无章的信息常常给人们快速获取信息造成困扰,如果能够将信息进行归类总结,将有效提升人们获取信息的效率。因此快速地将海量的微信数据中包含的话题及其详细信息呈献给用户逐渐成为学术界和工业界关注的热点问题。  海量微信数据不但包含丰富多样的话题信息,在同一话题内部的文章也会呈现各自不同的侧重点。如有关习近平的文章,有一部分是有关股市的,有一部分是关于反腐的,有一部分是有关南海问题的。这些有关习近平的文章,被准确高效地聚集到了同一个话题的同时,其内部仍然各有侧重,需要更为精细的分析。  我们发现微信数据具有如下几个鲜明的特性:1)公众号发布的信息常常具有鲜明的主题倾向性;2)专题信息的最新发展动态在微信圈中不断传播演化,逐渐变得丰富复杂,呈现出鲜明的结构特性;3)信息通过转发传播提升热度的同时,也增加了信息的冗余度。这些特性为海量微信数据上的话题分析带来便利的同时,也带来了挑战。主要体现在1)如何向海量微信数据快速高效地引入话题结构;2)如何快速有效地深入分析专题内部的子话题结构,为用户提供更为详实的专题深度分析;3)如何消除子话题之间的信息冗余,为用户呈现泾渭分明的专题内部信息。  针对如何在海量杂乱无章的微信文章中快速挖掘话题信息,本文结合微信数据本身的特点和舆情系统中话题类别信息相对固定的特点提出了一种基于微信公众号的先验知识的快速话题分析方法。文章分析了微信公众号发表文章的两大属性,并且充分的利用这两个属性帮助进行挖掘文章的主题信息,这种充分利用微信公众号自身的属性的主题分析算法可以使得主题挖掘更加快速准确。  为了进一步深入分析话题内部结构,从话题内部子话题之间的复杂关联中,将子话题区分开来,本文提出了去背景化的LDA子话题模型,这种方法是基于LDA主题模型的一种改进,它能够对专题文章进行更深入的分析,抽取出有差异化的子话题结构,先抽取所有文档的公共背景,在迭代的过程中重新考虑每个词的产生方式,它有可能来自公共的背景知识,也可能来自子话题主题模型。为了能够更加快速的挖掘子话题,本文设计并且实现了该算法的并行化,极大地提高了算法的运行速度。  针对子话题关键词词组之间重合度较高的问题,本文提出了专门用于子话题关键词词组抽取的算法,这种算法的目标是抽取差异化的子话题关键词词组,同时确保关键词词组能够比较契合的表达该主题的信息。文章结合上面的的两个目标提出了新的评价指标,实验分析了文章提出的关键词抽取算法的有效性。  最后总结本文的工作主要有以下三个方面:  (1)本文结合微信数据本身的特点和舆情系统中话题类别信息相对固定的特点提出了一种基于微信公众号的先验知识的快速话题分析方法,这种方法可以快速的在海量的微信数据中挖掘主题信息。  (2)本文提出了背景化的LDA子话题分析模型,这种模型非常适用于专题文章的子话题分析,与原始的LDA相比,使用背景化的LDA子话题模型能够更加准确的分析出专题文章内部的不同子话题之间的信息差异,并且实现了该算法的并行化。  (3)本文也设计并且实现了抽取差异化的子话题关键词词组的关键词词组抽取算法,并且通过实验证明了该算法的有效性。
其他文献
随着近年来国家对应急通信技术的深入关注,相关的应急预案以及行业标准已经逐渐制定成型。隶属于工业与信息化部的中国通信标准协会基于国务院发布的《国家突发公共事件总体
视觉作为人类的主要的感知机能之一,对人类感知世界的重要性不言而喻。计算机视觉的任务就是为计算机赋予接近甚至超过人类视觉的感知能力。图像作为计算机视觉任务的主要输入
网页木马(drive-by download)已经成为互联网用户面临的最严重的安全威胁之一,基于Internet网页爬取的主动方式的网页木马监测服务则成为一种重要的反制手段。由于包含网页木
从最初基于手工作坊式到实现大规模异构、分布的软件生产过程中,越来越多的人认为提高软件生产效率和产品质量的核心在于软件过程管理。因此学术界涌现出了大量关于软件过程
学位
蛋白质组学是指在大规模水平上研究蛋白质的特征,包括蛋白质的表达水平、翻译后修饰、相互作用等,并由此获得蛋白质水平上关于疾病发生、细胞代谢等过程的全面认识。目前,蛋白质
学位
近年来,随着Web2.0的飞速发展,社区问答系统逐渐成为一种非常流行而实用的互联网应用。与传统问答系统不同的是,在社区问答系统中,用户不但可以提问和回答任何领域、任何类型的问
传统的网络体系架构主要是建立在昂贵的专有硬件和封闭软件的基础之上。这种体系结构,严重地阻碍了网络新协议、新技术的发展和应用,因而妨碍了网络的变革和创新。在这样的背
该文运用对象建模技术,在客户/服务器应用平台上,设计并实现了二医院信息系统的基本原型.