基于主题模型的社交媒体主题挖掘和文献影响力预测分析

来源 :西南大学 | 被引量 : 0次 | 上传用户:guojinhong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web2.0和互联网技术成熟与进步促使用户产生内容逐渐成为用户使用互联网的全新方式。用户作为互联网资源的使用者,同时也作为互联网资源的创造者,让人与互联网的交互模式得到升华。人们倾向于在网络平台分享原创的个性化的建议,意见领袖、专家等也乐于分享专业的内容,为相关领域贡献智慧。比如,普通用户通常在Twitter等社交媒体平台分享自己的生活,专家将科研文献发布于学术平台供学习和阅读。这两者的内容是都是文本,但是在文本挖掘方法和应用探索方面却大相径庭。面临的研究挑战都是如何从海量数据高效准确找到不同的用户所需要的信息。本文的主要工作是利用主题模型进行社交媒体短文本主题挖掘和文献的未来影响力预测研究。主题模型的主要思想是借助于文本内容的潜在主题,挖掘出文档与主题,以及主题与单词之间的关系,或者利用两者之间的关系来指导模型的结果。基于不同的场景构造合适的主题模型可以实现不同的目的。过去的方法中,由于Twitter文本长度短、稀疏,用语不规范等特征导致传统的LDA,PLSA对这种文本环境无法进行有效的主题分析。值得一提的是,相比传统的基于引用统计的方法进行文献影响力评估方法而言,本文引入主题模型的语义分析方法应用于文献未来影响力预测是新颖并且具有挑战的想法。针对传统方法的不足、不同应用场景的特殊性以及主题模型的对文本挖掘的效果。本文重点进行了以下两个研究:(1)基于社交媒体短文本的主题挖掘分析(2)基于主语义分析的文献影响力预测。本文分别以社交媒体短文本,文献长文本为基础,分别用Twitter中的时间和标签属性来改进和扩展LDA模型,通过读文献进行特征词/词组的定义,将文章的创新型与LDA分析出的重要性结合起来进行影响力预测研究。为了研究社交媒体的短文本环境下主题挖掘情况,本文提出了新的主题模型HTTM,该模型先后利用Twitter消息(推文)中时间和标签信息为传统的LDA增加了新的“标签-时间”层次来提高主题的表达性,推文聚类效果以及主题在时间序列下的演化效果。最后的实验效果证明了HTTM模型在以上几个方面的有效性。针对文献影响力预测研究,本文提出了一个TTRM模型来预测文献的未来影响力。该模型以文章特征词/词对为链接,分别将文献发表的时间和文章本身内容将进行创新性和重要性建模。其中对于重要性建模过程中创新地使用了主题模型的方法,分析文章在当前文献集中的重要程度。试验中,使用文献数据集,证实了TTRM模型在文献排序和影响力预测拟合上的有效性。实验中对比使用了基于引用的PageRank模型,和以TF-IDF作为文章重要性建模方法的MRR-ranking模型,TTRM在文献排名和文献影响力预测方面都有一定的优势。并且证明了我们的假设,即文献内容中某些词对于文章创新性具有贡献作用,和发现新文献具有一定的作用。
其他文献
视频跟踪是计算机视觉领域的一个重要研究方向,它融合了模式识别、图像处理、图像表征和计算机应用等相关领域的研究成果和先进技术,在智能监控、交通管制、人工交互、军事精
伴随当前三维快速原型技术的飞速发展及商业化,大量数字模型通过三维打印等技术完成实体化并被投入商业应用中,从而也带来了模型管理以及版权保护的需求。传统水印算法面向数字
近年来,数据密集型计算越来越得到相关学者的关注。数据密集型计算环境下的数据具有海量、高速变化、分布、异构、半结构化或非结构化的特点,传统的数据挖掘算法已经不能满足
当用户面对经过本体标注过的大量实例时,如何快速的挖掘出对用户有用的信息仍是研究人员迫切需要解决的问题。聚类作为一种无监督的分类方法是对大量实例数据处理的重要手段,但
随着科技的进步和社会的发展,机器人技术成为当今世界备受关注的前沿课题。与此同时,随着人类在非规整复杂地形的各种活动增多,以及对具有潜在危险区域或者人员无法进入区域
随着对算法运算速度要求的提高,一些用软件实现的算法已满足不了实时性的要求。因此,充分利用硬件电路的并行性和快速运行的特点,实现算法硬化,成为算法研究的一个新方面。本文工
随着互联网的迅猛发展,信息正在以指数形式飞速增长。通过互联网人们可以轻而易举地获取大量的信息,从而对自己的行为起着非常重要的指引作用。短文本是互联网中一种非常重要
随着二维条码技术的不断发展,不同于传统“图形”二维条码,出现了一种“文本”形式的新型字符二维条码。本文在对传统二维条码编码技术进行研究的基础上,对字符二维条码的编
关键词是指文档中具有专指性且能够反映文档主题的词语或短语。采用自动化技术从文档中抽取出关键词的过程称为关键词自动抽取。关键词自动抽取是文本自动处理中分类、检索和
随着社会生活节奏的加快和物质的极大丰富,人们对饮食质量的要求日趋提高,进餐者想要找到满意的食品难度越来越大。目前,大多数的配餐系统都是服务于特定的人群,且大部分都是基于