基于微博关系结构的主题挖掘算法研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:Rita519
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博是微型博客的简称,推特作为全世界最具有代表性的微博平台,对它的挖掘研究近年来一直是热点。本文主要研究方向是推特平台的推文主题挖掘研究,不涉及中文微博平台。在当前使用传统的文本挖掘方法对推文进行主题挖掘面临着许多问题,例如推文的长度较短,文本数量大,基于词频的挖掘算法并不十分有效,推文中经常存在一义多词和一词多义的现象。而且在以推特为代表的微博平台中,包含着非常明显的关系结构特征,传统算法没有涉及。为了解决以上存在的难点,本文首先研究了多种文本挖掘算法,在各个方面分析了各类算法在微博主题挖掘中的优缺点,寻找适用于微博的主题挖掘算法。其次分析了推特中存在的关系模式,本文提出了一种推文层次关系结构,结构中的低层次的推文主题对高层次的推文具有依赖性,这使得推文的主题分配拥有一定的规律。本文基于推特的关系结构对LDA模型进行了优化,提出了新的ReLDA模型,在ReLDA中加入关系结构对主题分配的影响,主动的调整了引用和回复两种类型推文的主题分配方式,使模型适用于推特的文本主题挖掘。ReLDA模型在理论上使用了概率语言模型的思想,降低了主题和词项对词频的依赖度,在概率分配上解决了一词多义和一义多词的难点。根据ReLDA模型,本文对吉布斯抽样算法进行了改进,根据ReLDA模型中关系结构对推文主题分配的影响,在算法中主动的调整全局统计量,使算法的主题-词项分布和推文-主题分布结果均得到了优化,实验的结果证明了算法的性能和准确度均得到了一定的提升。最后为了加强算法的实用性,在挖掘算法的应用性方面做出了研究,基于数据可视化和软件工程思想,设计和实现了微博主题挖掘原型系统。系统包含了数据挖掘和数据展示两大模块,使用相关过滤策略对热门推文和突发推文进行了发现,对微博的主题和相关内容进行了展示。在原型系统的设计中,本文采取了一系列的可视化策略,使用图表工具表现了主题词及其概率的变化。
其他文献
目的溃疡性结肠炎(ulcerative colitis,UC)是一种慢性非特异性炎症性肠病,主要局限于黏膜及黏膜下层。近20年来,我国的UC发病率逐渐升高,目前已成为我国消化系统常见病。该病治愈难度大、复发率高、预后差,为终身性疾病,具有致残性,为现代难治性疾病,也是中医药在消化胃肠疾病领域研究的热点和难点。本研究以雄性SD大鼠为研究对象,观察不同剂量温清溃结饮对葡聚糖硫酸钠(dextran Su
食管癌是我国最常见的恶性肿瘤之一,死亡率在我国恶性肿瘤中位居第四,严重危害了我国人民的身体健康。因此,对食管癌发病机制的深入研究,探索有效的预防措施以及抗肿瘤治疗的新途
介绍了"大型客机外部噪声预计软件"的系统构成,在5种声源噪声计算模型的基础上,可以完成风扇噪声、燃烧噪声、涡轮噪声、喷流噪声以及飞机机体的噪声预计,结合ARJ21-700发动
分汉河道的江心洲演变过程受到上游来水来沙条件和人类活动影响。随着河流上游修建梯级水库及水利枢纽,拦截大量泥沙,使得枢纽下游的水沙条件发生了剧烈变化,中下游的河床及
完成文献检索、文献评价及文献总结,3轮专家问卷调查,专家论证会,专家质量方法学评价和临床一致性评价,形成《中医儿科临床诊疗指南·小儿汗证》制订稿,提出小儿汗证诊疗指南
"整本书阅读与研讨"是2017版课标的第一个学习任务群。文章从该学习任务群的实施与操作层面提出任务与活动设计需注意的两个要点:因类定教和以研带读。主要以2017版课标规定
森林火灾是森林生态系统的重要干扰因素之一,是驱动森林生态系统碳循环的重要生态因子之一。本研究选择在帽儿山实验林场次生林中度火烧迹地设置样地,并于临近未过火区域设置
据《简氏导弹和火箭》2013年11月6日报道,作为包括AGM-84L捕鲸叉II空射反舰导弹及GBU-39/B小直径炸弹(SDB)在内的大额防务订单的一部分,沙特、阿联酋两国正向美国请求购买其A
目的:对我院1例甲巯咪唑致甲亢患者严重粒细胞缺乏症及肝功能损害的诊治进行分析总结。方法:停用抗甲亢药物甲巯咪唑,及时给予升白细胞药物、保肝药物、激素等综合措施,病情稳
<正>食管癌是消化道常见肿瘤之一,其术后禁食及高分解状况易导致患者出现营养不良,进而机体免疫力下降,增加伤口感染和并发症的发生率[1]。早期营养支持是消化道肿瘤患者术后