微博突发话题检测、跟踪与传播预测技术研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:songsiliang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅猛发展,网络在人们的生活中扮演着越来越重的地位,其用户数量也越来越多,如何从繁杂的网络信息中获取用户感兴趣的信息,成为数据挖掘领域的一大难题。研究发现,当前突发话题检测技术无法发现由新词组成的突发话题,导致突发检测不准确;当前话题跟踪技术不适合由短文本组成的微博网络;当前话题传播与预测尚处于初级阶段,基于微博话题无法准确的预测下个时间段的传播规模。基于以上发现,本文在已有研究的基础上,重点分析基于微博的突发话题检测、跟踪与传播预测技术。提出三个问题的解决方案如下:鉴于微博网络的用语灵活性,提出基于特征字的突发话题检测与跟踪算法,旨在快速的检测微博中由新词组成的突发话题。提出基于微博消息权重的特征字权重计算方法,提高特征字权重的准确度;定义“微博数窗口”,代替当前的“时间窗口”,提高检测系统的效率和检测大规模突发的速度;提出基于相似度和文档重叠度相结合的关联度计算算法,既保证了关联度计算的准确率,同时加快了计算速度;提出一种由突发检测算法演化来的话题跟踪算法,解决微博中漂移话题的跟踪问题。通过对病毒传染模型、消息传播模型以及话题传播模型进行深入的研究,提出一种基于微博粉丝关系、用户活跃度和影响力的话题传播模型。将微博用户集合划分为感染用户、易染用户和免疫用户三个部分,传播的影响因素主要有三个:感染用户对其粉丝的感染度,易染用户的活跃度和突发话题本身的突发性。然后通过分析感染用户和易染用户之间的粉丝关系,预测下个窗口内的被感染的用户规模。另外,本文沿用原有话题传播的“内外场强”概念,通过研究发现“内场强”和“外场强”有特定的比例关系。基于用户群的规模大小,本文给出基于用户的话题传播预测和基于规模的话题传播预测,前者结果更准确但是时间复杂度高,后者则更适合大规模数据。综上所述,本文主要根据文本的内容进行突发话题的检测与跟踪,针对现有突发检测算法无法发现有新词组成的突发话题,提出基于特征字话题检测与跟踪的研究思想。在话题传播预测中,充分考虑微博传播的线路和概率性,并结合病毒传播模型,给出基于用户的话题传播预测和基于规模的话题传播预测。通过实验验证了本文所提检测跟踪算法和预测模型,为突发话题检测与跟踪以及话题传播预测研究提供了一些新的想法,最后本文给出了系统的整体框架和对该领域的前景展望。
其他文献
语言是文化的载体。词汇联想意义的概念即可印证这一结论,因为从广义的角度而言,词汇的联想意义正是在表达一种文化层面上的言外之意。也正因如此,如何定义“文化”这一拥有着9
患者女,82岁,因上腹部胀痛纳差2月余于2009年6月入丹江口市汉江医院内二科诊疗,既往无腹部手术及外伤史。入院时查体腹部稍膨隆,未闻及明显移动性浊音,浅表淋巴结未触及肿大,
期刊
《斜阳》是日本战败后第二年,也就是昭和二十二年,连载于七月到十月的《新潮》杂志上的作品,讲述的是以一个生存在战败后混乱的日本社会的三十岁左右的贵族女子为中心的故事。《
传统文化是人类文化重要的组成部分,体现了一个民族乃至一个国家独特的文化特征。然而在国际范围内,尚未建立传统文化的知识产权保护机制,传统文化知识产权保护意识的薄弱,以及法
<正>拜读了《岩土工程学报》2008年第3期"边坡稳定性分析条分法最小解研究"一文[1](以下简称原文),发现文中的一些观点与结论值得商榷,提出来向原文作者请教,失礼之处,还望海
目的评价白介素-10(IL-10)和转化生长因子-β(TGF-β)抑制退变椎间盘细胞释放炎症因子的有效性,探索细胞因子抑制退变椎间盘细胞释放炎症因子的潜在生物学机制。方法建立6条1
刑事司法改革是近些年司法改革的热点,审判人员在刑事司法实践中对于庭审模式的革新和创造更是获得了社会的普遍关注。2010年10月29日上午,河南省平顶山市中级人民法院,不公开开
随着网络游戏产业的不断发展进步,网络世界里也产生了在法律上尚属空白的新问题,虚拟财产就是其中之一。在现实社会中,网络游戏玩家在游戏中积累的虚拟道具和货币等虚拟财产也越
目的:探讨原发性胆汁性肝硬化(PBC)患者出现的抗线粒体抗体(AMA)亚型与PBC患者肝功能、免疫检查的相关性.方法:应用间接免疫荧光法检测47例PBC患者血清中AMA抗体,用免疫印迹法检测A
茸鹿养殖业是国民经济的重要组成部分,具有重要的经济、社会与生态效益。中国茸鹿养殖以梅花鹿为主,较低的生产性能已成为制约中国鹿业发展的瓶颈。经济杂交作为增加动物养殖效