基于用户兴趣特征的微博信息传播预测方法研究

来源 :辽宁工业大学 | 被引量 : 0次 | 上传用户:superyoumyhao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博是一种基于相关关系、信息共享、传播和注册用户获取信息的移动信息平台。微博传播的速度和形式与电视新闻、报纸等传统的媒介传播方式都大不相同,微博更为简单、迅速、快捷、清晰地表述了事件的整个过程。截至2019年3月,微博活跃注册用户已远比同季度社交网络平台用户多。转发微博是信息在微博传播的主要途径之一。对微博转发进行预测在信息推荐、广告信息精准投放、突发事件预警等方向有重大作用。针对基于用户兴趣特征的文本分类问题应用TF-IDF算法融合LDA主题模型的方法来解决,TF-IDF算法用来提取一篇文章或者文本中单词的重要程度,将不重要的单词加入到停用词中。在一篇文章或文本中一些不重要的但是出现次数特别多的词汇比如“的、地”等这些词会直接影响对词的分析,通过IDF算法在语料库中出现次数虽然非常多但是会使词语重要度降低。TF的值越大代表在文章中该词出现频率越大,证明词越能代表文章主旨,IDF值越小说明在待研究语料库中总个数越少,证明词越重要以此筛选出真正的高频并且能代表文章主旨的词。本文将应用TF-IDF算法融合LDA主题模型。用TF-IDF算法提取的停用词融入到LDA主题判定模型中来提取单词序列。这样可以确保在词语矩阵中提取出的主题可以准确的代表整篇文章。针对提高微博转发准确率问题提出了融合用户兴趣特征的在线被动攻击算法(PA算法)来解决,在线被动攻击算法用来研究在线数据,以往的研究认为用户的兴趣是固定的,不变化的,实际上用户的兴趣在一定时间内会发生改变的。本文改进传统的PA算法加入用户的兴趣变化,多因素分析用户是否对微博进行转发。PA算法认为微博信息以及用户兴趣是个连续、变化的序列,每个序列中信息是否被转发需要预测,在预测结束后,用户是否会转发的结果会出现,算法会出现瞬时损失率来反映预测的失误率,并利用待研究的新属性以及待研究数据,对已采用的规则进行更新,利用新规则进行新的分析。预测算法是在预测模型中输入微博兴趣特征,用户属性包括用户关注数、微博数等和微博属性包括发布时间、博文内容,将PA算法初始化,用融合兴趣特征的改进在线被动攻击算法进行训练用来调整权重使得微博转发预测准确率达到最高。实验数据为例,利用Python爬取新华视点博主发布的即时新闻为后续实验提供数据。本文通过爬取此微博博主在2019.1.1-2019.3.25近三个月的微博以及其600万注册粉丝的近三个月微博新闻信息为依据。由于微博数据过于庞大且存在很多无意义的微博用户,需要尽量去除掉那些具有水军可能性的微博粉丝数低于50的部分用户。本文主要研究互动率排名靠前以及会对转发内容进行二次影响的用户即转发的微博对该博主的粉丝看见并转发。
其他文献
由于化石能源的污染性以及不可再生性,新能源发电受到了巨大的关注。风能来源广泛,资源丰富,工程技术成熟,因此得到了迅速发展。但由于风力具有间歇性和波动性,给电网的稳定
随着我国城镇化的不断推进,城乡二元矛盾日益深化,为解决城乡二元结构下乡村发展的一系列问题,党的十九大报告提出了乡村振兴战略。乡村建设作为乡村振兴的重要内容,受到了社
近年来我国特大城市超大型医院的建设浪潮引起了社会关注,紧缩的院区用地与激增的就诊交通量,使得医院外部交通组织过程浮现出诸多问题:与城市交通的割裂与冲突、院内交通空
本论文基于石墨烯制备方法的最新进展,通过液相剥离石墨制备石墨烯的创新设计和优化实验,成功制备出大面积的单/寡层石墨烯,研究了液相剥离机理、石墨烯及其复合材料的形态结
随着信息技术的进步,每天都有海量的数据被收集并存储下来,导致数据爆炸式增长。从海量数据中挖掘出有价值的额信息至关重要,聚类算法一直是数据挖掘中倍受关注的研究内容,改
社会组织在发展过程中始终受到社会组织政策的规范和引导。在相关政策的作用下,社会组织的价值逐渐得以凸显,并开始在社会各个领域发挥其影响力。党的十八大以来,我国社会组
近些年,船舶智能化已经成为全球航运的大趋势。船舶智能化主要体现在智能船体、智能机舱、智能航行、智能货物管理、智能能效管理和智能集成平台。船舶推进轴系是船舶动力系统的重要组成部分,如何智能识别和诊断船舶轴系的各种故障,是进行船舶轴系智能状态监测与智能故障诊断研究的关键。本文对基于支持向量机理论的故障诊断方法进行研究,针对惩罚因子C和核函数参数σ选取难度较大的问题,提出了改进的人工蜂群(IABC)算法
水力发电是将水能转变成电能再输送给用户。因频率和电压是衡量电能性能的主要指标,为了使电能品质得到保证,所以机组的转速必须保持在额定范围。水轮机调节系统不仅是高阶、
网络语言创新现象指的是在网络交际中产生、主要在网络交际中使用的,不同于一般日常交际已有现象的新语言现象,比如新兴的“被XX”结构。这些网络语言创新现象有的偏离汉语的
新媒体环境是以互联网第三代媒体为主要传播媒介,受众自主选择信息内容,具有个性化和互动性等特征。在互联网的推动下受众可以根据自己的兴趣进行信息筛选,自主选择接受。因