基于主动学习的微博流行度预测方法

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:hobbycui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博的出现进一步推动了社交网络的发展。微博拥有大量的用户,这些用户通过微博进行信息共享,与其他用户沟通交流,使其成为信息传播的重要途经之一。微博平台每天产生大量的信息,通过微博进行消息的传播与共享,给人们带来便利的同时也有很多挑战。因此,微博等社交网络流行度预测也备受广大学者关注。能够及时准确的预测微博流行度,对于个性化的消息推荐,突发新闻检测和舆情分析等有重要意义。首先,针对传统的基于SVM的主动学习方法选择距离超平面最近的那些样本点,仅考虑了样本的不确定性,致使查询出的未标注样本集存在冗余性和异常值问题,本文提出一种基于SVM的主动学习方法。该方法不仅仅考虑那些不确定的未标注样本,还考虑多样性和代表性,并通过实验验证其在收敛速度、数据标注量以及准确率曲线稳定性等性能优势。其次,针对以往在研究影响微博流行度的相关因素中,忽略了部分对微博发布一小时内的转发结构相关特征和时间特征。本文新增加了基于一小时转发用户建立结构图中的弱关系用户的比例、平均深度、Wiener指数、Randi′c指数及时间特征对微博流行度预测的影响。通过微博数据集进行实验,验证了通过综合考虑这些特征,有效提高了微博流行度的预测性能。最后,针对传统的基于机器学习的微博流行度预测方法中,存在需要大量标注数据作为训练集,在实际应用往往获得大量标注数据成本高,而获取大量未标注数据容易的问题,本文提出基于主动学习的微博流行度预测方法。该方法在少量标注数据和大量未标注数据的前提下,结合发布者的用户特征、微博内容特征、一小时内的转发结构特征以及时间特征,利用提出的一种基于SVM的主动学习方法进行模型训练,预测微博的流行度。通过实验验证了该方法不仅减少标注成本,也提高模型预测效果,表现出良好的性能。
其他文献
处在社会转型阶段的今天,企业突发危机事件层出不穷。在移动互联网和新媒体的加速传播下,企业突发负面事件影响大,持续时间长。在舆论的发酵下,对企业产生不可估量的负面影响
第一部分 多孔氧化铁体纳米颗粒合成及体内、外MRI成像研究目的:合成并表征多孔氧化铁(Porous iron oxide),磁共振成像验证多孔氧化铁体外T2WI序列增强效果。建立小鼠原位胶质瘤模型,检测多孔氧化铁介导的体内胶质瘤T2WI增强效果。方法:采用化学合成法制备多孔氧化铁,透射电镜及扫描电镜证明其多孔及中空结构,利用高场强磁共振进行不同浓度梯度多孔氧化铁T2WI成像证明其增强效果。立体定位
属性级情感分析旨在从非结构化的文本中分析出人们对属性术语的情感倾向。目前该任务主要有三个研究问题:属性术语抽取、属性级情感分类和属性情感联合抽取。本文主要研究后
有机朗肯循环(ORC)可以高效的利用广泛存在的中低温热源,现有关于R134a的水平流动沸腾研究多集中于制冷系统适用的低压力区间,缺少ORC运行工况较高蒸发压力换热的基础实验数据
放射治疗是治疗恶性肿瘤的重要手段,但不少病人可出现不同程度的放射性皮炎,重者皮肤表皮脱落、溃破、水肿、渗液甚至继发感染。主要是由于基底层内的前体细胞不能再产生新细
自从第三次科技革命以来,技术的发展使得大量的电力电子装置开始在工业、交通、生活中广泛使用,在惠及人类社会各个方面的同时,大量电力电子装置的应用也产生了大量的谐波,严
图像是高维数据,本身蕴含了大量复杂的信息和特征,如何有效从高维复杂图像数据中挖掘内在规律并进行高效的分析识别,一直是计算机科学领域面临的基本问题。近年来提出的稀疏
微电网作为综合消纳分布式可再生能源有效形态,在能源转型的大趋势下正迎来广阔的发展前景。同时,信息物理融合技术以及先进控制技术正推动微电网朝多形态重塑与发展以丰富其
目前,风电在中国发展迅速,装机容量不断翻番。如何评价风电场的生产管理水平,需要有一套客观而权威的指标体系。本文通过研究介绍了目前行业、集团公司指标管理和激励的现状,
会议
随着乡村振兴战略与“双创”战略的深入推进,返乡创业的农民工数量也在逐步上升。农民工返乡创业不仅有利于增加自身收入,提升物质生活水平,而且也有利于推动农村地区经济发