基于特征筛选的微博转发行为研究

来源 :桂林电子科技大学 | 被引量 : 0次 | 上传用户:shijiatiedaoxueyuan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社交平台和移动互联网的普及,微博逐渐成为人们分享和获取信息的主流平台之一。特别是近年来国内外重大事件,大量一手资讯都先出现在微博网络。微博网络内信息能够快速传播是其在信息传播方面的主要优势,而其中信息得到快速传播的主要方式就是依靠微博用户的转发行为。因此,对于微博网络转发行为的研究具有重要研究价值和实际意义。本文主要进行了微博转发行为预测和转发规模预测的相关研究。  本文使用基于爬虫模拟登录的数据采集方式爬取大约84万条微博信息。在特征提取方面,扩展出了用户活跃度和博文影响力特征。针对微博文本短、词语相关性难以挖掘的问题,通过加入作者主题分布和对转发微博的处理来改进标准LDA模型在短文本处理上的缺陷。针对数据集中存在本身与预测无关的特征以及冗余特征,本文采用混合选择的方式,首先剔除无关特征或噪声特征,使后续特征搜索规模得到有效缩减,然后将选取后的特征通过封装方法继续进行优化选取。即使用改进的奇异值分解(Singular Value Decomposition)实现数据降维去噪后,根据随机森林算法(Random Forest)本身的变量重要程度对特征排序,其中使用分类准确率作为特征可分性判据,利用可回溯的贪婪搜索扩张,最好优先原则选取特征子集。  通过实验研究发现,微博转发规模较大用户在全部用户中占比很低,即微博的转发规模总是存在幂律分布。由于微博的转发量的不平衡性会导致某些模型为了在训练时得到更小的损失函数而偏向于预测较小的值。针对该问题,提出了两阶段模型。在第一阶段,使用不易过拟合的随机森林算法来预测微博是否会被转发,根据预测结果剔除数据集中大量不被转发的微博数据。第二阶段对上述已剔除转发量为零的数据集训练随机森林算法来预测转发规模。这样就能有效降低数据不平衡的影响。实验结果符合预期,在验证了特征筛选的有效和必要性的同时,验证了两阶段模型的有效性。
其他文献
三维重建技术是目前视觉研究的热点之一,它是对三维物体或者场景图像描述的一个逆过程。即从若干幅的图像序列中计算出物体场景的三维深度信息,然后再通过二维的图像恢复出来三
气象数据的可视化分析可以帮助气象科学家研究气候变化,预测天气变化。对于普通用户,直观的天气信息可视化可以帮助他们了解天气状况,做出有效的决策。现有软件气象可视化软
随着互联网技术、传感器技术、嵌入式技术、通信技术的快速发展,物联网越来越受到工业界和学术界的关注,数字家居、智慧楼宇、精准农业、智能交通、数字医疗等项目也被广泛提
油脂是人体不可或缺的营养要素,其色泽是油脂质检中比较重要的一项指标,油脂色泽的检测对提高油脂质量起着举足轻重的作用。近年来,对油脂颜色测量的方法有很多,包括目视法、分光光度法、光电积分法等,但是基于自动化和检测成本来考虑,设计一款能够实现自动化、测量准确、价格低廉的油脂颜色测量仪是非常有必要的。本课题首先针对罗维朋目视比色计操作繁琐、劳动强度大,存在人为误差,进口比色计价格昂贵等问题,提出课题需要
在线购物已经成为日常生活中一种基本的消费模式。在此环境下,网络评论由于包含已有用户对现有商品所持的观点,因而能够为其他潜在的客户在确定购买决策时提供重要的参考价值。
现存的分布式网络安全系统中,使用入侵检测系统与防火墙联动机制能有效阻止黑客攻击,但是随着网络病毒攻击和黑客攻击方式的“集成化”,现存的网络安全系统暴露出严重的安全问题
分类是数据挖掘和机器学习领域中的重要技术,已有分类算法大多通过重复计算数据集来提高分类准确率,然而这是以降低计算效率为代价的。为了在提高分类准确率的同时降低计算代价
数字浮水印的出现使原创图像、音视频等信息的保护更加便捷。基于人类视觉系统(HVS)的浮水印既能满足浮水印强健度的需求,又能保证优秀的图像质量,因此被广泛应用。恰可察觉失
随着网络通信量的急剧增长,传统IP网络的传输方式已经不能满足通信要求。为了解决IP网中的问题,提出了下一代通信网络技术。向量网结合现有网络技术和下一代网络通信技术提出
快速计票系统作为一种将纸质评选票与数字图像处理技术完美结合的新型计票方案,可以有效解决传统人工计票方式正确率低、时效性差等问题。然而,基于传统软件开发方式的快速计