基于新浪新闻数据分析的新闻热度预测方法研究

来源 :中国地质大学(北京) | 被引量 : 0次 | 上传用户:chung51
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
我们身处在信息爆炸式增长的时代,有数据显示,截止到2018年6月,我国拥有的手机网民数量已经高达7.88亿人次,这个庞大的用户群体在新闻网站、微博、Facebook、微信等不同的社交平台上制造着大量的网络数据。目前针对新闻及其评论数据的研究比较少,缺乏量化分析。对于网络新闻而言,新闻评论是其传播、发酵的重要组成,从另外一个角度来说,与以往的传统媒体相比,网络媒体的传播深度和广度是极快极广泛的,容易形成民众热议的舆论事件,导致一些事件的解决难度增加,所以,提前发现可能成为热议事件的新闻可以帮助相关监管部门监测网络舆情的发展,避免网络暴力事件的发生,利于维护社会的安定。本文首先抓取了新浪新闻娱乐、科技、体育、财经、军事、收藏六个类别的116595条新闻数据以及对应的4926412条评论数据,对数据进行清洗并入库。针对不同类别的新闻,利用NumPy、Pandas、Matplotlib等工具分析了新闻评论的空间分布特征,包括新闻类别、参与讨论人数、新闻发布时间等因素,从时间上分析评论数据的产生过程得到其时间分布特征。接下来以评论数和点赞数加权之和作为新闻的热度值,从小时和周天两个维度再次分析了新闻发布时间与新闻热度的关系,为新闻热度预测做准备。最后对基本回归模型中的多元线性回归和K-近邻以及集成学习中的梯度提升决策树(GBDT)的原理分别进行了阐述,以新浪新闻数据为例对算法从模型构建到预测的过程作了简要说明。根据评论分布特点提取相关特征,采用线性回归、KNN、GBDT三种算法对新闻热度进行预测,结果表明GBDT的预测效果更好。为了提高新闻热度预测效果,把数据分为体育类数据和其他类数据采用GBDT分别训练并预测,提高了体育类新闻的热度预测准确率。同时为了提高模型整体的泛化性能,这里将线性回归、KNN以及GBDT三种算法作为基学习器,通过平均法策略做集成,实验结果表明,集成后的算法可以提高新闻热度预测效果,使模型的泛化性能更好。
其他文献
不断加强会展与相关服务业的互动,延伸产业链、培育市场主体、打造品牌展会上狠下功夫,构建对外开放交流合作高端平台,从"国际会议目的地城市、会展总部集聚区和节庆活动中心
分析了平流层电子设备内外部热环境,考虑平流层大气对流、设备内部自然对流、太阳直射辐射、大气辐射、地面反射太阳辐射、地球红外辐射以及设备自身辐射等因素的基础上,建立
近年来,化石燃料的大量开采和利用,导致大气中CO2的含量急剧上升,引起了很严重的环境问题。电催化还原CO2作为一种具有前景的固定和转换CO2的方法之一,在解决环境问题和能源
轴舵系的机械加工与安装是船舶制造生产过程中的重要组成部分之一。然而,整个流程或多或少会受到一些因素的影响,导致其出现质量问题,所以必须找到针对这些质量风险的应对措
乡村社区并不是一开始就出现的,它是人类发展到一定阶段的产物。相对于城市社区而言,乡村社区基础设施与服务设施等方面比较落后,但是乡村社区的资源具有得天独厚等特点,易于创造出儿童真实情感体验的情境。在芦洋村的地域文化基础上,进行一系列关于儿童游乐设施设计在这里落地。这不仅利于儿童游乐设施的改造,更有利于环境的提升,更是对未来乡村可持续发展的思考与实践。乡村地域文化元素给儿童提供了丰富的活动空间,是实施
随着科技的不断进步,网络技术在我国得到了长足的发展,被广泛应用到各个领域。在教育行业,信息技术与传统教学方式的结合对于提高教学效率有着重要的作用。在课堂中,网络技术与初
高中生的国防意识淡漠危机中华民族复兴大业,高中思想政治课教学应该而且可以成为强化高中生国防意识的有效途径之一,作者指出了通过思想政治课教学增强高中生国防意识的必要
<正>现代管理学中有一种马蝇效应,讲的是再懒惰的马,只要身上有马蝇叮咬,他就会精神抖擞,飞快奔跑。在企业管理中,适当的艺术化惩罚或者激励可以刺激员工思维,调控员工执行纪
当下全球各个国家和地区都面临劳动与就业这一难题。伴随着我国由计划经济向市场经济的转型,劳动与就业状况愈发纷繁芜杂,劳动关系也向复杂化、多元化方向发展。用人单位劳动
在双向直流变换器中,双有源桥式变换器(Dual Active Bridge Converter,DAB)结构对称、简单,控制灵活,在能源互联网的发展中受到广泛的关注。本文针对DAB变换器,结合拓扑的工