基于XGBoost算法的电影票房预测

来源 :兰州大学 | 被引量 : 3次 | 上传用户:ys331223
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会发展和大众生活水平的提高,文化娱乐成为人们释放压力的主要途径。电影行业的飞速发展,也使其成为文化娱乐的重要组成部分。遗憾的是,国内成功的电影占比很小,每年拍摄的影片绝大多数很难收回成本,电影票房的预测显得尤为重要。我们选出对电影票房影响较大的因素,建立性能较好的预测模型给电影制作以及宣传提供数据支持。本文利用集成学习来研究电影票房,通过两个数据集验证了基于XGBoost算法的电影票房预测优于随机森林算法和GBDT算法。第一个数据集我们选择Kaggle竞赛中电影票房预测的数据集。数据预处理部分,本文将部分取值不随影片变化的因素量化为具体数值,另外的因素直接量化为哑变量。然后利用XGBoost进行特征选择,给出特征重要性排序,删除冗余属性,降低模型复杂度。通过模型性能评估指标,选出预测精度相对较高的模型。最后利用交叉验证和网格搜索对模型调参,提高模型的预测精度。第二个数据集是选取2019年国内电影票房排名前100中的56部电影的相关数据,建立模型。通过评价指标,得到XGBoost模型更能精确预测电影票房。
其他文献
以人为本作为一种社会思潮和价值观念早已有之。马克思主义运用历史唯物主义原理,第一次阐明了这一概念的科学内涵。新中国建国后,我党三代领导人从不同的角度都有过论述。党的
在电大教育良好的发展态势下,电大新闻宣传也面临着新的挑战。本文结合现代远程教育的实际,分析了校报通讯员队伍在电大新闻宣传工作中扮演的角色与作用,指出了当前校报通讯
正当古城金华春雨初霁时,记者见到了DN-90系列快干型淀粉粘合剂的研制者和推广者龚经强。正是这位年轻的企业家,以他独有的灵气和执着的追求,将DN-90系列快干型淀粉粘合剂这
本刊讯6月25日上午,我校在六楼报告厅召开深入开展创先争优活动动员大会。省委教育工委副书记、校党委书记董祥林,校党委副书记、校长王振龙,副校长杜开展、田季生、郭红霞出席
近年来,在中国服务贸易快速发展的同时,服务贸易结构也在发生一些重要的变化。对处于深化转型发展关键时期的中国而言,服务贸易结构演变的经济增长效应究竟是怎样的呢?这一问
星火计划的实施,资金是关键。由于种种原因,区街、乡镇企业的基础差、底子薄、承受力弱,迫切需要通过技术进步来加强生存能力和提高竞争能力。但它们缺资金、缺人才、缺技术
我国医保药品实行带量采购政策,其目的是在保证质量、保障供应的前提下,推动药品企业充分竞争,通过明确保障药品采购量的政策资源,换取更大的竞价空间,实现医保药品团购,让药
随着新闻体制改革的不断深入和网络媒体的迅速普及。和普通高校校园媒体多元化趋势日益明显相伴.电大校报也受到冲击。在新媒体时代背景下,电大校报如何定位,如何发挥平面媒体的
社会主义新农村建设问题已经引起党中央和国务院乃至全社会的高度关注。新农村建设是一项艰巨而复杂的系统工程,各级党委、政府在坚持工业反哺农业、城市支持农村等政策的同时
数据库的发展极大地促进了科学研究,整合特定研究领域多种数据库的信息,获得全面的信息,便于在研究中做出科学的决策。在过去的40年里,人们建立了几十个与农药相关的开放访问数据库,这些数据库收集了农药的活性、毒性、作用机制和环境风险等信息。但,这些数据分散在不同的农药数据库中,而且数据内容重叠且格式不一,不利于创新农药的研究。系统地分析现有开放访问农药数据库中的内容,提取有用信息,并将其整合,有助于在农