论文部分内容阅读
近年来我国的图书出版产业得到了长足的发展,图书出版的规模和利润稳步增长,隐藏在大好形势之下的是快速增长的库存积压问题。探究出版业发展现状,一方面,教材作为图书出版的重要组成部分,占到了全体出版规模的近4成且保有出版单位主要利润源的重要地位。另一方面,从新编和重印两大出版形式来看,重印规模远高于新编且仍保持着高速增长。为教材生产制定科学合理的重印策略,更好地满足市场需求、降低库存,对出版业就显的非常迫切和重要。目前的研究更多的表现为经验性的定性的重印策略分析,或者是从经济生产的角度出发建模探讨。然而,对于出版业的实际运营来说,往往要做到的是先满足市场的产品需求,在此基础上考虑批量、时间等成本要素进行决策。因此对教材生产做到前瞻性预测,进而指导企业生产具有重要意义。本文对出版业目前的教材出版情况做了介绍,说明了教材重印的概念及目前作业中存在的问题。随着时间的推移,出版企业在生产中必然累积了大量与教材重印相关的数据,包括生产、销售、库存等各个方面。考虑数据特点和分析目标,数据挖掘技术可以充分利用这些数据,找出教材重印的影响因素及其内在规律,为教材的重印生产提供参考。本文选择一种组合预测方法——随机森林算法建立了教材的重印模型:分析教材重印的相关影响因素建立特征体系,按照从重印方式选择到教材销量预测的两步走策略,分别建立了对应的分类模型和预测模型,并对销量预测模型做了直接预测和离散化预测的多角度处理。实证阶段,文章从某出版社ERP系统的真实数据入手,采集了教材进销存、销售明细等数据作为原始数据,选择了近三年1994条重印样本作为模型的研究对象,在pycharm中实现了主要的建模与预测。重印方式分类问题中,随机森林算法建立的模型比经典逻辑回归模型得到了更高的准确率。销量预测中,比较C4.5算法和随机森林算法预测的评价分数,随机森林实现了较低的预测偏差。考虑实际生产中的批量问题,选择对销量进行离散化预测,结果表明离散化预测具有更好的实际指导价值。最后,该模型在满足需求、控制库存方面的实用价值得到了某出版社认可,将其应用于2018年秋季的教材生产,作为重印决策的参考,文中展示了部分教材的重印策略。