论文部分内容阅读
为推动我国半导体产业的发展,各地方政府纷纷设立了半导体基金,在政府的带动作用下,社会资本也大量涌入。半导体投资的初衷是推动我国该产业的快速发展,但实际上却并没有起到多大的效果,国内对部分标的物的盲目、重复投资和部分领域投资过热的现象,反而推高了半导体的PE估值。显然,国内的半导体投资中存在着一些问题和痛点。因此本文将视野拓展到全球半导体行业,来看清国内存在的问题,结合机器学习算法来预测全球半导体股票的涨跌,进行产业链选股,以此来解决国内半导体投资难题。本文要解决的问题是如果一只基金的一部分资金用于投资半导体行业,那么该选择哪些股票以及如何去选。为研究该问题,通过对半导体行业的分析,本文选取了全球半导体行业所有股票的52个指标从2008年到2018年的年度数据,进行实证研究。经过数据预处理和特征选择后,将2008年至2014年的数据作为训练集,2015年至2018年数据作为测试集,分类标签为股票下一年的涨跌。通过构建MLP神经网络对股票的涨跌进行预测,同时将XGBoost和随机森林算法作为对比,并通过调整模型参数和特征选择对模型进行优化。分别从分类能力、泛化能力和算法效率三个方面对模型进行评价和选择。最后对优化后的模型进行滚动回测,前三年数据作为训练集,后一年数据作为测试集,每次将下一年上涨概率最大的30只股票纳入股票组合,从收益维度、风险维度和现实意义三个方面对方案进行评价。实证结果显示,国家风险增长率、营业收入增长率、12个月股息率和市研率对股票下一年收益率的影响最大,三个模型在半导体股票的涨跌预测上均具有应用价值,而MLP神经网络的预测效果是三个模型中最好的。MLP神经网络的平均精确率为0.64,平均召回率为0.60,平均F1-Score为0.61,AUC达到了0.67,模型的训练和测试仅用时0.065秒。本文的选股策略的业绩显示只有2018年出现了负收益,其余时间均带来了正收益,除了2014年,其余时间均跑赢了全球半导体基准,且与国内半导体基准相比也体现出了明显的优势;风险上,夏普比率为0.9511,收益率分布为低峰态;现实意义上,选出的股票比国内的更加安全且市盈率更低,可以有效避免国内的非理性投资现象。