论文部分内容阅读
2017年开始中国证监会等监管部门运用新技术如数据挖掘、人工智能、高性能分布式计算对证券市场展开实时监控,在严厉打击违法违规的交易行为的同时,持续出台一系列的高压政策,对市场上“炒概念”,“炒故事”的行为进行降温和约束,引导市场转向价值投资。另外A股开始参与全球资产配置,外资流入过程中买的是各行各业的优质资产,优质资产的价值在外资流入过程中会不断提升。A股市场的游戏规则已经发生改变,对于普通投资者而言,需要适应市场的变化,运用数据挖掘技术和聚类算法去甄别A股市场的优质资产,合理配置资产组合;对于专业量化投资者而言,聚类算法甄选优质股是进行量化投资策略设计的经典应用之一。本文的研究目的是在量化投资领域为投资者及研究者提供可供一些参考的数据分析方法,体现出数据分析的实用价值和指导意义。量化投资发展过程中市场上先后出现了多种量化投资策略。早期的量化投资模型以传统金融理论为基础,目前以数据挖掘技术为基础的量化投资模型逐渐兴起。数据挖掘技术中的机器学习算法高速发展,迎来了其在量化投资领域的黄金期。机器学习领域有诸多算法,这些算法在量化投资领域有着不同应用。股票有效信息的提取数据主要会用特征选择、特征提取等降维算法;构建多因子投资组合常用到逻辑回归算法、决策树算法、随机森林算法、支持向量机算法、人工神经网络等分类算法;股票价格预测目前主要使用擅长处理长时间序列数据的神经网络算法如循环神经网络(简称RNN)、长短期记忆神经网络(简称LSTM);聚类算法常用于因子聚类,本文使用聚类算法对股票财务因子数据进行聚类,甄别出股票相对价值。本文以A股市场股票为研究对象,以量化投资和数据挖掘作为理论基础。首先,基于数据挖掘快速找出盈利能力相对较强且稳定的高景气行业。通过计算每个行业所有上市公司近五年的净利润同比增长率数据,按照每个行业净利润同比增长率的中位数升序排序,盈利能力稳定的行业中排序最高的即为本文优先考虑的研究对象,本文最终确定医药生物行业为研究对象。其次,基于合适的聚类算法对医药生物行业上市公司财务因子数据进行聚类,甄别出该行业中优质股和劣质股。医药生物行业上市公司财务因子数据经过预处理和降维后属于实际类别信息未知的小样本高维数据集,需要对K-Means算法、近邻传播聚类AP算法、DBSCAN算法、SOM算法的适用性、轮廓系数进行评估,最终确定近邻传播聚类AP算法为更合适的算法,运用AP聚类算法对实际类别信息未知的小样本高维数据集进行有序聚类,挖掘医药生物行业相似公司的相对价值,甄别该行业出优质股和劣质股。最后,分别对持有一段时间优质股和劣质股组合实际累积收益进行计算和比较,首先输入2018年1月1日、2019年1月1日财务因子数据进行聚类,分别计算优质股和劣质股组合在2018年1月至12月、2019年1月至12月的实际累积收益,以比较优质股组合的市场表现是否优于劣质股组合,用数据去证实优质股是否有较高的投资回报和投资价值。