论文部分内容阅读
股票价格及趋势预测是金融智能研究的热门话题。各种各样的信息源用于股价预测,例如基本经济特征、技术指标、网络舆情、财务公告、财政新闻、金融研报等等。显然,更多的来源带来更多的信息。然而,大部分的以前的研究只在它们的预测模型中使用一种或两种信息源。这是因为不同的数据源会给股票市场带来不同的影响,并且识别不同的信源之间的相关性相当困难。再者,更多信源的使用将会增加遭受维度灾难的风险。但是,股票市场错综复杂,灵活多变,没有单独的一种信源可以完全反映股票市场的信息。为此,本文提出了一种新型的基于多信源的股价趋势预测方法。这个方法使用三种不同的信源来预测股价趋势,三种信源分别是基本经济特征,技术指标以及网络舆情。多信源股价趋势预测方法首次把多个信源数据,机器学习以及文本情感分析技术运用到股价趋势预测上,这个方法包含三个步骤。首先,收集多信息源的数据。然后,进行数据的预处理,把多信源的数据统一到一个数据集中,这是多信源股价趋势预测方法的关键步骤,该步骤中使用到了文本情感分析技术,在这个过程中,本文提出了一个针对金融领域的极性情感词典,该极性情感词典在对网络舆情数据进行情感倾向评分时起到了重要的作用,该极性情感词典也是本文的创新工作之一。最后,使用支持向量机分类器构造预测模型。为了体现本文提出的多信源股价趋势预测方法的性能,本文根据不同的输入信源组合设置对比实验,实验结果表明,我们的模型效果比只用一个信源的模型或者使用两个信源的模型效果要好。此外,我们获得有趣的发现。例如,提取的原始网络舆情的数量在非交易日内大幅上涨。因此,我们可以通过增加对非交易日舆情数据的情感分析提高预测的准确率,为了验证这个理论,我们根据是否考虑非交易日舆情数据的影响,设置对比实验,实验结果表明增加对非交易日舆情数据的情感分析可以提高预测的性能。本文的实验结果表明尽管融合多信源数据有困难,通过适当的预处理和特征选取,仍然可以获得一个好的预测器。