论文部分内容阅读
在自然科学和社会生产运作中,会涉及到大量的决策,决策帮助我们在大量不确定的情况下,选择最有利于我们的决定。一般而言,我们在解决某一问题或者实现某一目标时,通常有多个行动方案,而决策的过程就是选择一个具体的行动方案,并付诸于行动。在决策时,决策者可以根据自身对事物的认知来下决定,同时也可以根据以往事件的发展方向来下决定。而想要决策结果更利于自己,则需要使用专业的预测方法。长久以来,大量问题的决策离不开预测。预测是基于历史数据发现数据中隐藏的规律,以及有价值的信息,从而对未来的数据做预测。预测的意义在于借助数据信息和科学技术手段,准确的揭露事物间的本质关系以及发展趋势,而不止是决策者主观臆断,因此预测使得决策具有充分的科学依据。而在预测时,通常没有一种预测方法是绝对有效的,针对于不同的场景、不同的事物,决策方法通常而言是不同的。常见的预测方法包括定性预测(通常是基于估计和评价的主观判断)、时间序列分析(通常是利用历史数据在长期发展趋势、季节变动、周期性变动以及随机波动四方面的特点来科学判断)、因果分析法(通常根据影响事物发展的内部因素和外部环境因素变化来判断事物发展)以及模拟法(通过对预测条件作一定假设来模拟事物发展)。自十七世纪专门针对荷兰以及亚洲地区从事贸易的“东印度公司”发行荷兰盾股票以来,股票已经经历了近400年的发展历程。早期股票的发行主要是航海家们为了避免航海贸易带来的巨大风险而提出的一种分散风险的方法,直到十七世纪九十年代中期,英格兰银行的成立标志着股票逐渐进入金融和工业领域,自此股票一直健康稳定的发展,越来越多的投资者加入股票投资。而投资者们一直渴望通过股票投资来获取收益,因此几个世纪以来学者们一直通过各种科学手段来预测股票的发展趋势,因此也衍生出了许多股票投资理论,主要包括技术分析法(通常根据股价波动图来总结股票的发展规律)、基本分析法(通常从宏观经济形势、行业发展趋势以及企业的发展现状三个方面出发研究股票趋势)和演化分析法(从生物学和进化法则角度出发,寻找影响股市波动的复杂因果关系)。近年来,随着数字货币热度的不断提升,越来越多的投资者开始关注数字货币市场,期望赶上数字货币这趟列车实现财富增长,而这部分数字货币投资者在投资前需要收集信息,通过收集有益信息对投资决策提供帮助。在互联网时代,社交媒体网络发展迅速,一方面信息获取的渠道变得愈加容易,另一方面,决策前需要从大量的信息中提取有用的、对决策能提供价值的信息,从而使用这些有价值的信息为投资决策提供支持。社交媒体在近些年发展迅猛,使得全球人民都身处于社交媒体时代,截至2021年1月,全球互联网用户数量高达46.6亿,其中社交媒体用户数量也达到了42亿(数据来源:新浪科技)。我们每天都在各种社交媒体平台中发布信息,观看别人发布的信息,接收平台推送的信息,为喜欢的内容点赞,关注喜欢的用户,收藏喜欢的文章等等。社交媒体在融入我们生活的同时,也在逐步影响金融资产的定价过程,甚至影响到资产的价格波动。位于瑞士的苏黎世联邦理工学院的研究报告显示,公众对数字货币的看法正在改变,以往人们认为数字货币是程序员或者犯罪分子使用的神秘货币,而现在时尚达人也会使用数字货币购买商品。随着公众对数字货币看法的变化,社交媒体对数字货币价格的影响的研究也显得格外重要。研究报告《泡沫的数字轨迹:比特币经济中社会经济信号的反馈循环机制》指出,数字货币在社交媒体平台大量传播,使得广大投资者开始逐步接受数字货币,从而影响数字货币的供给关系,进而影响数字货币的价格波动。为探索社交媒体数据对数字货币价格的影响,进而通过有效利用社交媒体数据,为投资者投资数字货币市场提供参考,本文通过网络爬虫方法获取了Facebook、Twitter、Reddit和Crypto Compare四大社交媒体平台2018年1月1日到2019年6月31日的数字货币相关数据,同时通过coinmarketcap网站获取数字货币每日行情数据。在获取样本数据之后,本文进而对样本数据进行筛选,并通过特征工程构造特征变量,针对本文的社交媒体样本数据,本文从多个维度出发,构造了19个特征变量。最后本文使用这些特征变量探索社交媒体数据对数字货币市场的影响,同时本文通过实验对比了本文构建的Stacking模型融合框架在数据集上的预测效果优于以往的机器学习(分类和回归树、逻辑回归)和集成学习模型(随机森林、梯度提升树、极端梯度提升树)。以上内容不仅是当前研究人员和数字货币投资者关心的问题,也是本文的研究重点。本文基于Stacking集成学习框架研究社交媒体数据对数字货币市场的影响,主要工作内容包括以下几点:(1)本文首先对数字货币的发展以及数据货币价格的影响因素进行了深入研究。其次阐述了社交媒体数据挖掘常用的方法,总结以往学者关于社交媒体数据中用户关注度、用户情感、网络舆情、文本隐含波动率以及意见分歧方面的研究。并在此基础上总结出本文研究的理论意义和显示意义。(2)本文系统的梳理了投资理论、特征选择技术和数据挖掘技术。在投资理论方面,主要包括技术分析法、基本分析法和演化分析法,如上所述。在特征选择方面,主要有过滤式特征选择方法、包裹式特征选择方法和嵌入式特征选择方法,其中过滤式特征方法主要是在模型训练之前对数据集进行特征选择,包裹式特征选择方法主要是根据模型最终的评判标准选择特征,而嵌入式特征选择方法则是将特征选择过程和学习器训练过程结合在一起。最后在数据挖掘技术方面,本文首先介绍了数据挖掘的流程,其次介绍了数据挖掘领域最常用的逻辑回归算法、分类和回归树算法、作为Bagging类集成学习代表的随机森林算法、以及Boosting类集成学习的梯度提升树算法和极端梯度提升树算法,以及数据挖掘领域十分具有代表性的支持向量机算法。同时,本文指出了每种算法的优点和缺点、以及各算法的适用场景等。(3)本文使用网络爬虫技术,通过Python自编码方法获取本文的研究样本数据。本文首先通过网络爬虫技术,爬取coinmarketcap网站上数字货币的排名信息,以及各个数字货币的每日行情数据,具体包括数字货币每日的开盘价、收盘价、最低价、最高价、成交量以及成交额等。其次,本文依旧通过网络爬虫技术,获取这些数字货币在国际主流社交媒体平台Facebook、Twitter、Reddit和Crypto Compare上相关的社交媒体数据,具体包括这些平台上,数字货币相关账号信息,以及这些账号发布的信息数目,用户浏览、点赞、评论次数等。在通过获取样本数据之后,本文通过Python连接My SQL数据库,将样本数据存储于My SQL数据库,以便后期的数据处理。(4)针对本文的社交媒体数据,本文从各个平台数据的特点出发,量化了19个社交媒体相关特征变量,具体包括用户关注度、用户点赞量、用户评论量、信息发布量、话题提及量、账号粉丝数、账号信息发布数等。就社交媒体数据特征而言,Facebook和Twitter平台的特征变量重要性大于Reddit平台的特征变量重要性,而Crypto Compare平台的特征变量重要性最小。另外对于本文的数字货币市场相关数据,本文在数字货币每日的行情数据基础上,量化出5个数字货币市场相关特征变量,具体包括数字货币换手率、最大交易差价、市场回报率、市场成交额、市场成交量。同时,本文通过特征重要性排序方法对比分析了数字货币市场相关特征变量和社交媒体数据相关特征变量间的重要性,结果表明,数字货币市场相关特征变量的重要性程度均大于社交媒体数据相关特征变量重要性程度。(5)结合本文的数据特征,本文使用Stacking集成学习框架,模型融合了主流的数据挖掘算法,在模型的第一层本文使用CART、RF、GBDT、XGB算法,利用这些算法在复杂数据集上的预测优势,将多维度下复杂的样本特征数据转换为简单的模型输出值,模型的第二层本文使用了SVM算法,有效利用SVM算法在简单数据集上的高效率和高准确性。最后本文通过实验对比发现,在本文的数据集上,逻辑回归算法的预测准确率(61.24%)最低,以往数据挖掘模型中,极端梯度提升树算法的预测准确率较高,达到了75.07%,相比于逻辑回归算法而言,准确率提升了将近14%,这也正是因为极端梯度提升树算法的上限较高,而Stacking集成学习框架相比于以往的机器学习(分类和回归树、逻辑回归)和集成学习模型(随机森林、梯度提升树、极端梯度提升树),Stacking集成学习框架预测准确率更高,达到了76.39%,相比于极端梯度提升树算法而言,本文使用的Stacking集成学习框架使得模型对样本数据的预测准确率提高了1.32%。