基于数据挖掘的社交媒体数据对数字货币价格的预测研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:liuxin87675241
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在自然科学和社会生产运作中,会涉及到大量的决策,决策帮助我们在大量不确定的情况下,选择最有利于我们的决定。一般而言,我们在解决某一问题或者实现某一目标时,通常有多个行动方案,而决策的过程就是选择一个具体的行动方案,并付诸于行动。在决策时,决策者可以根据自身对事物的认知来下决定,同时也可以根据以往事件的发展方向来下决定。而想要决策结果更利于自己,则需要使用专业的预测方法。长久以来,大量问题的决策离不开预测。预测是基于历史数据发现数据中隐藏的规律,以及有价值的信息,从而对未来的数据做预测。预测的意义在于借助数据信息和科学技术手段,准确的揭露事物间的本质关系以及发展趋势,而不止是决策者主观臆断,因此预测使得决策具有充分的科学依据。而在预测时,通常没有一种预测方法是绝对有效的,针对于不同的场景、不同的事物,决策方法通常而言是不同的。常见的预测方法包括定性预测(通常是基于估计和评价的主观判断)、时间序列分析(通常是利用历史数据在长期发展趋势、季节变动、周期性变动以及随机波动四方面的特点来科学判断)、因果分析法(通常根据影响事物发展的内部因素和外部环境因素变化来判断事物发展)以及模拟法(通过对预测条件作一定假设来模拟事物发展)。自十七世纪专门针对荷兰以及亚洲地区从事贸易的“东印度公司”发行荷兰盾股票以来,股票已经经历了近400年的发展历程。早期股票的发行主要是航海家们为了避免航海贸易带来的巨大风险而提出的一种分散风险的方法,直到十七世纪九十年代中期,英格兰银行的成立标志着股票逐渐进入金融和工业领域,自此股票一直健康稳定的发展,越来越多的投资者加入股票投资。而投资者们一直渴望通过股票投资来获取收益,因此几个世纪以来学者们一直通过各种科学手段来预测股票的发展趋势,因此也衍生出了许多股票投资理论,主要包括技术分析法(通常根据股价波动图来总结股票的发展规律)、基本分析法(通常从宏观经济形势、行业发展趋势以及企业的发展现状三个方面出发研究股票趋势)和演化分析法(从生物学和进化法则角度出发,寻找影响股市波动的复杂因果关系)。近年来,随着数字货币热度的不断提升,越来越多的投资者开始关注数字货币市场,期望赶上数字货币这趟列车实现财富增长,而这部分数字货币投资者在投资前需要收集信息,通过收集有益信息对投资决策提供帮助。在互联网时代,社交媒体网络发展迅速,一方面信息获取的渠道变得愈加容易,另一方面,决策前需要从大量的信息中提取有用的、对决策能提供价值的信息,从而使用这些有价值的信息为投资决策提供支持。社交媒体在近些年发展迅猛,使得全球人民都身处于社交媒体时代,截至2021年1月,全球互联网用户数量高达46.6亿,其中社交媒体用户数量也达到了42亿(数据来源:新浪科技)。我们每天都在各种社交媒体平台中发布信息,观看别人发布的信息,接收平台推送的信息,为喜欢的内容点赞,关注喜欢的用户,收藏喜欢的文章等等。社交媒体在融入我们生活的同时,也在逐步影响金融资产的定价过程,甚至影响到资产的价格波动。位于瑞士的苏黎世联邦理工学院的研究报告显示,公众对数字货币的看法正在改变,以往人们认为数字货币是程序员或者犯罪分子使用的神秘货币,而现在时尚达人也会使用数字货币购买商品。随着公众对数字货币看法的变化,社交媒体对数字货币价格的影响的研究也显得格外重要。研究报告《泡沫的数字轨迹:比特币经济中社会经济信号的反馈循环机制》指出,数字货币在社交媒体平台大量传播,使得广大投资者开始逐步接受数字货币,从而影响数字货币的供给关系,进而影响数字货币的价格波动。为探索社交媒体数据对数字货币价格的影响,进而通过有效利用社交媒体数据,为投资者投资数字货币市场提供参考,本文通过网络爬虫方法获取了Facebook、Twitter、Reddit和Crypto Compare四大社交媒体平台2018年1月1日到2019年6月31日的数字货币相关数据,同时通过coinmarketcap网站获取数字货币每日行情数据。在获取样本数据之后,本文进而对样本数据进行筛选,并通过特征工程构造特征变量,针对本文的社交媒体样本数据,本文从多个维度出发,构造了19个特征变量。最后本文使用这些特征变量探索社交媒体数据对数字货币市场的影响,同时本文通过实验对比了本文构建的Stacking模型融合框架在数据集上的预测效果优于以往的机器学习(分类和回归树、逻辑回归)和集成学习模型(随机森林、梯度提升树、极端梯度提升树)。以上内容不仅是当前研究人员和数字货币投资者关心的问题,也是本文的研究重点。本文基于Stacking集成学习框架研究社交媒体数据对数字货币市场的影响,主要工作内容包括以下几点:(1)本文首先对数字货币的发展以及数据货币价格的影响因素进行了深入研究。其次阐述了社交媒体数据挖掘常用的方法,总结以往学者关于社交媒体数据中用户关注度、用户情感、网络舆情、文本隐含波动率以及意见分歧方面的研究。并在此基础上总结出本文研究的理论意义和显示意义。(2)本文系统的梳理了投资理论、特征选择技术和数据挖掘技术。在投资理论方面,主要包括技术分析法、基本分析法和演化分析法,如上所述。在特征选择方面,主要有过滤式特征选择方法、包裹式特征选择方法和嵌入式特征选择方法,其中过滤式特征方法主要是在模型训练之前对数据集进行特征选择,包裹式特征选择方法主要是根据模型最终的评判标准选择特征,而嵌入式特征选择方法则是将特征选择过程和学习器训练过程结合在一起。最后在数据挖掘技术方面,本文首先介绍了数据挖掘的流程,其次介绍了数据挖掘领域最常用的逻辑回归算法、分类和回归树算法、作为Bagging类集成学习代表的随机森林算法、以及Boosting类集成学习的梯度提升树算法和极端梯度提升树算法,以及数据挖掘领域十分具有代表性的支持向量机算法。同时,本文指出了每种算法的优点和缺点、以及各算法的适用场景等。(3)本文使用网络爬虫技术,通过Python自编码方法获取本文的研究样本数据。本文首先通过网络爬虫技术,爬取coinmarketcap网站上数字货币的排名信息,以及各个数字货币的每日行情数据,具体包括数字货币每日的开盘价、收盘价、最低价、最高价、成交量以及成交额等。其次,本文依旧通过网络爬虫技术,获取这些数字货币在国际主流社交媒体平台Facebook、Twitter、Reddit和Crypto Compare上相关的社交媒体数据,具体包括这些平台上,数字货币相关账号信息,以及这些账号发布的信息数目,用户浏览、点赞、评论次数等。在通过获取样本数据之后,本文通过Python连接My SQL数据库,将样本数据存储于My SQL数据库,以便后期的数据处理。(4)针对本文的社交媒体数据,本文从各个平台数据的特点出发,量化了19个社交媒体相关特征变量,具体包括用户关注度、用户点赞量、用户评论量、信息发布量、话题提及量、账号粉丝数、账号信息发布数等。就社交媒体数据特征而言,Facebook和Twitter平台的特征变量重要性大于Reddit平台的特征变量重要性,而Crypto Compare平台的特征变量重要性最小。另外对于本文的数字货币市场相关数据,本文在数字货币每日的行情数据基础上,量化出5个数字货币市场相关特征变量,具体包括数字货币换手率、最大交易差价、市场回报率、市场成交额、市场成交量。同时,本文通过特征重要性排序方法对比分析了数字货币市场相关特征变量和社交媒体数据相关特征变量间的重要性,结果表明,数字货币市场相关特征变量的重要性程度均大于社交媒体数据相关特征变量重要性程度。(5)结合本文的数据特征,本文使用Stacking集成学习框架,模型融合了主流的数据挖掘算法,在模型的第一层本文使用CART、RF、GBDT、XGB算法,利用这些算法在复杂数据集上的预测优势,将多维度下复杂的样本特征数据转换为简单的模型输出值,模型的第二层本文使用了SVM算法,有效利用SVM算法在简单数据集上的高效率和高准确性。最后本文通过实验对比发现,在本文的数据集上,逻辑回归算法的预测准确率(61.24%)最低,以往数据挖掘模型中,极端梯度提升树算法的预测准确率较高,达到了75.07%,相比于逻辑回归算法而言,准确率提升了将近14%,这也正是因为极端梯度提升树算法的上限较高,而Stacking集成学习框架相比于以往的机器学习(分类和回归树、逻辑回归)和集成学习模型(随机森林、梯度提升树、极端梯度提升树),Stacking集成学习框架预测准确率更高,达到了76.39%,相比于极端梯度提升树算法而言,本文使用的Stacking集成学习框架使得模型对样本数据的预测准确率提高了1.32%。
其他文献
电力系统结构复杂,非线性强,建模难度大。国家大力推进“三型两网”的建设,电网技术的快速发展对系统稳定性提出了更高的要求。在电力系统实际运行中,系统外部总是存在干扰,系统在干扰作用下也会产生响应。可在实测响应中提取相关信息,实现系统稳定性在线评估。本文研究了基于局部测量技术的电力系统稳定性在线评估的分析方法。研究多机系统潮流分析法与小干扰法的特点与联系。为探寻潮流方程分析法对静态稳定性评估的影响,以
开花是高等植物生长发育进程中一个非常关键的阶段,在合适的时间开花对大多数植物的生存和成功繁衍极为重要。该过程受各种内源和外源因素影响,基于对拟南芥开花时间调控的研究,探明了在拟南芥中至少存在六种开花调控途径:光周期途径、春化途径、环境温度途径、赤霉素途径、年龄途径、自主途径。这些信号途径既彼此独立又相互交联,形成一个复杂的调控网络,实现对开花时间的精准控制。F-box蛋白FKF1(FLAVINBI
桩基是建筑结构的基础,其质量的好坏直接决定了整体结构的安全与稳定。直径数米、深度数十米的大型建筑结构桩基,在挖孔和混凝土灌注过程中常因为诸如孔壁坍塌、桩底沉渣等原因,造成成桩质量出现缺陷。检测和评估成桩质量是工程中的一个十分重要的问题,但受环境、无损等因素限制,目前仍没有一种十分准确有效的检测手段和方法。钻芯法作为一种在工程上被广泛使用于对大型桩基进行质量检测和评估的方法,但其在钻探过程中的钻进速
保存环境因素是影响博物馆馆藏文物自身材料劣化的主要原因,为延缓博物馆馆藏文物的损坏,需要采用一定的技术手段来减弱馆藏文物保存环境因素造成的影响,减缓馆藏文物本体材料的衰败发展,达到从实质上保护馆藏文物的目的。馆藏文物的保存环境包括库房和展厅两个区域。其中,展厅区域的文物为达到一定的展示效果一般为混合存放,保存状态直接受展厅小环境和展柜微环境共同影响。本文依据《博物馆建筑设计规范》(JGJ66-20
近年来,高速数字系统的通信速率变高,大规模集成电路的尺寸缩小,PCB上集成密度增大。这使得PCB上的温度变得越来越高,导致PCB上高速传输通道的信号完整性性能下降,从而使得整个电子产品性能不稳定,严重时甚至导致产品失效。因此,高速电路设计工程师必须根据具体情况分析温度对PCB上每个区域以及每个独立的传输网络的影响,在设计中采取相应的措施,留出信号完整性设计裕度,防止出现“过保护”增加设计成本,或者
3-蒈烯是胡椒油等植物精油的主要挥发性成分,具有抑菌效果,在食品防腐领域有广阔前景。本研究主要考察3-蒈烯对荧光假单胞菌抑菌活性、形态结构及呼吸和能量代谢等的影响,结合代谢组学,转录组学和相关酶活性研究,揭示3-蒈烯对荧光假单胞菌的抑菌机理。为开发3-蒈烯作为食品防腐剂提供理论基础。实验结果如下:(1)通过测定最小抑菌浓度(MIC)和生长曲线,探究3-蒈烯的抑菌效果。(2)通过电镜观察、细胞内容物
癌症是全球第二大死亡原因,一直威胁着人们的身体健康。因此,开发有效的分析方法用于癌症治疗具有非常重要的意义。缺氧是大多数实体瘤的典型特征,在肿瘤的耐药、侵袭和迁移中起着至关重要的作用。此外,在亚细胞水平上研究生物分子的表达水平有助于我们了解疾病的发生机制以及发展过程,进而研究出合适的治疗策略。然而,目前从亚细胞水平上研究缺氧相关病理的工作仍比较少。基于此,本论文构建了缺氧响应的线粒体靶向纳米探针,
智能可穿戴电子设备(intelligent wearable electronic devices,IWEDs)已经广泛应用在日常生活中,且IWEDs朝着轻量化和柔性化的方向发展。传统集流体集成的微能源器件(micro energy devices,MEDs)过于刚性和体积庞大,显然不适于便携使用。此外,IWEDs的迅速发展促生了一体化多功能的集成MEDs,即在原有功能(储能+可穿戴)基础上,集成
近年来,繁简分流改革在全国地方各级人民法院大力推广。多数既有研究和实践经验表明,“简案快审、繁案精审”的繁简分流成效显著,能够提高司法效率、促进司法公正,繁简分流已经成为了破解“案多人少”矛盾的主要方式。但是,既有研究和实践经验都没有通过详细的审判数据予以论证。本文通过A法院的详细审判数据,结合繁简分流的理论基础——比例原则,比较了繁简分流前后的司法效率和司法公正,发现:投入20%-30%小比例的
作为最广泛使用的能源之一,电能在社会经济建设和人民日常生活中起着至关重要的作用。随着社会经济的发展,各行各业对电能的需求也在不断提升。然而,部分用户在利益的驱使下通过窃取电能节省耗电成本,对国家的经济造成了巨大损失。尤其近年来随着虚拟货币价格的飙升,更是有许多用户通过窃电进行虚拟货币“挖矿”谋取私利。高级量测体系(Advanced Metering Infrastructure,AMI)的广泛建设