论文部分内容阅读
摘 要:很多人都知道股市的赚钱比例是很低的,近70%的人在亏损,真正可以赚钱的只有10%。面对金融市场中的巨大风险,人们通过各种技术手段分析金融数据,发掘其中隐含的规律,大数据技术就是一种重要的技术手段。针对如何利用大数据技术分析数据在股市中获得利润的问题,文章将利用R语言对金融数据进行大数据分析,给投资者提出建议。
关键词:大数据;价差套利;R语言;金融
中图分类号:TP311.1 文献标识码:A 文章编号:2096-4706(2020)06-0013-03
Abstract:Many people know that the percentage of people who make money in the stock market is very low. Nearly 70% of people are losing money,and only 10% can make money. In the face of huge risks in the financial market,people analyze financial data through various technical means to discover the hidden laws. Big data technology is an important technical means. Aiming at how to use big data technology to analyze data to obtain profits in the stock market,this paper will use R language to conduct big data analysis on financial data and give suggestions to investors.
Keywords:big data;spread arbitrage;R language;financial
0 引 言
在金融市场上,对于投资者来说,抓住合适的投资机会进行盈利是很困难的,因为市场中金融产品众多而且难以把握交易的时机,大数据技术可以给投资者提供合理的建议。大数据是一个专门用于分析、处理和存储大量数据的领域,这些数据通常来自不同的数据源。通过大数据技术对金融数据的分析处理,将会帮助投资者对交易时机的把握和对金融产品的选择,因此,本文基于河南大学大数据课程,对金融数据进行了大数据分析。
1 股市的风险
以一个经典的故事为例:一个女人和一个男人抛硬币,如果都是正面男人赢3块,都是反面男人赢1块钱,一正一反女人赢两块,这从表面上的看是非常公平的,但结果是男人一直输。我们可以通过数学分析的方法来看看其中的原因,女人想要自己一直赢,保证男人赢的数学期望始终小于零就可以了,我们不难解出,只要女人出正面的概率在1/3和2/5之间,无论男人怎么出硬币,都会一直输钱。女人就像股市里的庄家一样,可以拉升股价也可以打压股价,男人就像散户一样,可以买多,也可以买空。当庄家拉升股价时,我们做多赢了,做空的话就输了;如庄家打压股价,我们做多输了,做空就赢了,表面是公平的,实际上庄家有一定的策略让散户一直输钱。由此表明,股市有风险,投资需谨慎。
在市场上,随着新的信息被披露,企业的股价必然会受其影响而出现价格波动,例如,2019年苹果公司的新产品iPhone 11的热卖造成了其股价的上升。当然反应和调整是需要时间的,一般来说市场越有效,反应和调整所需要的时间就越短,对于投资者来说,要想获利,就要想尽一切办法在市场作出反应之前确定投资计划。
2 价差套利
下面介绍一种利用价差来获利的投资方式,这种方式相对来说风险较低。
(1)该方式的典型是在期货市场。期货价格的基础是现货价格,但是期货价格和现货价格的变化趋势并不一样。可以用基差来描述现货价格与期货价格之间的关系,利用“基差=现货价格-期货价格”的公式就可以求出基差。在到期之前,基差应该为正(此时称为反向市场),也就是期货>现货价格,因为期货合理价格=现货价格*(1+利率)。如果出现了现货价格高于期货价格(此时称为正向市场),且幅度扩大,就可以买进期货、卖出现货,等着日结算获利。
(2)时间价差也叫作日历价差或水平价差。一般情况是卖出一个期权,并同时买入一个远期期权,如果两个期权的实际价值相同的话,远期期权更具有时间价值,因为离到期日越近,期权的价值会减少。这一买一卖就可以赚取其中的价差,时间价差最多的就是商品,如Crude Oil Calendar Spreads。
(3)各产业内不同个股,股价时常会一起涨或一起跌,且保持一定的價格差距(Price Gap)。当两只股票之间的价差扩大缩小时,就可以进行价差交易。例如,股票A高于股票B约20元。参考技术、筹码情况之后,如果价差缩小到20元以内,可以买进股票A,卖出股票B。反之,价差高于20元可以买进股票B,卖出股票A。
(4)寻找走势相近的两档权重股,一买一卖进行价差交易。可分为买进价差、卖出价差。若价差=股票A-股票B,买进价差的意思是:做多股票A,做空股票B。两只股票的统计相关,出现正负交替时,就是套利机会出现的时候。表1计算了在香港上市的两只股票:中国银行和中国农业银行的价差表(中国农业银行-中国银行)。
从2019年6月4日到2019年7月3日一个月内,一股未计算手续费的利润是0.88元,以一张期权1 000股计算,此1:1的价差部分,一套价差获利880元。如果配合套期保值比率(hedge ratio),获利可能更惊人。 3 大数据技术
对于大数据的定义,可以认为大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产[1]。大数据具有数据量巨大、数据真实性、数据类型多样、流动速度快和价值密度低的特点,即大数据的“5V”。
3.1 数据量巨大
大数据处理的数据量是巨大的,而且还在不断增长。世界上有很多股票交易所,这些股票交易所拥有数万家上市公司,每家上市公司每个财年都会公布财务报告,还有大量的期货信息和其他的金融衍生品。由此可見金融市场的数据之多。
3.2 数据的真实性
数据的真实性是指数据的质量或真实可信度。股票的开盘价、收盘价、最高价、最低价和成交量的数据是真实的。
3.3 数据类型多样
大数据支持处理多种格式和类型的数据。金融市场上有很多产品、股票、期权、期货、外汇以及各种各样的衍生品,当然,还有与它们紧密联系的时间数据。由此可见市场上种类丰富的数据。
3.4 流动速度快
在大数据环境中,大量的数据可以在很短的时间内积累。毫不夸张地说,在市场上,一分钟可能积累几百GB或者几TB的数据,投资者所做决策的价值会随时间的推移慢慢下降。
3.5 价值密度低
价值是指数据对企业或个人的有用性。一般来说在大数据背景下,处理庞大的数据量才可以提供一个投资建议,进行获利。
基于大数据的“5V”特点,其存储技术和处理技术可以有效处理金融领域的数据。数据分为结构化数据、半结构化数据和非结构化数据,对于这些数量庞大而且种类多样的数据,提出了集群、分片、NoSQL数据库、CAP理论、ACID数据库设计原则、BASE数据库设计原则,这些理论和对应的技术将有效地对数据进行存储。无论是SCV理论,Hadoop和MapReduce的处理模型,相关性分析,机器学习,自然语言处理,大数据使用这些理论方法的目的就是发掘数据背后隐藏的秘密,要将这些结论以图表或者其他易懂的方式和模型清晰地展示在使用者的面前[2]。由此可见大数据技术在金融领域应用价值。
4 利用R语言进行数据分析
下面通过分析联合利华公司和保洁公司的收盘价来发现价差套利机会,因为这两个公司的主要经营业务相似,所以数据相关性够高。
以保洁公司2015年11月到2019年11月的收盘价减去联合利华公司2015年11月到2019年11月的收盘价(数据来源于雅虎金融),利用R语言汇总分析得到如图1所示的价差的时间序列图。从图中观察可知,两家公司的价差波动比较大,有套利的机会。对此进行进一步的分析,得到如图2所示的价差概率分布图,图中的虚线是波动的平均值,通过图2我们可以进一步发现,两家公司的价差有明显的波动,这就意味着有价差套利的可能。
我们有个价差交易策略——价差大于上界,我们做空价差,反之做多。按照上述所列举的中国银行和中国农业银行进行价差套利的例子所代表的思想,利用R语言进行分析,结果如图3所示,点1证明我们要做多,点2证明我们要做空。
5 结 论
利用R语言对保洁公司和联合利华公司的股票收盘价进行分析,可以找出合适的套利时机,指导投资者做出正确的决策。由此可见,使用大数据分析对利用价差进行投资有巨大的意义。现在国内的大数据技术发展已经成熟,且中国市场是一个弱式有效市场,善用大数据技术对历史金融数据处理分析,将会给投资这带来巨大的利益。
参考文献:
[1] 本刊编辑部.什么是大数据 [J].黑龙江档案,2016(6):98.
[2] 维克托·迈尔-舍恩伯格,肯尼思·库克耶.大数据时代:生活、工作与思维的大变革 [M].盛杨燕,周涛,译.杭州:浙江人民出版社,2012.
作者简介:谢玉成(1998.11-),男,汉族,河北石家庄人,本科,研究方向:大数据分析;王嘉琳(1998.11-),女,汉族,河南郑州人,本科,研究方向:数据分析。
关键词:大数据;价差套利;R语言;金融
中图分类号:TP311.1 文献标识码:A 文章编号:2096-4706(2020)06-0013-03
Abstract:Many people know that the percentage of people who make money in the stock market is very low. Nearly 70% of people are losing money,and only 10% can make money. In the face of huge risks in the financial market,people analyze financial data through various technical means to discover the hidden laws. Big data technology is an important technical means. Aiming at how to use big data technology to analyze data to obtain profits in the stock market,this paper will use R language to conduct big data analysis on financial data and give suggestions to investors.
Keywords:big data;spread arbitrage;R language;financial
0 引 言
在金融市场上,对于投资者来说,抓住合适的投资机会进行盈利是很困难的,因为市场中金融产品众多而且难以把握交易的时机,大数据技术可以给投资者提供合理的建议。大数据是一个专门用于分析、处理和存储大量数据的领域,这些数据通常来自不同的数据源。通过大数据技术对金融数据的分析处理,将会帮助投资者对交易时机的把握和对金融产品的选择,因此,本文基于河南大学大数据课程,对金融数据进行了大数据分析。
1 股市的风险
以一个经典的故事为例:一个女人和一个男人抛硬币,如果都是正面男人赢3块,都是反面男人赢1块钱,一正一反女人赢两块,这从表面上的看是非常公平的,但结果是男人一直输。我们可以通过数学分析的方法来看看其中的原因,女人想要自己一直赢,保证男人赢的数学期望始终小于零就可以了,我们不难解出,只要女人出正面的概率在1/3和2/5之间,无论男人怎么出硬币,都会一直输钱。女人就像股市里的庄家一样,可以拉升股价也可以打压股价,男人就像散户一样,可以买多,也可以买空。当庄家拉升股价时,我们做多赢了,做空的话就输了;如庄家打压股价,我们做多输了,做空就赢了,表面是公平的,实际上庄家有一定的策略让散户一直输钱。由此表明,股市有风险,投资需谨慎。
在市场上,随着新的信息被披露,企业的股价必然会受其影响而出现价格波动,例如,2019年苹果公司的新产品iPhone 11的热卖造成了其股价的上升。当然反应和调整是需要时间的,一般来说市场越有效,反应和调整所需要的时间就越短,对于投资者来说,要想获利,就要想尽一切办法在市场作出反应之前确定投资计划。
2 价差套利
下面介绍一种利用价差来获利的投资方式,这种方式相对来说风险较低。
(1)该方式的典型是在期货市场。期货价格的基础是现货价格,但是期货价格和现货价格的变化趋势并不一样。可以用基差来描述现货价格与期货价格之间的关系,利用“基差=现货价格-期货价格”的公式就可以求出基差。在到期之前,基差应该为正(此时称为反向市场),也就是期货>现货价格,因为期货合理价格=现货价格*(1+利率)。如果出现了现货价格高于期货价格(此时称为正向市场),且幅度扩大,就可以买进期货、卖出现货,等着日结算获利。
(2)时间价差也叫作日历价差或水平价差。一般情况是卖出一个期权,并同时买入一个远期期权,如果两个期权的实际价值相同的话,远期期权更具有时间价值,因为离到期日越近,期权的价值会减少。这一买一卖就可以赚取其中的价差,时间价差最多的就是商品,如Crude Oil Calendar Spreads。
(3)各产业内不同个股,股价时常会一起涨或一起跌,且保持一定的價格差距(Price Gap)。当两只股票之间的价差扩大缩小时,就可以进行价差交易。例如,股票A高于股票B约20元。参考技术、筹码情况之后,如果价差缩小到20元以内,可以买进股票A,卖出股票B。反之,价差高于20元可以买进股票B,卖出股票A。
(4)寻找走势相近的两档权重股,一买一卖进行价差交易。可分为买进价差、卖出价差。若价差=股票A-股票B,买进价差的意思是:做多股票A,做空股票B。两只股票的统计相关,出现正负交替时,就是套利机会出现的时候。表1计算了在香港上市的两只股票:中国银行和中国农业银行的价差表(中国农业银行-中国银行)。
从2019年6月4日到2019年7月3日一个月内,一股未计算手续费的利润是0.88元,以一张期权1 000股计算,此1:1的价差部分,一套价差获利880元。如果配合套期保值比率(hedge ratio),获利可能更惊人。 3 大数据技术
对于大数据的定义,可以认为大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产[1]。大数据具有数据量巨大、数据真实性、数据类型多样、流动速度快和价值密度低的特点,即大数据的“5V”。
3.1 数据量巨大
大数据处理的数据量是巨大的,而且还在不断增长。世界上有很多股票交易所,这些股票交易所拥有数万家上市公司,每家上市公司每个财年都会公布财务报告,还有大量的期货信息和其他的金融衍生品。由此可見金融市场的数据之多。
3.2 数据的真实性
数据的真实性是指数据的质量或真实可信度。股票的开盘价、收盘价、最高价、最低价和成交量的数据是真实的。
3.3 数据类型多样
大数据支持处理多种格式和类型的数据。金融市场上有很多产品、股票、期权、期货、外汇以及各种各样的衍生品,当然,还有与它们紧密联系的时间数据。由此可见市场上种类丰富的数据。
3.4 流动速度快
在大数据环境中,大量的数据可以在很短的时间内积累。毫不夸张地说,在市场上,一分钟可能积累几百GB或者几TB的数据,投资者所做决策的价值会随时间的推移慢慢下降。
3.5 价值密度低
价值是指数据对企业或个人的有用性。一般来说在大数据背景下,处理庞大的数据量才可以提供一个投资建议,进行获利。
基于大数据的“5V”特点,其存储技术和处理技术可以有效处理金融领域的数据。数据分为结构化数据、半结构化数据和非结构化数据,对于这些数量庞大而且种类多样的数据,提出了集群、分片、NoSQL数据库、CAP理论、ACID数据库设计原则、BASE数据库设计原则,这些理论和对应的技术将有效地对数据进行存储。无论是SCV理论,Hadoop和MapReduce的处理模型,相关性分析,机器学习,自然语言处理,大数据使用这些理论方法的目的就是发掘数据背后隐藏的秘密,要将这些结论以图表或者其他易懂的方式和模型清晰地展示在使用者的面前[2]。由此可见大数据技术在金融领域应用价值。
4 利用R语言进行数据分析
下面通过分析联合利华公司和保洁公司的收盘价来发现价差套利机会,因为这两个公司的主要经营业务相似,所以数据相关性够高。
以保洁公司2015年11月到2019年11月的收盘价减去联合利华公司2015年11月到2019年11月的收盘价(数据来源于雅虎金融),利用R语言汇总分析得到如图1所示的价差的时间序列图。从图中观察可知,两家公司的价差波动比较大,有套利的机会。对此进行进一步的分析,得到如图2所示的价差概率分布图,图中的虚线是波动的平均值,通过图2我们可以进一步发现,两家公司的价差有明显的波动,这就意味着有价差套利的可能。
我们有个价差交易策略——价差大于上界,我们做空价差,反之做多。按照上述所列举的中国银行和中国农业银行进行价差套利的例子所代表的思想,利用R语言进行分析,结果如图3所示,点1证明我们要做多,点2证明我们要做空。
5 结 论
利用R语言对保洁公司和联合利华公司的股票收盘价进行分析,可以找出合适的套利时机,指导投资者做出正确的决策。由此可见,使用大数据分析对利用价差进行投资有巨大的意义。现在国内的大数据技术发展已经成熟,且中国市场是一个弱式有效市场,善用大数据技术对历史金融数据处理分析,将会给投资这带来巨大的利益。
参考文献:
[1] 本刊编辑部.什么是大数据 [J].黑龙江档案,2016(6):98.
[2] 维克托·迈尔-舍恩伯格,肯尼思·库克耶.大数据时代:生活、工作与思维的大变革 [M].盛杨燕,周涛,译.杭州:浙江人民出版社,2012.
作者简介:谢玉成(1998.11-),男,汉族,河北石家庄人,本科,研究方向:大数据分析;王嘉琳(1998.11-),女,汉族,河南郑州人,本科,研究方向:数据分析。