事务间关联规则挖掘在股价、期货价格预测中的应用

来源 :硅谷 | 被引量 : 0次 | 上传用户:zxjscsd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘要]关联规则作为数据挖掘的一种重要分析方法,在近年来发展日趋成熟。在金融领域,一些研究已开始关注利用关联规则挖掘不同金融产品价格间的关联性、不同市场变动趋势之间的关联性等。然而,前人的研究主要集中在事务内相关性挖掘发面。引入事务间关联规则的概念,并利用FITI算法研究中国股票市场、债券市场、期货市场变动的关联性,以及不同国家间股票市场的关联性。
  [关键词]数据挖掘 FITI算法 事务间关联规则 板块联动
  中图分类号:F22文献标识码:A 文章编号:1671-7597 (2008) 0220051-02
  
  一、引言
  
  关联规则的概念由Agrawal和Imielinski (1993)提出,是数据中一种简单但很实用的规则。给定一个项的集合,X、Y分别表示两个项集,则关联规则表示为X Y〔1〕。
  传统的关联规则挖掘算法只能挖掘出现在同一事务或同一序列中项间的关联规则。如R1:”若TCL与长虹的股价同时上涨,则当日海信的股价上涨的可能性为80%”。然而股票投资者可能更关心类似R2的规则。R2:”若TCL与长虹的股价在第一个交易日同时上涨,则两日后海信的股价以80%的概率上涨”。
  规则R1显示了同一事务内不同项间的关系,而R2显示了不同事务中在特定维属性上的关联。根据文献〔2〕,称经典的关联规则(如R1)为事务内关联规则,称后者为事务间关联规则。文献〔3〕提出跨事务或事务间关联规则的概念,并将其应用在证券市场分析中。文献〔2〕提出了FITI算法,利用频繁事务内项集产生频繁事务间项集。
  本文利用事务间关联规则挖掘方法研究中国金融市场股票、债券、期货、汇率等指标的相关性,并尝试预测的可能性。
  
  二、问题描述
  
  定义1 定义 表示项目的集合,D是一组非负整数的集合称为域属性。事务数据库是事务的集合,
  是的子集。事务记为, ,。 d表示维属性,E 表示项集。
  定义2事务数据库中的滑动窗口由属性域D上的w个连续区段组成,从区段d0开始以使包含位于区段d0处的事务。称W中的每个区段dj 为W的子窗,记为W[j], 其中j=dj-d0.记j为W中的的子窗数〔3〕。
  本文引入滑动窗口意在描述事务间关联规则所涵盖到的区段个数。为了关联规则挖掘的效率,我们引入maxspan( )这一参数来表示滑动窗口的大小。
  定义3. 设u表示中的事务个数,表示滑动窗口的大小。定义巨事务M为:.
  定义4. 定义一个巨事务中的所有项为扩展项,记所有扩展项的集合为:
  定义 5. 定义项集为事务内项集,项集为事务间(或跨事务)项集。
  定义 6. 事务间关联规则是形如的蕴涵式,并且满足条件:
  定义 7. 设X 、Y是满足定义6的扩展集,则事务间关联规则的支持度(support)与置信度(confidence)定义为:
  
  以下为举例解释上述定义。表1为含有5项事务的事务数据库,这5个事务分别位于区段1,2,4,5,6。令w=4, 则有5个滑动窗口W1, W2, W3,W4和W5 ,分别位于地址1,2,4,5,6。每个滑动窗口包含4个子窗。如W1包含子窗W1[0](含项 a,b),W1[1](含项b,d),W1[2],W1[3](含项 a,b,c,d)。
  每个滑动窗口形成一个巨事务,该巨事务为滑动窗口中所有项的集合。在表1中,W1中的巨事务为{a[0],b[0],b[1],d[1],a[3],b[3],c[3],d[3]}。而 ={a1[0],b1[0],b1[1],d1[1],a1[3],b1[3],c1[3],d1[3],b2[0],d2[0],a2[2],b2[2],c2[2],d2[2],b2[3],c2[3],a3[0],b3[0],c3[0],d3[0],b3[1],c3[1],a3[2],b4[0],c4[0],a4[1],a5[0]}.
  为了能从该事务数据库中挖掘事务间关联规则,我们设定两个必要的参数minsup(最小支持度)与minconf(最小置信度)。令minsup=0.4,minconf=0.8,我们可以从表1中挖掘出的一条规则为:
   (support=0.4, confidence=1).
  表1事务数据库
  
  
  三、事务间关联规则挖掘
  
  与传统关联规则挖掘方法类似,事务间关联规则挖掘包括两步:
  (一)找到支持度高于最小支持度的频繁跨事务项集;
  (二)对每个频繁跨事务项集L,生成满足如下条件的关联规则
  (1)
  (2)
  (3)规则的置信度高于最小置信度。
  根据文献〔3〕, FITI算法包含以下三个步骤:
  (1)挖掘并存储跨频繁的事务内项集;
  (2)讲数据库转换为一组频繁项集编码表(FIT表);
  (3)挖掘频繁事务间项集。
  
  四、算法在中国证券市场的应用
  
  在本节中,我们将FITI算法应用于不同的金融数据中。结果验证了事务间关联规则挖掘方法在股价预测上的效果。
  
  (一)数据集1
  选取中国上证国债指数(GB)、上证综合指数(CI)、人民币欧元牌价(ER)、人民币美元牌价(UR),数据记录从2007年1月23日开始,至2007年6月22日的日数据,除去由于假期等原因产生的非交易日,得到99条记录。
  我们将数据集分为两个部分,”上升”集与”下降”集。前者包含在实验日期上涨的股指、债指和汇率变动方向。而后者包含在实验日当天股指、债指和汇率下行变动的数据。令maxspan=5,以便我们发现五个交易日内的关联规则。实验结果非常有趣。在”上升”组中,我们发现的一条规则为:“ ”(support=0.19,confidence=0.86),即若人民币欧元牌价在第一交易日上涨,且上证国债指数在第二天上涨,则上证综指在第四天上涨的概率为86%。在”下降”组中,一条有趣的规则为“ ”(support = 0.10 ,confidence = 0.81),即若上证综指在第一个交易日下跌且欧元兑人民币汇率在第三天下跌,则上证国债指数在第五个交易日下跌的概率为81%。
  在挖掘出此类规则后,当出现类似前件事件后,投资者可以依照规则购买某种股票或债券。从这一实证研究中,我们可以看到关联规则挖掘方法能够在未知领域发现未知的有益规则。而这种规则将对投资者把握正确投资方向大有裨益。
  
  (二)数据集2
  选取上证综指(SCI)、香港恒生指数(HSI)、台湾加权指数(WTI)从2007年1月1日至2007年6月29日,共129个交易日的日交易数据。与4.1中方法相同,将数据分成”上升”组与”下降”组。在”上升”组中,发现的一条有趣规则为:“ ”(support=
  0.26 ,confidence=0.81)。此规则意味着如果香港恒生指数与台湾加权指数分别在第一个交易日和第二个上涨则,则上证综指以85%的可能性在第五个交易日上涨。
  在这三个指数之间发现的这一规则揭示了香港、台湾以及中国大陆地区间可能存在的股票市场得的相关性。
  
  (三)数据集3
  选取期货连续SHFE铜,LME铜和NYMEX原油,人民币兑美元汇率这四个指标,从2006年7月3日至2007年6月1日334个交易日的日数据。
  根据Karolyi(1991)〔4〕,蒋序标(2004)〔5〕上海期货交易所期铜与伦敦金融交易所期铜间存在价格引导关系。在此,我们加入纽约商交所原油期货及人民币兑美元汇率这两个指标,以期挖掘这四者之间的有益规则。
  当设定maxspan=4时,我们能挖掘出如下规则:“SHFE铜(1),LEM 铜(3)NYMEX原油(3)”(support=0.11,confidence=0.79),即若沪铜在第一天上涨且伦铜在第三天上涨,则纽商交所原油在第三天以79%的概率上涨。
  
  五、结论及展望
  
  传统的关联规则挖掘可用于股价预测,但经典的关联规则挖掘方法只局限于事务内挖掘。本文引入了事务间关联规则挖掘概念。运用FITI算法,我们能够沿不同的属性纬度挖掘事务间关联规则。我们将这种方法应用于中国股票市场的研究之中,发现并证实了其预测效果。最后,我们讨论了这一方法在期货市场的预测应用。通过本文的数据集分析,展示了事务间关联规则挖掘在不同经济指标方面的预测效果。
  
  参考文献:
  [1]R. Agrawal et al,1993. Mining association rules between sets of items in large databases,Proc. of the ACM SIGMOD Conf on Management of Data. 207-216.
  [2] Anthony K.H. Tung et al,1999. Breaking the Barrier of transactions: Mining Inter-Transaction Association Rules, Proc. ACM SIGKDD Intl. Conf. Knowledge Discovery and Data Mining.
  [3] A.K.H. Tung et al,Efficient mining of intertransaction association rules, IEEE Transactions on Knowledge and Data Engineering 15 (1) (2003) 4356.
  [4〕G.A. Karolyi et al,1991. Intrada volatility in the stock index and stock index future markets,Review of Financial Studies. 657-684.
  [5]《LME与SHFE期铜价格引导关系实证研究》蒋序标周志明,系统工程2004,129.
  作者简介:
  邢文婧,女,北京人,北京航空航天大学经济管理学院硕士研究生,主要研究方向为事务间关联规则挖掘在中国证券市场价格预测中的应用。
  注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。
其他文献
[摘要]“百年大计教育为本,教育大计教师为本”。是教育教学的重要实践者。师德建设状况则决定了教师队伍质量的高低,教师的思想政治素质和职业道德水平直接关系到大学生的健康成长。当前条件下,需要进一步加强和改进师德建设,需要建立师德长效机制,才能够保证我国高等教育的迅速发展,才能够顺利贯彻党的教育方针,才能为党和国家培养新时期的一流人才。  [关键词]师德建设 长效机制  中图分类号:G41文献标识码:
期刊
期刊
期刊
6月20日下午,南京外国语学校千余名师生隆重举行大会,欢送比利时籍教师克里斯蒂·波西凯回国。波西凯是1986年应邀来南京任教的。八年来,她以陶为师,教学严谨,为人师表,受到
這是一款以软性硅胶为主体材料的便携智能音箱。Bubble智能音箱以“方”“圆”为主要表现形态;在不凡的音质基础上,不仅手感柔软而且坚实耐用,同时具有防水功能,支持更多的使用场景,用户能够以任意方式使用,抛砸浸泡,Bubble都能应付自如。  Bubble智能音箱拥有超长的续航能力和良好音质效果,可以快速连接bluetooth、wifi、nfc等进行音乐播放,相比同类型的便携智能音箱,此款音箱有着独
[摘要]“下”不仅有多重词性,而且所表达的感情色彩也极为丰富,在一些方言和旧语里面,关于“下”的词语更有其独特的含义。通过对下语的词性、意义及运用的分析,浅谈它在英译过程中的表达方式。  [关键词]“下” “词性” “意义” “英译”  中图分类号:H159文献标识码:A 文章编号:1671-7597 (2008) 0220109-02  “下”语的多重词性决定了它在文学作品以及日常生活表达中的重
期刊
期刊
中图分类号:TP3文献标识码:A 文章编号:1671-7597(2008)0220050-01  所谓的数据挖掘就是从大型数据库的数据中提取人们感兴趣的知识,这些知识隐含的、事先未知的、潜在有用的信息,是统计学在信息技术发展到一定阶段的必然产物。  从技术角度看,数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在的和有用的信息和知