利用关联规则算法对足球赔率进行数据挖掘的研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:greenplastic
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
足球赔率是博彩公司根据其利用几年乃至数十年所积累的大量的、丰富的与足球比赛相关的各种数据数据,利用科学的、严谨的数学理论以及投注人心理研究等模型,通过计算得出的对于一场足球比赛产生某种结果的概率并加以转换得到的一组数据。没有经过博彩公司加工的赔率数据是可以真实反映比赛结果发生的可能性的。博彩公司为了获得最大的收益,不会把纯净的概率数据公布给投注人,而是会对计算得出的比赛结果的概率做一些调整。调整的数据即博彩公司公布的比赛赔率。调整的过程也是在经过精密的计算得出的概率基础之上通过某种模型变化而得到的。经过调整的赔率与原始的纯净的概率之间必然存在某种隐藏的联系和规律。   本文介绍了足球比赛赔率计算的基本方法和通用的数学模型,利用脚本语言编写Apriori算法,实现对足球比赛赔率数据的数据挖掘工作。在数据收集的阶段,根据实际的比赛赔率的数据特点,进行数据表结构的设计和数据的录入。在数据预处理阶段,经过对数据特点及算法特点的分析,设计适合Apriori算法实现并且方便进行数据挖掘的数据结构,编写脚本程序,完成数据清洗和数据转换工作。利用脚本对数据进行数据清洗,发现错误数据,对错误数据进行人工修正;利用脚本程序把数据表中的数据转换成不容易引起误会并且方便脚本程序使用的数据项,生成挖掘使用的数据项表及原始数据与挖掘数据的对应表,完成数据转换。   在利用Apriori算法实现对现有的数据进行数据挖掘阶段,运行脚本程序生成频繁K项集,利用原始数据与挖掘数据对应表进行转换得出关联规则。对于挖掘得出的结果进行分析,发现典型、有趣的规则。   为了达到研究的最佳效果,利用Microsoft SQL Server2008使用关联规则算法对足球比赛赔率数据进行更为细致和全面的反复挖掘,对得到的结果进行比较、筛选,选取最优的结果进行分析。
其他文献
随着网络的发展,因特网成为目前使用最广泛,规模最大的信息源,为了方便、高效的从网络上获取所需要的信息,人们广泛使用搜索引擎来进行信息搜索。然而搜素引擎搜索出来的信息都是
H.264是MPEG和VCEG联合开发的视频压缩编码标准,其性能远远高于早期的MPEG-4和H.263编码,在2003年被ITU-T通过并且在国际上正式颁布。H.264具有高效的编码效率及网络亲和力,
作为自然语言处理的一个研究重点,语义角色标注(Semantic Role Labeling,简称SRL)是浅层语义分析的一种实现方式,它标注出句子中与谓词(可以是动词或名词等)相关的语义角色,
随着智能移动设备的日益普及,移动互联网技术的迅速发展,出现了各种各样的移动应用,而这些应用多数都是计算密集型的。为了获取良好的用户体验,移动设备就必须拥有较高的配置
加壳技术是保护软件知识产权的常用方法,但是常被恶意代码用来躲避杀毒软件的检测,因此对脱壳技术的研究是恶意代码分析的重要部分。当前已有很多有效的脱壳技术,例如定向脱壳技
聚类分析是数据挖掘的一个重要研究领域,已被广泛应用于统计学、生物学和市场营销等领域。目前学者已经提出了许多聚类算法。然而传统的聚类算法常常遭遇“维度效应",导致算
视频序列图像中对运动目标进行检测与跟踪是计算机视觉研究中一个相当活跃的领域,其目的是使计算机通过视频序列图像认知场景中的信息,并为图像分割、图像理解、行人识别、行为
当前,生命医学研究正处于后基因组时代。系统地分析和全面理解蛋白质之间通过相互作用完成生命活动的规律成为最热的研究问题之一。特别是,从大规模蛋白质相互作用网络中识别蛋
二维卡通动画以其丰富的表现力和独特的风格深受人们的喜爱,也广泛被应用于广告、教育、娱乐等领域。到目前为止,已有大量的二维卡通动画片被创作出来。二维卡通动画的制作是
工作流挖掘的目的是从事件日志中提取任务的执行轨迹信息,建立清晰的工作流模型。目前的算法大都采用局部策略,难以处理复杂的控制流结构,且抗噪音能力比较弱。而用于工作流