论文部分内容阅读
数据挖掘是信息领域发展最快的技术,很多不同领域的专家,比如统计学家、数据库专家等,都从中获得了发展的空间,使得数据挖掘日益成为企业界讨论的热门话题。随着信息技术的发展,人们采集数据的手段日益丰富与高明,由此积累的数据日益膨胀,数据量达到GB 甚至TB 级,而且高维数据也日益成为主流。这些海量数据及其高维特征使得传统的数据分析手段相形见绌。计算机性能的日益更新,使得人们能够期望计算机帮助我们分析与理解数据,帮助我们以丰富的数据为基础做出正确决策。数理统计是应用数学中最重要、最活跃的学科之一,它在计算机发明之前就诞生了,迄今已有几百年的发展历史。如今相当强大有效的数理统计方法和工具,已成为信息咨询业的基础。信息时代,咨询业更为发达。然而,数理统计和数据库技术结合得并不算快,数据库查询语言SQL 中的聚合函数功能极其简单,就是一个证明。咨询业用数据库查询数据还远远不够。一旦人们有了从数据查询到知识发现、从数据演绎到数据归纳的要求,概率论和数理统计就获得了新的生命力,所以才会在DM 这个结合点上,立即呈现出“忽如一夜春风来,千树万树梨花开”的繁荣景象。一向以数理统计工具和可视化计算闻名的美国SAS 公司,领先宣布进入DM 行列真正所说明这一点。因此有必要将更多的统计学的知识应用到数据挖掘领域中来,使得DM 得到更充分的发展,使统计学的应用价值得到更充分的体现。本文主要是探索一些可操作性强、实时性的统计挖掘方法,并应用到沪、深股市的研究中,得到了非常好的效果。这种不同于静态分析的方法对我们面临的大量数据能够非常及时的作出分析、判断。第一章介绍了数据挖掘的一些相关概念、基础知识以及国内外的发展现状。第二章我们应用一些非常成熟的方法,在闫冀楠[1]的基础上对沪、深股市作了进一步分析,给出了我国股票市场运行并非完全有效的有力论断,为后面的工作提供基本前提。第三章应用线性模型的相关理论,提出了新的检验创新异常点的方法,并在我国证券市场进行实证分析,获得较好的结果。第四章应用异常诊断中一些常用距离方法(Cook 距离法、似然距离法),并在此基础上给出了一种新的Cook 距离,在证券实证分析中挖掘出效率很高的“线