论文部分内容阅读
摘 要:随着我国科学技术的迅速发展,数据挖掘技术也得到了很大的提高,数据挖掘技术中最基本的方法便是统计方法,而随着统计技术的提高也产生了许多新兴数据挖掘技术。因此,为了给数据挖掘研究者提供有价值的建议与实际研究经验,推动数据挖掘技术的进一步发展,进行数据挖掘中统计技术应用深入研究十分必要。本文介绍了数据研究的意义以及现状,并且对数据挖掘中涉及的几种典型统计方法与技术及其实际应用进行了着重分析研究。
关键词:数据挖掘;研究现状;统计技术;实际应用
前言:数据挖掘技术的出现主要是由于随着大数据时代的来临,数据需求量不断增加,在此背景下选择高效的数据处理技术对数据进行各方面的处理就显得尤为重要,因此数据挖掘技术逐渐被人们采用。
数据挖掘技术主要由数据采集、数据分析处理、数据知识规则以及应用服务等几个主要模块组成。其中,数据采集为基础模块,数据分析处理为关键模块,数据规则以及知识为数据表达形式,数据应用及服务为最终目的。大数据时代中存在很多被污染的原始数据,因此要求我们在进行数据挖掘时对收集的数据进行严格筛选。同时需要考虑怎样选择数据,怎样进行数据处理,怎样保证应用统计技术实现数据挖掘。
一、数据挖掘意义与数据挖掘研究现状
1.1数据挖掘意义。数据挖掘技术就是从大数据中通过数据挖掘与分析将所得数据转化为有价值的、新颖的、潜在的数据。其意义在于通过数据挖掘技术可以纠正数据、预测数据走向达到数据可视化的目的,从而帮助数据使用者理解数据的使用价值。
1.2数据挖掘研究现状。当前各国对数据挖掘技术都较为重视,因此从事此方面研究的专家、学者也很多,也取得了一定研究成果:
(1)利用统计方法对复杂数据进行挖掘。多元可加回归树方法于2005年被中国学者尚文娟提出,此方法促进复杂数据的挖掘的发展,并且促使复杂数据挖掘框架的形成。2008年随着新兴海量数据聚类法Q型因子聚类法的提出,大大简化了复杂数据挖掘。此后网页分块抽取数据方法也被提出。
(2)基于神经网络下的数据挖掘。基于神经网络下的数据挖掘主要是为解决水文预报误差问题,通过反馈输入的BP神经网络的研究,为水文预报工作做出很大贡献。
(3)基于遗传算法下的数据挖掘方法。主要是通过对交通运输事故的原因分析,综合统计方法,以此来提高数据利用效率。
二、数据挖掘主要内容
(1)时间序列类数据的挖掘。时间序列数据用于存放随着时间变化的序列值数据,对于国家经济发展具有重要参考价值,还有一些数据可以反映企业财务状况,因此,要想充分了解到研究对象的变化特征及发展趋势,就需要通过对时间序列数据进行挖掘并进一步分析研究。
(2)统计信息数据库数据挖掘。国家统计信息数据库包含国家发展的重要数据信息,通过数据挖掘分析可得出各政府部门工作侧重点,利用统计方法进行数据的挖掘,政府可以得出国民经济发展趋势,进而制定出合适的工作方案。
(3)统计普查数据库的数据挖掘。通过普查国家可以较为精确的掌握国情,通过普查得到的数据进行方式数据挖掘最容易得到可靠真实,有价值的数据。
(4)抽样调查数据库的数据挖掘。由于抽样调查可节约财力物力,获得较为真实的数据,因而比较常见。并且通过抽样调查进行数据挖掘,可以掌握社会经济状况以及人民生活水平,有利于做出正确的社会发展决策。[1]
三、数据挖掘主要方法
1.关联分析方法。关联分析挖掘方法主要是利用数据仓中有价值项目之间的关联规则对关联式的知识或信息进行数据挖掘的方法。主要任务是把复杂数据减少成为方便观察分析的少量静态资料或信息。主要方法是利用不同分类标准进行数据分析,从而实现算法多样化提高挖掘准确性。
2.分类挖掘方法。分类挖掘方法主要利用决策树进行分类,是一种高效且在数据挖掘方法中占有重要地位的挖掘方法。为了对数据进行较为准确的测试并据此分类,我们采用决策树算法,而决策树中比较典型的几种方法为:ID3算法,此方法具有较强的实用性,适用于大规模数据处理;KNN算法,此方法算量较大,适用于分别类别的数据处理,而Reverse KNN算法为KNN算法的改良,可降低KNN算法的计算复杂度,提高效率;Bayes算法,此方法适用于独立样本,并且需得到各类别总体的概率分布。[2]
3.聚类分析挖掘方法。聚类分析挖掘方法主要应用于样品与指标分类研究领域,是一种典型的统计方法,广泛应用于商业领域。此聚类分析方法根据适用对象不同又可分为四种分析挖掘方法:基于网格的聚类分析方法、基于分层的聚类方法、基于密度的聚类挖掘方法和基于模型的聚类方法。
4.预测方法。预测方法主要用于对知识的预测以及对连续数值型数据的挖掘,传统的预测方法主要分为:时间序列方法、回归模型分析法、灰色系统模型分析。而现在预测方法主要采用神经网络与支持向量机算法,进行数据分析计算,同时可预测未来数据的走向趋势。[3]
四、数据挖掘方法的具体应用研究
进行数据挖掘最主要的目的还是探索如何将其更加灵活的运用到各个现实领域中,这也是广大数据使用者以及研究者所关心的主要问题。
1.数据挖掘在商品零售业中的应用研究。关联分析法是商品零售业中最早运用的研究方法,主要原理则是利用销售交易数据库中各销售产品之间的关联规则进行数据挖掘分析。关联规则是利用通过不同算法进行挖掘得出的规则知识。使用关联规则进行数据挖掘必须满足维数足够、数量庞大并且具有条件独立性。关联分析营销方法中的“购物篮分析”是关联规则应用的一个典型实例。当今社会,随着科学技术的不断提高,零售业需求预测系统应用了新兴神经网络预测技术,这一新兴技术大大提高了零售业数据分析挖掘效率,同时也提高了需求预测准确性。
2.数据挖掘在金融、保险、通信业中的实际应用研究。在商业应用方面,数据挖掘过程主要分为三步,首先进行数据收集,其次利用数据挖掘技术方法提取有价值的知识,最后利用提取出的知识辅助相应数据使用者进行决策。近年来,数据挖掘技术广泛运用于保险行业、金融以及通信行业。在银行等金融部门中主要运用于银行客户关系分类管理以及对银行信用卡客户进行信用评级;在保险行业主要是通过神经网络模型实现客户分类评估及风险预测;而在通信行业主要是利用决策树对客户特征及消费行为进行分析,通过对用户行为进行精准化分析得出趋势走向,可以指导运营商制定有效决策,降低通信行业运营商降低运营成本。[4]
3.数据挖掘在基因及生物制药方面的应用研究。在基因方面的研究主要是依据数据挖掘可视化技术利用基因相似性检索对基因序列分析,同时在生物方面数据挖掘技术也得到了广泛运用,利用可视化技术对大分子及化合物的三维致密重建图形进行分析可以进行蛋白质等大分子项目的数据预测。在生物制药方面主要是利用统计技术应用到药效预测、药性分析以及发挥作用时间趋势分析等方面。
结论:经过上述分析研究可发现,进入大数据时代是受数据驱动的世界,数据源庞大且覆盖领域广泛,因此有限筛选数据与高效管理数据变得十分重要,统计分析在数据的挖掘和分析中占有十分重要的地位,掌握利用统计方法进行信息、数据处理以及知识挖掘对当下的我们来说也变得越来越重要,而对于紧跟发展趋势国家和社会来说,投入更多的人力、物力以及财力来进行统计方法的分析以及数据挖掘方法的研究也显得尤为重要。(作者单位:北京大学医学部)
参考文献:
[1] 牛力.数据挖掘中的统计分析技术应用研究[J].广西:广西师范大学学报(哲学社会科学版),2002
[2] 董彩玲.几种典型数据挖掘方法及其应用研究[D].山东:山东大学,2010.
[3] 毕硕本,耿焕同,闾国年.国内空间数据挖掘研究进展与技术体系探讨地理信息世界,2008
[4] 周晓洁,白杨,孙艳华,孙恩昌基于数据归约和面向属性归纳的网络流量分析系统中国电子科学研究院学报,2009
关键词:数据挖掘;研究现状;统计技术;实际应用
前言:数据挖掘技术的出现主要是由于随着大数据时代的来临,数据需求量不断增加,在此背景下选择高效的数据处理技术对数据进行各方面的处理就显得尤为重要,因此数据挖掘技术逐渐被人们采用。
数据挖掘技术主要由数据采集、数据分析处理、数据知识规则以及应用服务等几个主要模块组成。其中,数据采集为基础模块,数据分析处理为关键模块,数据规则以及知识为数据表达形式,数据应用及服务为最终目的。大数据时代中存在很多被污染的原始数据,因此要求我们在进行数据挖掘时对收集的数据进行严格筛选。同时需要考虑怎样选择数据,怎样进行数据处理,怎样保证应用统计技术实现数据挖掘。
一、数据挖掘意义与数据挖掘研究现状
1.1数据挖掘意义。数据挖掘技术就是从大数据中通过数据挖掘与分析将所得数据转化为有价值的、新颖的、潜在的数据。其意义在于通过数据挖掘技术可以纠正数据、预测数据走向达到数据可视化的目的,从而帮助数据使用者理解数据的使用价值。
1.2数据挖掘研究现状。当前各国对数据挖掘技术都较为重视,因此从事此方面研究的专家、学者也很多,也取得了一定研究成果:
(1)利用统计方法对复杂数据进行挖掘。多元可加回归树方法于2005年被中国学者尚文娟提出,此方法促进复杂数据的挖掘的发展,并且促使复杂数据挖掘框架的形成。2008年随着新兴海量数据聚类法Q型因子聚类法的提出,大大简化了复杂数据挖掘。此后网页分块抽取数据方法也被提出。
(2)基于神经网络下的数据挖掘。基于神经网络下的数据挖掘主要是为解决水文预报误差问题,通过反馈输入的BP神经网络的研究,为水文预报工作做出很大贡献。
(3)基于遗传算法下的数据挖掘方法。主要是通过对交通运输事故的原因分析,综合统计方法,以此来提高数据利用效率。
二、数据挖掘主要内容
(1)时间序列类数据的挖掘。时间序列数据用于存放随着时间变化的序列值数据,对于国家经济发展具有重要参考价值,还有一些数据可以反映企业财务状况,因此,要想充分了解到研究对象的变化特征及发展趋势,就需要通过对时间序列数据进行挖掘并进一步分析研究。
(2)统计信息数据库数据挖掘。国家统计信息数据库包含国家发展的重要数据信息,通过数据挖掘分析可得出各政府部门工作侧重点,利用统计方法进行数据的挖掘,政府可以得出国民经济发展趋势,进而制定出合适的工作方案。
(3)统计普查数据库的数据挖掘。通过普查国家可以较为精确的掌握国情,通过普查得到的数据进行方式数据挖掘最容易得到可靠真实,有价值的数据。
(4)抽样调查数据库的数据挖掘。由于抽样调查可节约财力物力,获得较为真实的数据,因而比较常见。并且通过抽样调查进行数据挖掘,可以掌握社会经济状况以及人民生活水平,有利于做出正确的社会发展决策。[1]
三、数据挖掘主要方法
1.关联分析方法。关联分析挖掘方法主要是利用数据仓中有价值项目之间的关联规则对关联式的知识或信息进行数据挖掘的方法。主要任务是把复杂数据减少成为方便观察分析的少量静态资料或信息。主要方法是利用不同分类标准进行数据分析,从而实现算法多样化提高挖掘准确性。
2.分类挖掘方法。分类挖掘方法主要利用决策树进行分类,是一种高效且在数据挖掘方法中占有重要地位的挖掘方法。为了对数据进行较为准确的测试并据此分类,我们采用决策树算法,而决策树中比较典型的几种方法为:ID3算法,此方法具有较强的实用性,适用于大规模数据处理;KNN算法,此方法算量较大,适用于分别类别的数据处理,而Reverse KNN算法为KNN算法的改良,可降低KNN算法的计算复杂度,提高效率;Bayes算法,此方法适用于独立样本,并且需得到各类别总体的概率分布。[2]
3.聚类分析挖掘方法。聚类分析挖掘方法主要应用于样品与指标分类研究领域,是一种典型的统计方法,广泛应用于商业领域。此聚类分析方法根据适用对象不同又可分为四种分析挖掘方法:基于网格的聚类分析方法、基于分层的聚类方法、基于密度的聚类挖掘方法和基于模型的聚类方法。
4.预测方法。预测方法主要用于对知识的预测以及对连续数值型数据的挖掘,传统的预测方法主要分为:时间序列方法、回归模型分析法、灰色系统模型分析。而现在预测方法主要采用神经网络与支持向量机算法,进行数据分析计算,同时可预测未来数据的走向趋势。[3]
四、数据挖掘方法的具体应用研究
进行数据挖掘最主要的目的还是探索如何将其更加灵活的运用到各个现实领域中,这也是广大数据使用者以及研究者所关心的主要问题。
1.数据挖掘在商品零售业中的应用研究。关联分析法是商品零售业中最早运用的研究方法,主要原理则是利用销售交易数据库中各销售产品之间的关联规则进行数据挖掘分析。关联规则是利用通过不同算法进行挖掘得出的规则知识。使用关联规则进行数据挖掘必须满足维数足够、数量庞大并且具有条件独立性。关联分析营销方法中的“购物篮分析”是关联规则应用的一个典型实例。当今社会,随着科学技术的不断提高,零售业需求预测系统应用了新兴神经网络预测技术,这一新兴技术大大提高了零售业数据分析挖掘效率,同时也提高了需求预测准确性。
2.数据挖掘在金融、保险、通信业中的实际应用研究。在商业应用方面,数据挖掘过程主要分为三步,首先进行数据收集,其次利用数据挖掘技术方法提取有价值的知识,最后利用提取出的知识辅助相应数据使用者进行决策。近年来,数据挖掘技术广泛运用于保险行业、金融以及通信行业。在银行等金融部门中主要运用于银行客户关系分类管理以及对银行信用卡客户进行信用评级;在保险行业主要是通过神经网络模型实现客户分类评估及风险预测;而在通信行业主要是利用决策树对客户特征及消费行为进行分析,通过对用户行为进行精准化分析得出趋势走向,可以指导运营商制定有效决策,降低通信行业运营商降低运营成本。[4]
3.数据挖掘在基因及生物制药方面的应用研究。在基因方面的研究主要是依据数据挖掘可视化技术利用基因相似性检索对基因序列分析,同时在生物方面数据挖掘技术也得到了广泛运用,利用可视化技术对大分子及化合物的三维致密重建图形进行分析可以进行蛋白质等大分子项目的数据预测。在生物制药方面主要是利用统计技术应用到药效预测、药性分析以及发挥作用时间趋势分析等方面。
结论:经过上述分析研究可发现,进入大数据时代是受数据驱动的世界,数据源庞大且覆盖领域广泛,因此有限筛选数据与高效管理数据变得十分重要,统计分析在数据的挖掘和分析中占有十分重要的地位,掌握利用统计方法进行信息、数据处理以及知识挖掘对当下的我们来说也变得越来越重要,而对于紧跟发展趋势国家和社会来说,投入更多的人力、物力以及财力来进行统计方法的分析以及数据挖掘方法的研究也显得尤为重要。(作者单位:北京大学医学部)
参考文献:
[1] 牛力.数据挖掘中的统计分析技术应用研究[J].广西:广西师范大学学报(哲学社会科学版),2002
[2] 董彩玲.几种典型数据挖掘方法及其应用研究[D].山东:山东大学,2010.
[3] 毕硕本,耿焕同,闾国年.国内空间数据挖掘研究进展与技术体系探讨地理信息世界,2008
[4] 周晓洁,白杨,孙艳华,孙恩昌基于数据归约和面向属性归纳的网络流量分析系统中国电子科学研究院学报,2009