论文部分内容阅读
信息是正确决策的基础,信息的数量和质量以及处理信息的技术直接影响其作为决策基石的功能发挥。信息时代下互联网技术的飞快发展以及由此引发的生产力变革,人们能够记录、存储和传递的信息越来越多,而当信息变得可记录、存储和便于传递时,信息即变为现代意义上的数据,如今,一个以海量、易变、传送及时、形式多样为特征的信息爆炸时代真正来临,形成现今被人们称之为的“大数据时代”。大数据时代的来临正在改变着传统的数据分析方法、思维及其范式,给统计学的发展带来了一次全新的思维盛宴,为统计人的自我价值实现及其价值创造提供了一个千载难逢的机遇,具体体现在:(1)一方面是数据范围的扩展,即样本数据扩展到总体数据,另一方面是数据类型的扩展,即从结构性数据扩展到半结构性数据和非结构性数据。传统的、成熟的数据分析处理技术基本都是针对结构性数据的,面对大数据时代的新情况,现有的分析技术显然力不从心,如何将半结构性数据和非结构性数据转换成结构性数据或者创造新的方法与技术,使之适应大数据分析不仅需要新的方法与技术,而且更需要新的思维;(2)—方面海量数据,尤其是没有统一结构和一致性表述方式的海量数据如何纳入统计学研究范围,并开创性地探寻相应的统计方法与技术需要统计新思维与智慧,另一方面数据流的统计分析是一个全新的课题,如何让统计学也流动起来显然不是现有统计思想、方法与技术所能解决的,它需要全新统计学工具;(3)大数据产业化或统计产品市场化将彻底改变统计人在实践中的依附性,统计人的价值创造将变得更加直接与显形化,实现这一目标不仅需要统计新思维,而且更需要我们的自信与努力。然而,我们也必须认识到,大数据时代所带来的这些变化在凸显现有数据分析在数据中挖掘有效信息不足的同时,大数据分析所带来的数据挖掘过度的问题同样不容忽视。大数据概念自2012年被提出以来,立刻引起了世界各国全社会极大的关注,众多的学者及实践工作者都投身于这一领域的研究与相关产品的开发、应用,形成了一系列相关的研究文献和大数据产品。然而,大数据分析以及大数据产业化作为一个全新的领域,其各方面的研究不仅有待进一步深入,而且还有很多研究空白等待大家去填补,本文在对大数据相关基本概念及其发展现状进行系统梳理的基础上,通过对大数据概念的界定,从统计学的视角,并结合信息科学、信息经济学和工程技术分析方法阐述了信息与大数据的关系、大数据的特点、大数据的时代特征与挑战,以及传统统计学与大数据分析的差别、联系和影响,探讨了大数据分析的价值创造过程及其度量,同时从数据安全与转换、模型设定及其构造和人为因素等方面讨论了大数据分析可能存在的技术风险、道德风险和决策风险,并在风险因素分析的基础上,依据相应的风险管理理论提出了大数据分析过程中各类风险的防范措施。最后,以次贷危机事件为案例,利用历史分析法说明了信用评级过程中大数据分析及应用的风险。全文由导论,信息、结构性数据和大数据,大数据的经济价值,大数据背景下的数据挖掘风险,数据过度挖掘风险防范的措施,案例分析——以次贷危机中的信用评级为例和结论与展望七章构成,主要研究内容包括:1.大数据的经济价值及过度挖掘风险。在大数据时代,数据的公共产品或准公共产品性质将越来越明显,在充分论证数据分析与使用过程中外部性特征的前提下,数据的价值由私人价值与社会价值两部分组成,无论是私人价值还是社会价值,其价值大小的体现取决于数据分析的深度与广度,而当数据分析方法滥用或将统计结论视为确定性结论来处理时便存在过度挖掘风险。2.数据过度挖掘的原因剖析。对数据过度挖掘将使信息安全性面临重大的挑战,信息安全问题包括两个层面的内容,一是利用更先进的技术手段和模型去揭示违背社会基本规则的客观状况,它属于真实信息揭示,但这类信息的揭示会影响社会正常的运行;二是揭示与事实不一致的信息,通称为噪声信息,其中这个层面的过度挖掘又包括主观与非主观的噪声信息制造。显然,不同表现形式的过度挖掘其背后存在着不同的原因与动机,对其原因的剖析是防范数据过度挖掘风险的基础。3.模型与技术分析的复杂化与过度挖掘风险。崇尚科学是人类社会的基本理念,然而在现实中,崇尚科学却演化成为追求模型与技术分析的复杂化,复杂的模型与技术分析需要更高层面的抽象,从而更可能导致技术分析前提与现实不一致、样本数据不具有代表性、模型设定错误等问题,在一定程度上使得技术分析成为噪声信息制造的帮凶,由此引发过度挖掘风险。4.机会主义动机与过度挖掘风险。信息市场也是一个不完全市场结构,这为具有良好声誉的信息提供者获取超额利润创造了机会,在特定背景下,机会主义动机就会演化成道德风险,尤其是当他利用专门分析技术和模型,通过有意识的或刻意的技术处理去挖掘出满足自己需要的信息时,道德风险也就转化成过度挖掘风险。5.过度挖掘与决策风险。现有层级制度安排决定了分析人员与决策者的分离,分析师与决策者的利益并非始终是一致的,分析师与决策者往往具有知识非对称性的特点,理性的分析师在自身利益最大化的驱使下,极易诱发追求模型与技术分析的复杂化,无论是分析师刻意用复杂的模型去论证决策者的想法,还是为了标新立异,其间均存在过度挖掘风险,当决策者以分析师的结论为依据做出决策时,过度挖掘风险则转变成决策风险。经过梳理、分析、论证与研究,论文得到如下基本结论:一、大数据的数据就是信息,只不过大数据被赋予了更多的与变革相关的含义在内,它是集数据(所有类型数据)采集、处理、转换、存储、传递、分析、算法和应用,乃至产品化和产业化的全过程,这种全过程不仅使传统的数据分析得以变革,而且甚至会改变我们的工作属性与生活方式。大数据具有信息的所有属性,数据价值就等同于信息价值。统计学与大数据科学有着技术上的关联和思想上的共鸣,大数据在社会经济现象与相关规律的挖掘上功能更强。从技术角度看,大数据科学是植根于信息科学的一门学科,所以,要应用好大数据关键在于信息科学技术的完善和进步,而单纯依靠统计学显然是无法支撑大数据发展的。二、大数据是对信息资源的开发、传送及其应用的全过程,这就决定了大数据的经济价值便是信息开发到应用全过程的价值增值,信息的很多独特特性为信息价值评价增加了难度。而当我们将信息的价值区分为狭义价值与广义价值时,则可分别对其进行评价与度量,就狭义的信息价值评价而言,信息价值度量只是针对某一特定的、具体决策的私人评价,其实质并未解释全部的信息价值,只是对特定决策项目的信息价值的实现。为此,我们提出了广义的信息价值评价方法,认为信息价值应该由私人价值和净外部经济价值两部分共同构成。此外,通过数据的组合分解,大数据更便于发现复杂数据集间的相互关系,从而更好地发现规律并实现价值。三、数据分析的关键是从纷繁复杂的数据中发现新信息,进而提升对事物的了解,做出科学合理的决策。大数据使得人们可利用的信息数量大大增长,但不确定性依旧存在,风险依旧存在,对于数据分析而言,这类风险有两类:数据挖掘过度和数据挖掘不足。所谓数据挖掘不足就是指没能从数据中挖掘出有价值的信息,或者说数据集本身客观存在有价值的联系或规律,但却没能得到揭示。而数据挖掘过度就是指从数据中挖掘出不真实的信息或伪信息,其中也包括真实信息被坏人利用的情况。数据挖掘不足可能会造成机会损失,数据挖掘过度则可能导致错误判断的直接损失。导致数据过度挖掘的因素很多,其中非结构性数据到结构性数据无法实现等价转换是很多风险的源头。四、次贷危机让人们关注评级机构的工作失误,更开始反思评级工作的客观和公正性。通过对评级机构具体评级工作的梳理发现,评级的方法和程序看上去逻辑严密,定量分析准确,事实上,具体的工作中有大量非结构性数据的使用,这就导致了具体评级要素、分析权重等关键信息无法公开,直接造成整个评级过程缺乏透明度和客观性,进而导致评级结果缺乏公信力。这是非结构性数据过度挖掘的典型案例。