论文部分内容阅读
在日常生活中我们时时刻刻都会遇到大量数据,其实真正有用的信息是隐藏在数据之后的整体特征描述和发展预测.
同学们可能听说过谚语:矮娘矮一个,矮爹矮一窝;四十三,花眼关;七十三,八十四,阎王不叫自己去等.这其实都是一些数据统计规律.如最后一条虽然是借用了孔孟两大圣人的享年,但我国人口普查资料表明,在73岁和84岁时,人较易死亡,即其作为人类死亡线的两个峰值有着深刻的数据分析背景,
数据分析理论可追溯到距今近三千年的周朝著作《易经》,相传其为伏羲、周文王、周公旦等先后编撰,该宏著以大自然现象的数量表现为研究对象,以太极、两仪、四象、八卦、六十四支直至三百八十四爻的统计方法,通过各种演变结果进行推算和预测.后经孔子立著,在我国汉代以后产生了极为深远的影响.
1.原始统计思想.
数据分析可谓古而有之.数(shù)的概念源于数(shǔ),数(shù)由人类智慧所创造,可用来数(shǔ)各种集合中的对象数目,其与对象特征无关.如某个部落必须知道其有多少成员,有多少敌人,捕获了多少猎物等.即使一个人也需要知道他羊群里的羊有多少.或许最早的统计方法就是使用简单的一一对应原则来进行的,即不断地数(shǔ)与量(liáng).最早人类可能是用手指记数,当十指不敷运用时,随处可见的石子便成了替代与补充,
《周易·系辞下》云:上古结绳而治,后世圣人易之以书契,百官以治,万民以察.显然记数的石子堆难以长久保存信息,故而产生了结绳记数:重要之事,则在某绳上系个大结:一般之事,则系个小结.这说明那时已用结绳法来表现社会现象的数量,并产生了简单分组(大事、小事)与简单分组总量指标(大事件数、小事件数).后来,随着社会的进步和发展,书契记数诞生了.所谓书契就是在某些物品(如狼骨)上刻画符号,是一种以数字为主体的经济记录方法.结绳、刻痕之法大约持续了数万年之久,才迎来书写记数的诞生.
2.觅求数据规律.
数据分析之目的就是把隐藏在一堆看似杂乱无章数据中的信息集中和提炼出来,以寻找其内在规律,这可帮助人们做出正确判断,以采取适当行动.
古人在探索大自然奥秘的过程中,十分注重调查研究,可谓上至天文,下至地理,涉及很多方面,如在《周易·系辞上》中说:仰以观于天文,俯以察于地理,是故知幽明之故.大意为抬头仰望天象,低头查勘地理,因而可知幽暗和光明的道理.在《萃·彖》中有“观其所聚,而天地万物之情可见矣”,即观察事物的聚散情况,可探求其发展规律.而在《恒·彖》中有“观其所恒,而天地万物之情可见矣”,指观察其经常存在的部分,亦可了解到万物内在的道理,即透过现象看本质.“其称名也小,其取类也大”(《周易·系辞下》),则说明具体看一个事物是比较局限的,但其所代表的类别则有可能较大.止匕乃由个体来推论整体的性质.
“彰往而察来,而微显阐幽”“极数知来之谓占”都是说先要收集资料,了解过去,再根据一定的数学原理建立统计模型,才能预测事物的发展规律.可见古人首先对自然现象进行了广泛观察,找出了最为典型的事物作为代表,其次编制出了一套符合自然规律的符号体系,应用其去概括自然界万物的相互联系,用太极、两仪、四象、八卦、六十四支直至三百八十四爻来半定量地描述其复杂的动态变化.古人较多应用定性的类比方法找出不同事物之间的共同点,从而做出联想、推断和预测.
3.平均数的应用.
为了有利于数据分析,《周易》提出和应用了统计分组和平均数的概念.在《周易·系辞上》首先提出“方以类聚,物以群分”的统计分类思想,即我们通常所说的物以类聚,人以群分,通观《周易》,可见其体现了现代统计分组法的基本思想,即同类事物聚在一起不是偶然的,而是在同质基础上聚为一类,观察这些同类群体可洞察万物之本质,按不同类别分辨事物时,不要混淆其差别.
平均数思想主要体现在《谦》中,“谦,君子以裒多益寡,称物平施”.“裒”(póu)指减少,“益”为增加,“裒多益寡”就是指对研究对象的各个单位数量减有余而补不足,“称物平施”即指衡量事物要均等,故而大意为截取多余、增加匮乏,衡量事物的多寡而公平给予.这就为平均数理论奠定了基础.平均数就是对研究对象的某个数量标志的变量减有余而补不足所求得的一般水平.计算平均数的作用就在于衡量事物要均等.
需要说明的是,平均数有时可能会掩盖原始数据的某些信息,还会受到极端值的影响.如班级平均分数往往会因为一两名不及格的同学而大幅下降.在各种比赛中,采用“去掉一个最高分,去掉一个最低分,再取平均值”的方法,是因为将少数异常值去掉后计算出的平均值具有更好的代表性与稳定性,
包含大量繁杂数据的信息对每个人都是平等的,差别在于是否能从中甄别规律,从而更好地理解世界,抓住机遇.运用数据进行推断的思考方法,是现代社会普遍适用且强有力的思维方式,是信息时代每个公民基本素养的一部分.同学们要养成用数据说话的态度,逐步形成科学的世界观与方法论.
同学们可能听说过谚语:矮娘矮一个,矮爹矮一窝;四十三,花眼关;七十三,八十四,阎王不叫自己去等.这其实都是一些数据统计规律.如最后一条虽然是借用了孔孟两大圣人的享年,但我国人口普查资料表明,在73岁和84岁时,人较易死亡,即其作为人类死亡线的两个峰值有着深刻的数据分析背景,
数据分析理论可追溯到距今近三千年的周朝著作《易经》,相传其为伏羲、周文王、周公旦等先后编撰,该宏著以大自然现象的数量表现为研究对象,以太极、两仪、四象、八卦、六十四支直至三百八十四爻的统计方法,通过各种演变结果进行推算和预测.后经孔子立著,在我国汉代以后产生了极为深远的影响.
1.原始统计思想.
数据分析可谓古而有之.数(shù)的概念源于数(shǔ),数(shù)由人类智慧所创造,可用来数(shǔ)各种集合中的对象数目,其与对象特征无关.如某个部落必须知道其有多少成员,有多少敌人,捕获了多少猎物等.即使一个人也需要知道他羊群里的羊有多少.或许最早的统计方法就是使用简单的一一对应原则来进行的,即不断地数(shǔ)与量(liáng).最早人类可能是用手指记数,当十指不敷运用时,随处可见的石子便成了替代与补充,
《周易·系辞下》云:上古结绳而治,后世圣人易之以书契,百官以治,万民以察.显然记数的石子堆难以长久保存信息,故而产生了结绳记数:重要之事,则在某绳上系个大结:一般之事,则系个小结.这说明那时已用结绳法来表现社会现象的数量,并产生了简单分组(大事、小事)与简单分组总量指标(大事件数、小事件数).后来,随着社会的进步和发展,书契记数诞生了.所谓书契就是在某些物品(如狼骨)上刻画符号,是一种以数字为主体的经济记录方法.结绳、刻痕之法大约持续了数万年之久,才迎来书写记数的诞生.
2.觅求数据规律.
数据分析之目的就是把隐藏在一堆看似杂乱无章数据中的信息集中和提炼出来,以寻找其内在规律,这可帮助人们做出正确判断,以采取适当行动.
古人在探索大自然奥秘的过程中,十分注重调查研究,可谓上至天文,下至地理,涉及很多方面,如在《周易·系辞上》中说:仰以观于天文,俯以察于地理,是故知幽明之故.大意为抬头仰望天象,低头查勘地理,因而可知幽暗和光明的道理.在《萃·彖》中有“观其所聚,而天地万物之情可见矣”,即观察事物的聚散情况,可探求其发展规律.而在《恒·彖》中有“观其所恒,而天地万物之情可见矣”,指观察其经常存在的部分,亦可了解到万物内在的道理,即透过现象看本质.“其称名也小,其取类也大”(《周易·系辞下》),则说明具体看一个事物是比较局限的,但其所代表的类别则有可能较大.止匕乃由个体来推论整体的性质.
“彰往而察来,而微显阐幽”“极数知来之谓占”都是说先要收集资料,了解过去,再根据一定的数学原理建立统计模型,才能预测事物的发展规律.可见古人首先对自然现象进行了广泛观察,找出了最为典型的事物作为代表,其次编制出了一套符合自然规律的符号体系,应用其去概括自然界万物的相互联系,用太极、两仪、四象、八卦、六十四支直至三百八十四爻来半定量地描述其复杂的动态变化.古人较多应用定性的类比方法找出不同事物之间的共同点,从而做出联想、推断和预测.
3.平均数的应用.
为了有利于数据分析,《周易》提出和应用了统计分组和平均数的概念.在《周易·系辞上》首先提出“方以类聚,物以群分”的统计分类思想,即我们通常所说的物以类聚,人以群分,通观《周易》,可见其体现了现代统计分组法的基本思想,即同类事物聚在一起不是偶然的,而是在同质基础上聚为一类,观察这些同类群体可洞察万物之本质,按不同类别分辨事物时,不要混淆其差别.
平均数思想主要体现在《谦》中,“谦,君子以裒多益寡,称物平施”.“裒”(póu)指减少,“益”为增加,“裒多益寡”就是指对研究对象的各个单位数量减有余而补不足,“称物平施”即指衡量事物要均等,故而大意为截取多余、增加匮乏,衡量事物的多寡而公平给予.这就为平均数理论奠定了基础.平均数就是对研究对象的某个数量标志的变量减有余而补不足所求得的一般水平.计算平均数的作用就在于衡量事物要均等.
需要说明的是,平均数有时可能会掩盖原始数据的某些信息,还会受到极端值的影响.如班级平均分数往往会因为一两名不及格的同学而大幅下降.在各种比赛中,采用“去掉一个最高分,去掉一个最低分,再取平均值”的方法,是因为将少数异常值去掉后计算出的平均值具有更好的代表性与稳定性,
包含大量繁杂数据的信息对每个人都是平等的,差别在于是否能从中甄别规律,从而更好地理解世界,抓住机遇.运用数据进行推断的思考方法,是现代社会普遍适用且强有力的思维方式,是信息时代每个公民基本素养的一部分.同学们要养成用数据说话的态度,逐步形成科学的世界观与方法论.