论文部分内容阅读
目的:糖尿病指的是由于身体机能失衡,所导致的以血糖高于正常值范围为主要表现的全身进行性疾病,其并发症多,患病率高,已经逐渐成为了影响世界各国的一个重要公共问题。根据国际糖尿病联盟(IDF)截止到2013年底的数据显示,2013年间,全球死于糖尿病相关疾病的人数超过了510万,达到了全年死亡人口的8.39%,全年的相关医疗花费达到了5480亿美元,占到了全部花费的11%,其中我国从进入21世纪以来,糖尿病人口数不断上升,到2013年底,已经成为了世界上患病人数最多的国家,达到了9840万人。所以如何运用统计学的方法对糖尿病数据进行分析,从而有效地预防该病的发生和发展,具有很好的现实意义。本文的研究主要有以下两个目的:第一将CLIQUE网格聚类算法运用到糖尿病患者的时空数据中并与基于划分(K-means算法)和基于密度(DBSCAN算法)的算法进行比较;第二对聚类结果中各个维度(如年龄、性别、生活习惯等方面)进行进一步分析,预防糖尿病的发生。方法:空间数据挖掘中的聚类分析是数据挖掘研究中一个重要领域,它既可以作为一个单独的工具发现数据库中隐藏分布的一些信息,也可以作为其他数据挖掘算法的预处理步骤。它主要目的是将数据集划分为若干个簇,使得簇内差异最小,簇间差异最大。在描述簇间的相似度大小时,主要是根据对象间的距离来确定的,距离越大,相似度越小,常用的距离有欧几里得距离和曼哈坦距离以及明考斯基距离。网格聚类技术是指把数据空间分成确定数目的网格单元来构建网格结构,然后再在得到的网格上进行聚类操作,与传统的聚类算法相比,基于网格的聚类算法具有更高的效率,且能够识别任意形状的簇,网格聚类分析现已被广泛的应用于模式识别、数据分析以及图像处理等领域。结果:得到了聚类时间以及内在外在方法的聚类精度方面的结果,通过对这些结果的分析可以得出以下的结论。结论:本文利用统计学上的三种聚类算法对美国130所医院10年间的糖尿病病人的相关数据进行实例分析,并对聚类结果在运算时间、结果的精确度方面进行了比较,通过比较可以发现无论是时间还是精度方面,结果最好的聚类算法是CLIQUE算法,其次为DBSCAN算法,最差的为K-means算法。