【摘 要】
:
聚类分析的目标是对一组对象进行聚类,使同一集群之间的对象之间在某种意义上比其他集群中的对象更相似,它是探索性数据挖掘的主要任务。聚类分析主要研究两类问题:一是对给
论文部分内容阅读
聚类分析的目标是对一组对象进行聚类,使同一集群之间的对象之间在某种意义上比其他集群中的对象更相似,它是探索性数据挖掘的主要任务。聚类分析主要研究两类问题:一是对给定簇数如何合理的进行聚类,二是如何合理的估计簇数。本文研究第二个问题中GS方法的参考分布问题。Tibshirani R等人在2000年提出GS(Gap Statisic)方法,该方法引入一个参考分布,通过比较参考数据集和样本数据集的类内离差程度来估计最佳聚类数,并得到在分布为对数凹且一维情况下,参考分布为均匀分布的结论。因此,根据已有结论,GS方法适用于一维且对数凹情况下的数据集,但并不知道是否适用于不满足该条件数据集的最佳聚类数估计。本文提出研究逐段均匀条件下GS方法不同维度的参考分布问题。首先,应用Lagrange乘数法求解最小化类内平方和条件下的参数估计问题,其次,从范数的角度对同样的问题进行更深层次的论证。针对一维、二维的情况,得到了该条件下参考分布仍为均匀分布的结论,在此基础上证得在多维边缘为逐段均匀的条件下,其参考分布仍为均匀分布的结论。由此做出总结:针对任何有限维,逐段均匀分布条件下GS方法的参考分布都是均匀分布。在论证的过程中,也得到了在满足上述条件且簇在坐标轴上的投影两两不交,边缘分布呈均匀分布的情况下,点集6)的计数测度为k的阶乘的结论。
其他文献
黄曲霉毒素B1(AFB1)是一种真菌类毒素,在自然界中存在较为广泛,具有极强的致癌性和致畸性,时至今日未曾有安全有效的方法降解AFB1。本文通过在粮食上筛选出能够有效降解AFB1
厌氧侧流磷回收是将主流EBPR系统厌氧末期富磷上清液按一定比例提取至侧流沉淀池中进行磷回收,侧流反应结束后,沉淀池中的上清液又返回至主流EBPR系统参与后续好氧反应以完成
近年来,由于多氯联苯(PCBs)和多溴联苯醚(PBDEs)等持久性有机污染物(POPs)对生物体具有多种毒性,受到越来越多的关注。POPs会随着大气循环和水循环进入海洋环境中,通过食物链
随着我国民航运输业的快速发展,航线资源被不断开发,大型枢纽机场也随之不断扩容。高密度的航班起降,使机场场面运行面临的压力愈发沉重,航班保障作业需求和地服保障容量在供
拟似然非线性模型由于只需要已知响应变量Y的一、二阶矩,而不需已知Y的具体分布,所以具有普遍的适用性。本文主要通过经验似然方法对拟似然非线性模型进行了系统的统计诊断分
本文研究了非线性模型在带有右删失数据下如何进行统计诊断的问题,是对普通非线性模型进行了推广。首先在数据发生右删失的情形下,重新构造了对数似然函数,并用高斯-牛顿迭代
机场刚性道面的结构性能会在使用过程中衰减,为保证飞行安全与使用性能,需要定期评估其结构性能,土基和基层顶面反应模量是表征结构性能的两个重要指标。目前,落锤式弯沉仪(F
航空发动机是飞机最为核心的部件之一,而高压压气机在高速旋转的时候,转子的不平衡量对整机振动有较大的影响,已成为导致航空发动机振动故障的主要因素之一。高压压气机转子
水体中重金属污染对人类健康和环境污染最严重污染之一。随着国家推进生态文明建设,使重金属废水处理成为大家研究的热点。络合-超滤工艺对处理重金属废水有良好的效果,且能
石油作为不可或缺的重要能源和化工原料来源,在推动人类社会快速发展的同时,频发的溢油事故也带来了严重的财产损失和生态环境问题,因此如何实现对石油类油液的快速、准确检