论文部分内容阅读
不平衡数据集是指类与类之间的尺寸、样本个数以及样本密度等参数差别很大,这种数据类型存在于很多实际的问题中,例如医学疾病数据、网络异常数据、宏基因组数据等。对这些不平衡数据集,利用传统的无监督分类方法,如模糊c均值算法进行聚类,效果并不理想。到目前为止,绝大部分关于不平衡数据的分类研究都集中在有监督分类领域。因此,研究并改善传统的无监督分类方法对不平衡数据的聚类性能,对进一步完善不平衡数据的分类研究、扩大传统无监督分类方法的适用范围,具有十分重要的意义。本文以模糊c均值算法(fuzzy c-means method,FCM)为基础,重点研究利用该方法对不平衡数据进行聚类分析时所涉及的几个关键问题,并将研究成果应用于宏基因组DNA重叠群的无监督分类,具体研究内容如下:(1)提出一种基于聚类体量约束的模糊c均值算法传统FCM算法对不平衡数据聚类效果不理想的根本原因是其使用了一种平方和形式的代价函数,最小化该代价函数将使得聚类结果中各类间的样本数量相近。因此,在不平衡数据的聚类结果中,一部分来自多数类的样本会被误分到其相邻的少数类中。为了解决此问题,本文提出一种基于聚类体量约束的模糊c均值算法,该算法在考虑各个类的体量(类的体量是指所有样本对于某一类的隶属度值之和,可用来衡量类的大小)的基础上构造了一个新的代价函数,该代价函数在聚类结果中允许少数类的存在,从而改善了传统的FCM算法对不平衡数据的聚类性能。同时,对平衡数据,该算法具有与传统FCM算法相同的聚类性能。(2)提出一种基于聚类体量约束的模糊c-harmonic均值算法针对传统FCM算法因对初值敏感而易陷入局部最优的缺陷,在(1)中所提算法的基础上,结合c-harmonic均值算法,提出了一种基于聚类体量约束的模糊c-harmonic均值算法,该算法对初值不敏感,同时对不平衡数据具有良好的聚类性能。(3)提出一种新的适用于不平衡数据的聚类准则函数在无监督分类中,确定聚类个数十分重要。利用FCM算法进行聚类分析时,需要预先设定聚类个数。确定聚类个数的一般方法为:分别以不同的聚类个数运行若干次FCM算法,再用一个事先定义的函数从中确定最优的聚类结果,该函数一般称为聚类准则函数(clustering validity index,CVI)。现有的CVI一般是通过计算各个类内的聚合度以及类间的分离度来评价聚类结果。然而,在不平衡数据中,类间的尺寸会影响聚合度的评价效果。基于此,本文通过考虑聚类体量定义了一个新的类内聚合度,并结合传统类间分离度,提出一种新的聚类准则函数。该函数不仅可以有效地评价不平衡数据的聚类结果,而且对于平衡数据也具有良好的评价性能。(4)研究基于不平衡数据分析的宏基因组重叠群分类宏基因组学利用新一代测序技术在不经过实验室培养的情况下,能够获取环境中绝大部分的遗传物质。与传统的测序方法不同,宏基因组测序得到的原始数据是大量的、长度较短的、来源于多种微生物的DNA片段。研究人员根据DNA片段之间的重叠关系可以将这些零碎的短片段组装成长度较长的DNA序列,生物信息学中称这种组装之后的DNA序列为重叠群(contigs)。将这些重叠群依据其物种归属进行分类是宏基因组数据分析中十分重要的一步。然而,受宏基因组中不同物种间的丰度比、基因组长度等因素的影响,组装后属于不同物种的重叠群数量往往相差很多,因此,宏基因组重叠群数据是一种典型的不平衡数据集。如何对其进行有效地分类,是目前的一个研究难点。为了提高宏基因组重叠群的分类精度,本文利用上述研究成果对宏基因组重叠群进行基于不平衡数据的聚类分析。首先,根据已有细菌的全基因组长度以及宏基因组的平均覆盖率来估计宏基因组中的物种个数区间;其次,提取DNA重叠群的数字特征向量;最后,利用基于聚类体量约束的模糊c-harmonic均值算法和适用于不平衡数据的聚类准则函数完成重叠群的分类。与现有的重叠群无监督分类方法相比,该方法具有更好的分类效果。综上,本文进行了系统的面向不平衡数据的无监督分类研究,提出了从初值选取、无监督分类到聚类准则函数的完整的、适用于不平衡数据的算法体系,并将以上算法应用到宏基因组重叠群分类中,取得了比现有方法更好的分类效果。