不平衡数据的模糊聚类算法研究及在宏基因组重叠群分类中的应用

来源 :吉林大学 | 被引量 : 0次 | 上传用户:GPSCMP
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
不平衡数据集是指类与类之间的尺寸、样本个数以及样本密度等参数差别很大,这种数据类型存在于很多实际的问题中,例如医学疾病数据、网络异常数据、宏基因组数据等。对这些不平衡数据集,利用传统的无监督分类方法,如模糊c均值算法进行聚类,效果并不理想。到目前为止,绝大部分关于不平衡数据的分类研究都集中在有监督分类领域。因此,研究并改善传统的无监督分类方法对不平衡数据的聚类性能,对进一步完善不平衡数据的分类研究、扩大传统无监督分类方法的适用范围,具有十分重要的意义。本文以模糊c均值算法(fuzzy c-means method,FCM)为基础,重点研究利用该方法对不平衡数据进行聚类分析时所涉及的几个关键问题,并将研究成果应用于宏基因组DNA重叠群的无监督分类,具体研究内容如下:(1)提出一种基于聚类体量约束的模糊c均值算法传统FCM算法对不平衡数据聚类效果不理想的根本原因是其使用了一种平方和形式的代价函数,最小化该代价函数将使得聚类结果中各类间的样本数量相近。因此,在不平衡数据的聚类结果中,一部分来自多数类的样本会被误分到其相邻的少数类中。为了解决此问题,本文提出一种基于聚类体量约束的模糊c均值算法,该算法在考虑各个类的体量(类的体量是指所有样本对于某一类的隶属度值之和,可用来衡量类的大小)的基础上构造了一个新的代价函数,该代价函数在聚类结果中允许少数类的存在,从而改善了传统的FCM算法对不平衡数据的聚类性能。同时,对平衡数据,该算法具有与传统FCM算法相同的聚类性能。(2)提出一种基于聚类体量约束的模糊c-harmonic均值算法针对传统FCM算法因对初值敏感而易陷入局部最优的缺陷,在(1)中所提算法的基础上,结合c-harmonic均值算法,提出了一种基于聚类体量约束的模糊c-harmonic均值算法,该算法对初值不敏感,同时对不平衡数据具有良好的聚类性能。(3)提出一种新的适用于不平衡数据的聚类准则函数在无监督分类中,确定聚类个数十分重要。利用FCM算法进行聚类分析时,需要预先设定聚类个数。确定聚类个数的一般方法为:分别以不同的聚类个数运行若干次FCM算法,再用一个事先定义的函数从中确定最优的聚类结果,该函数一般称为聚类准则函数(clustering validity index,CVI)。现有的CVI一般是通过计算各个类内的聚合度以及类间的分离度来评价聚类结果。然而,在不平衡数据中,类间的尺寸会影响聚合度的评价效果。基于此,本文通过考虑聚类体量定义了一个新的类内聚合度,并结合传统类间分离度,提出一种新的聚类准则函数。该函数不仅可以有效地评价不平衡数据的聚类结果,而且对于平衡数据也具有良好的评价性能。(4)研究基于不平衡数据分析的宏基因组重叠群分类宏基因组学利用新一代测序技术在不经过实验室培养的情况下,能够获取环境中绝大部分的遗传物质。与传统的测序方法不同,宏基因组测序得到的原始数据是大量的、长度较短的、来源于多种微生物的DNA片段。研究人员根据DNA片段之间的重叠关系可以将这些零碎的短片段组装成长度较长的DNA序列,生物信息学中称这种组装之后的DNA序列为重叠群(contigs)。将这些重叠群依据其物种归属进行分类是宏基因组数据分析中十分重要的一步。然而,受宏基因组中不同物种间的丰度比、基因组长度等因素的影响,组装后属于不同物种的重叠群数量往往相差很多,因此,宏基因组重叠群数据是一种典型的不平衡数据集。如何对其进行有效地分类,是目前的一个研究难点。为了提高宏基因组重叠群的分类精度,本文利用上述研究成果对宏基因组重叠群进行基于不平衡数据的聚类分析。首先,根据已有细菌的全基因组长度以及宏基因组的平均覆盖率来估计宏基因组中的物种个数区间;其次,提取DNA重叠群的数字特征向量;最后,利用基于聚类体量约束的模糊c-harmonic均值算法和适用于不平衡数据的聚类准则函数完成重叠群的分类。与现有的重叠群无监督分类方法相比,该方法具有更好的分类效果。综上,本文进行了系统的面向不平衡数据的无监督分类研究,提出了从初值选取、无监督分类到聚类准则函数的完整的、适用于不平衡数据的算法体系,并将以上算法应用到宏基因组重叠群分类中,取得了比现有方法更好的分类效果。
其他文献
由陈可辛执导,黄渤、赵薇、郝蕾、佟大为等主演的电影《亲爱的》,是一部以"打拐"为题材的影片。这部电影是由真实的社会新闻事件改编而成的。电影《亲爱的》讲述了以田文军为代
目的:了解自我图式在自杀渴望与外显、内隐自杀意念之间的关系。方法:对存在抑郁或/和焦虑状态的262名青年心理门诊患者施测人际需求问卷、贝克自杀意念量表、单类内隐联想测
患儿男,2个月,因"间断皮肤、口周青紫28天"入院。查体:口周及鼻根青紫,心前区可闻及杂音(3/6级)。实验室检查:氧饱和度为88%。心脏超声:右心增大,降主动脉与左肺动脉间可探及
在传统MC-CDMA基础上针对LA码和LS码的联合应用提出了一种新的多载波码分多址(MC-CDMA)系统,与传统的MC-CDMA系统相比,其优点在于该方案同时在时域和频域进行扩频。这种系统能
目的探讨妇科腹腔镜围手术期心理护理的应用效果。方法选取我院2016年1~12月收治的360例妇科腹腔镜手术患者,将其分为护理组和对照组,各180例。两组均给予手术前、中、后给予
一直以来,人们总是基于“外在性安全”的思路来认识和防范大学生网络诈骗,即网络诈骗总是由网络自身这一外部物质性存在而引起的安全问题,网络诈骗的防范就要解决网络自身的
<正>~~
会议
人口地图是人们认知人口分布规律的重要工具,而不同尺度的人口地图造成了读图者对于人口空间分布规律的认知差异。本文通过眼动跟踪的省、县(市)不同尺度下人口地图认知实验,
超级电容器和锂离子电池是两种重要的储能器件,超级电容器具有高功率密度,但储存的能量有限,而锂离子电池具有高能量密度,但需要的充放电时间较长。从电极材料设计的角度出发