论文部分内容阅读
在生物信息学领域中,通过对肿瘤样本的DNA微阵列数据进行聚类分析,来划分不同的肿瘤类型或亚型一直是研究的重点。利用DNA微阵列数据在分子层面上对肿瘤进行分析,不仅可以根据同一种肿瘤样本相关致病基因的不同表达区分不同的肿瘤亚型。还可以对未知亚型的部分肿瘤进行亚型的预测以及分类。而由于基因本身的特点以及DNA微阵列技术高成本的原因,DNA微阵列数据集大多呈现出高维度、小样本的特点。2014年在Science上提出的密度峰值聚类算法(Density Peak Clustering,DPC)由于其参数简单,聚类准确率较高的优点受到各个领域的广泛认可,具有很高的研究价值。本文主要针对DNA微阵列数据集的特点,以密度峰值聚类算法的改进为研究方向。并将改进后的算法应用在DNA微阵列数据集上进行肿瘤亚型的聚类研究。主要研究内容有:(1)为了解决DPC算法人为参与关键性参数的选取的问题,本文采用将DPC算法和智能优化算法相结合的方式进行改进。算法将蝙蝠算法(Bat Algorithm,BA)和DPC算法相结合。首先对蝙蝠优化算法搜索后期收敛速度变慢,易陷入局部最优的缺点加以改进。将自适应惯性权重加入到BA的速度更新公式中。然后通过聚类算法的内评价指标作为适应度函数运用改进后BA对DPC算法关键性参数进行合理选取。同时对初始聚类中心点的选取方式加以改进。通过实验对比,来验证方法的有效性。(2)为了改进DPC算法在高维复杂数据集上表现不佳以及非聚类中心点的分配策略过于简单的问题,同时也为在DNA微阵列数据集上的应用打下基础。本文采用将DPC算法和熵加权软子空间聚类算法(Entropy Weighting K-means Algorithm for Subspace Clustering,EWKM)相结合的方式进行改进。算法利用EWKM较强的高维复杂数据处理能力以及非聚类中心点分配策略的合理性,将两种算法的优势相结合,同时避免两种算法的缺陷。利用DPC算法进行初始聚类中心点的选取,同时利用EWKM算法进行后续数据点的分配来对算法加以改进。通过实验对比,来验证方法的有效性。(3)将本文提出的算法应用在肿瘤亚型聚类领域中。首先对DNA微阵列数据集进行预处理,剔除与肿瘤发病无关的基因的影响。然后将本文提出算法应用在DNA微阵列数据集上,通过探究基因的差异表达探究肿瘤不同亚型的聚类。通过实验对比,证明了算法能够通过对不同基因的差异表达的分析精确地对肿瘤亚型进行聚类,在实际应用领域具有重要意义。