论文部分内容阅读
基因微阵列(又称基因芯片)可应用对于不同发展阶段,不同人体组织,不同临床条件以及不同生物体等条件下的基因表达水平的测量。基因芯片的出现正在给生命科学研究、疾病诊断、新药开发、食品卫生监督等领域带来一场革命。与此同时,由基因微阵列技术带来的海量数据也对传统的信息处理技术带来了很大的挑战。鉴于此,本文对基因微阵列的预处理和聚类算法进行了研究。本文的主要贡献如下:
首先,提出了一种改进的稳健Lowess算法,对基因微阵列的数掘进行标准化处理。该算法首先利用局部加权线性回归对数据点进行平滑估计,然后再利用核估计算法对误差项进行估计,以进一步减小误差,最后对每个格子里的数据点进行缩放处理。实验证明了本文算法的高效性。
其次,本文提出了一种新的基因表达矩阵的缺失值估计算法。该算法首先利用迭代的K-means算法来挑选无缺失基因,再用James-Stein估计算法并结合核估计算法得出最后的估计值。实验证明该算法在低缺失率的时候优于其它传统估计算法。
再次,本文对模糊谱双向聚类算法进行了改进。虽然模糊谱双向聚类算法能够取得不错的效果,但是由于其使用的FCM算法对数据类型的敏感性及其局部搜索能力,限制了它的使用,因此本文应用GG算法和遗传算法来改进原算法的局限性。实验证明本文改进算法的优越性。
最后,本文提出了一种基于基因和条件提取的双向聚类算法。该算法利用央角余弦法排除那些对聚类结果贡献小的表达数据,使得聚类只在提取的基因和条件中进行,从而降低了计算复杂度。实验证明本文算法优于其它算法。