论文部分内容阅读
如何快速从大规模基因表达数据中挖掘相关基因信息,实现高通量基因表达数据的精准分析,成为基因表达数据分析的关键问题。基因表达数据的双聚类分析能有效弥补传统聚类分析在搜索并确认基因局部表达模式的不足。本文以基因表达数据的双聚类分析为切入点,以提高双聚类体积、覆盖率、均方残差等质量评价指标和生物意义为主要目标,基于布谷鸟搜索算法,从单目标优化、多目标优化和集成学习等方面开展双聚类分析研究,解决现有双聚类分析方法存在的双聚类的质量差、多样性不足和生物意义不明显等问题。论文的主要工作包括:(1)提出基于布谷鸟搜索双聚类分析算法(Cuckoo Search Biclustering,CSB)。针对现有双聚类分析的低覆盖率和高均方残差等问题,该算法提出初始双聚类优化选取的策略提高解多样性,同时在搜索过程中采用服从莱维飞行的随机搜索策略解决解早熟。CSB算法可有效提高搜索范围和速度,并能稳定跳出局部最优解,同时可找到包含不同基因的双聚类,避免基因过于集中问题。与CC、FLOC、ISA、BIC-aiNet、SEBI、SAB和SSB等算法比较,实验表明CSB算法的双聚类质量和生物意义更优。(2)提出基于遗传算法和布谷鸟搜索的混合双聚类分析算法(Genetic Algorithm and Cuckoo Search hybrid Biclustering,GACSB)。通过引入遗传算法的锦标赛选择和精英保留等策略,GACSB算法可在计算代价不大幅增加的条件下拓展搜索范围和深度从而提高双聚类的多样性。与CC、FLOC、ISA、SEBI、SSB和CSB等算法的对比实验表明GACSB算法在双聚类的多样性和生物意义上有大幅提高。通过ACV、MSR和VE等指标对比分析,说明GACSB算法可搜索到不同类型的双聚类,具有较强可扩展性。(3)提出基于多目标布谷鸟搜索的双聚类分析算法(Multi-Objective Cuckoo Search Biclustering,MOCSB)。通过将双聚类分析转化为多目标优化问题,该算法把多目标布谷鸟搜索算法引入双聚类分析来同时优化双聚类的均方残差和体积等质量评价指标。MOCSB算法把搜索占优解集操作与布谷鸟巢搜索和宿主弃巢操作结合,可根据实际需要灵活使用各种双聚类评价指标。与CC、SEBI、SMOB和CSB等算法比较表明MOCSB算法能提高双聚类的质量和生物意义。(4)提出基于谱聚类的集成双聚类分析算法(Spectral Ensemble Biclustering,SEB)。针对双聚类集成问题中双聚类的质量不高且多样性不足,一致函数计算复杂度高和双聚类结果的生物意义不明显等问题,SEB算法使用不同双聚类质量评价指标获得多个基双聚类,然后基于谱聚类的一致函数进行集成获得一致双聚类。与VC、BGPC、MMMC和COAC等算法对比分析表明SEB算法在计算效率、双聚类的质量评价指标和生物意义等方面获得提高。