论文部分内容阅读
基因表达数据反映的是直接或者间接测量得到的多个不同基因在多个不同条件下的表达水平,通过对这些数据的分析可以发现哪些基因的表达发生了改变,基因之间有何相关性以及在不同的条件下基因的活动是如何受影响的。它们在医学临床诊断、药物疗效判断和揭示疾病发生机制等方面有着重要的应用,且因为生物体中的细胞种类繁多和基因表达具有时空特异性等方面的原因,基因表达数据和基因组数据相比要更为复杂,数据的增长速度更快,数据量也更为庞大,因此对于基因表达数据的分析一直是生物信息学研究的一个重点和难点,同时由于单向聚类方法是根据数据的全部属性将数据进行聚类操作且只能寻找出数据集中的全局信息而非局部信息,但是大量的生物信息就隐藏在这些局部信息中,所以为了更好的分析基因表达数据,人们提出了双聚类的概念。本论文将布谷鸟搜索算法应用于函数优化问题和基因表达数据集的双聚类优化问题,分别以待优化函数和双聚类的均方残差为目标函数,本论文主要包括以下内容:1.在布谷鸟搜索算法的基础上提出了用于解决函数优化问题的自适应布谷鸟搜索算法。该算法以基准测试函数为目标函数,在布谷鸟搜索算法的基础之上做出了五个改进:(1)运用分散搜索中的初始化方式来对种群进行初始化操作,使得初始种群中的解可以更加均匀的分布在搜索空间当中;(2)以一定的概率来接受适应度值较差的解,以达到增强种群多样性的目标;(3)以随机生成的方式来处理种群中越界的自变量值;(4)对当前种群中适应度值最优的个体进行变异操作以增加算法的局部搜索能力;(5)加入更多的搜索策略和相应的动态调整机制,从而使得算法可以在不同的迭代阶段采取更加适合当前阶段的搜索策略。2.在布谷鸟搜索算法的基础上提出了用于解决基因表达数据集的双聚类优化问题的修改布谷鸟搜索算法。该算法以双聚类的均方残差为目标函数,在布谷鸟搜索算法的基础之上做出了两个改进:(1)以平分矩阵的方式初始化双聚类种群,使得初始种群中的双聚类可以更加均匀的分布在基因表达数据矩阵中;(2)将搜索步长和当前搜索所基于的那个双聚类的行数和列数关联起来,从而使得搜索步长可以随着当前搜索操作所基于的那个双聚类的大小的变化而变化。