论文部分内容阅读
遗传规划是一种进化算法,遗传规划所操作的程序树既是问题的解也是对于问题的一种描述。只要提供了描述问题的“函数”和“终结符”,遗传规划就能自动将其结合成解决问题的树状的层次结构的程序。而树状的表达结构也使得遗传规划突破了表达上的限制,使得遗传规划的应用领域更加宽广。遗传规划让计算机自动进行程序设计的这种解决问题的方式契合了自动程序设计这一计算机科学的重要目标,这使得遗传规划的研究成为智能研究领域的一个热点。随着人类基因组研究的重点向功能基因组转化,对基因表达数据的分析研究成为目前生物信息学的热点和重点之一。对基因表达数据的分析可以获取基因功能和基因表达调控信息,在医学临床诊断、药物疗效判断、揭示疾病发生机制等方面有重要的应用。但是,由于基因表达数据本身的一些特殊性,如数据量大,维数高、噪声干扰大以及先验知识缺乏等。使得聚类分析成为研究基因功能和基因调控信息的主要研究方法。目前的基因聚类分析算法普遍存在一些局限性,需要提出适用的新的聚类方法。本文研究的主要工作和特色包括:1)对遗传规划算法进行了系统的总结和研究。提出了统计分析模型HS-model。该模型能够自动生成优秀子树提高GP的进化效率。通过解决人工蚂蚁问题证明了模型对改进GP性能的有效性。2)提出了针对大规模高维数据的GP聚类系统。该系统使用统计模型HS-model统计分析数据的分布特征,为GP聚类系统的进化提供信息。该GP聚类系统能够自主确定合适的聚类类别数和聚类中心,并且提出了有效的模拟聚类的适应度评价函数。该系统在很大程度上解决了大数据量和维数规模在时间性能上对聚类系统的影响。3)研究了基因表达数据的聚类分析方法,使用提出的GP聚类系统对酵母基因数据进行了聚类分析。该聚类系统能够有效处理基因表达缺失数据对聚类性能的影响。与生物学家通过层次聚类及通过领域知识寻找出来的酵母聚类进行了比较分析,证明了该系统能够实现以经济的时空代价自动获得基因表达数据的有效聚类。