用于遗传规划的HS-model及其在聚类分析中的应用研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:gudujian123456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
遗传规划是一种进化算法,遗传规划所操作的程序树既是问题的解也是对于问题的一种描述。只要提供了描述问题的“函数”和“终结符”,遗传规划就能自动将其结合成解决问题的树状的层次结构的程序。而树状的表达结构也使得遗传规划突破了表达上的限制,使得遗传规划的应用领域更加宽广。遗传规划让计算机自动进行程序设计的这种解决问题的方式契合了自动程序设计这一计算机科学的重要目标,这使得遗传规划的研究成为智能研究领域的一个热点。随着人类基因组研究的重点向功能基因组转化,对基因表达数据的分析研究成为目前生物信息学的热点和重点之一。对基因表达数据的分析可以获取基因功能和基因表达调控信息,在医学临床诊断、药物疗效判断、揭示疾病发生机制等方面有重要的应用。但是,由于基因表达数据本身的一些特殊性,如数据量大,维数高、噪声干扰大以及先验知识缺乏等。使得聚类分析成为研究基因功能和基因调控信息的主要研究方法。目前的基因聚类分析算法普遍存在一些局限性,需要提出适用的新的聚类方法。本文研究的主要工作和特色包括:1)对遗传规划算法进行了系统的总结和研究。提出了统计分析模型HS-model。该模型能够自动生成优秀子树提高GP的进化效率。通过解决人工蚂蚁问题证明了模型对改进GP性能的有效性。2)提出了针对大规模高维数据的GP聚类系统。该系统使用统计模型HS-model统计分析数据的分布特征,为GP聚类系统的进化提供信息。该GP聚类系统能够自主确定合适的聚类类别数和聚类中心,并且提出了有效的模拟聚类的适应度评价函数。该系统在很大程度上解决了大数据量和维数规模在时间性能上对聚类系统的影响。3)研究了基因表达数据的聚类分析方法,使用提出的GP聚类系统对酵母基因数据进行了聚类分析。该聚类系统能够有效处理基因表达缺失数据对聚类性能的影响。与生物学家通过层次聚类及通过领域知识寻找出来的酵母聚类进行了比较分析,证明了该系统能够实现以经济的时空代价自动获得基因表达数据的有效聚类。
其他文献
人脸识别是生物特征识别领域中的一种基于生理特征的识别技术,通过相关算法提取的人脸特征进行身份验证。由于世界上不存在任何两张完全相同的人脸,所以人脸具有唯一性和不容易
集数据采集、处理和通信于一体的无线传感器网络以其低廉的价格、便利的部署方式得到越来越广泛的使用,对传感器网络各个方面的研究也日益成为学术界非常活跃的课题。报头压
随着网络的迅速发展,文本信息的数量也日益增加,文本分类成为处理和解决大量文本数据的关键技术。传统的文本分类,通过预先定义类别或者标记类别,对大量样本数据的训练构建合
对编译器的测试仍以手工设计、开发、执行测试用例方式为主,效率低下且易于出错。建立在文法测试理论基础之上的测试集合生成方法——规则覆盖算法等只考虑了对被测编译器语
由于数据库技术的发展和存储器等硬件技术的成熟,人们在收集信息方面的能力显著提升,通过信息收集积累了大量的数据。在这些海量数据的背后隐含着许多对人类生活和工作有用的、
关联规则挖掘是数据挖掘的一个重要研究方向,被广泛应用于市场营销、决策分析等领域,其主要目标就是发现数据库中一组对象之间某种有趣关联或相关联系。频繁项集挖掘是关联规则
在过去的十多年中,大规模科学计算正从主机集中处理方式转移到分布式并行处理方式,近年来这一趋势更向着网格领域延伸。网格是分布式并行技术的一个重要发展方向,其目标是实
随着计算机网络和通信技术的发展,在许多网络环境中,除了要上网实现Internet服务外,可能还包括一定数量的实时要求和带宽保证用户。在这种环境下主要涉及三类主要网络业务:实
工作流技术是一种反映业务流程的计算机模型。传统工作流通常需要对工作流模型进行严格的定义,而在实际情况中,工作流实例往往偏离了预先的定义。为了使工作流能灵活的根据实际
随着电子商务和网络的不断发展,大型商场超市业已进入网络会员时代,在网络与实体店铺同步进行销售,但与此同时,商品种类数量越来越多,在琳琅满目的商品面前,无论是从网络还是实体店