基于划分聚类的特征基因选择算法研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:eaglesword
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对基因表达谱进行分类是生物信息学中一个重要的研究领域。基因芯片可以在一次实验中大规模并行检测成千上万个基因的表达量,对肿瘤癌症等疾病的分类、诊断研究有非常重要的实际意义。但是,基因芯片数据高通量、高维数、非线性、高噪声、数据分布不均衡等特点,使得我们对这种数据进行处理时遇到了很多困难。如何从海量的基因表达谱数据中发掘出少量的具有分类识别能力且冗余度最小的特征基因,对于疾病诊断以及研究肿瘤癌症治病机理起着关键作用。   本文研究的特征基因选择方法都是利用白血病数据集进行验证,主要的研究工作如下:   1.提出了一种基于测地距离的特征基因选择方法。由于基因表达谱非线性的特点,普通的欧几里得距离无法很好地表示基因之间的相似性度量。而测地距离这种流形距离的度量方式,可以很好的展示基因之间复杂的内在关系。在测地距离矩阵的基础上,本文改进了K-中心点聚类方法,并且选择出特征基因子集,然后利用支持向量机对特征基因子集进行分类精度进行预测。实验的结果证明,基于测地距离预测精度比传统的欧几里得距离得出的预测精度要好。   2.提出了一种基于局部线性嵌入特征基因选择方法。由于基因表达潜高维、高噪声、非线性的特点,传统的聚类算法并不能准确地对基因表达谱进行聚类分析。于是,通过局部线性嵌入的非线性降维方法,基因的向量空间被映射到低维空间,以致对基因向量空间进行了降维,而且使得基因之间的相似性关系更能显示其内在联系。最后,本文对白血病基因表达谱进行了实验,并且和其他文献进行了比较,结果得出本方法是可行的、有效的。
其他文献
随着企业信息化进程的不断推进,针对工业、商业、金融和信息检索各种应用所产生的巨大数据集而进行的算法研究,已经成为数据挖掘领域研究的主要动力。数据量不断增加,如何处
近些年,随着网络上的入侵事件越来越多,系统及网络的安全成为一个热门领域。防火墙等安全设备已不能满足现在人们对安全的要求,入侵检测成为安全领域一个热点问题。入侵防御
软件产品保护越来越受到人们的重视,软件开发者除了采取法律手段保护自身利益外,还着重从软件加密技术角度来保护自己的知识产权。由于目前常见的USB软件加密锁采用DES算法、
随着计算机技术的高速发展,计算机辅助教学在世界范围逐渐推广,并和传统的教学手段结合得越来越紧密。网络在线考试系统不仅是实现考教分离的最佳途径之一,也有利于提高教学
海冰灾害是我国主要的海洋自然灾害之一,给沿岸水产养殖、渔业生产、交通运输、油气生产以及海岛居民的生产生活等带来了巨大影响。海冰冰型可以表示海冰生成和发展过程的不
目前,Web已经成为人类知识和文明的全球存储库,这个存储库使得人类的信息在一个巨大的范围内实现共享。由于语言的独特性,现有的信息检索技术仍然缺乏对少数民族语言的研究,
本文构建了一种基于云计算的权限管理模型,云计算作为一种新兴的商业模式,在海量数据处理、异构等方面都体现出了优越性,按云计算提供者与使用者的所属关系可以将其分为公有
随着电子信息技术、计算机及网络技术的快速发展,通过辨识人体生理或行为特征来进行身份认证的生物识别技术越来越多的得到广泛认同。指纹识别作为生物识别技术中一种优秀的身
随着现代数字化技术以及多媒体和计算机网络技术的飞速发展,医学诊疗技术不断提升,医学影像数据量也在大幅增长。如何在与日俱增的医学图像数据中进行快速且准确的检索,是医学研
现如今医学图像技术的快速发展,使得医生在诊断中所获得信息量增加,同时医生对大量图像信息的识别工作加重,所以细胞图像的分割变得越来越重要。近些年来模式识别和人工智能等技