聚类分析在乳腺癌基因表达中的应用研究

来源 :西南科技大学 | 被引量 : 0次 | 上传用户:zhzh06014201
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
乳腺癌严重困扰着广大妇女的身心健康,但其发病机制尚未完全清楚,给治疗带来极大的困难。论文在大量的生物信息学、乳腺癌知识的背景下对乳腺癌基因表达数据进行了分析。将预处理之后的基因表达数据进行聚类,聚类方法采用的是模糊C-均值算法,并针对传统模糊聚类的缺点采用曲线拟合的方法进行了改进,将改进后的算法应用于乳腺癌基因表达数据。采用改进划分系数的聚类有效性,对改进模糊C-均值算法进行了评价。实验结果表明,采用曲线拟合所确定的最佳聚类数与改进划分系数的最佳聚类数一致,而且有效地减少了噪声数据的干扰。通过对聚类结果的分析,根据乳腺癌基因表达的改变,推断出不同的药物对乳腺癌的疗效。论文主要内容包括:   (1)对预处理方法讲行了大量的研究.并针对乳腺癌基冈表j大数据的特点,进行了如下预处理:对乳腺癌基因表达值表和基因信息表的集成、对基因表达矩阵丢失数据的填补、合并重复出现的基因、根据挖掘的需要对数据进行变换和筛选。   (2)对模糊C-均值聚类算法,提出了采用曲线拟合的方法来确定最佳聚类数。论文将改进的算法应用于乳腺癌基因表达数据,聚类结果对观察药物的疗效具有重要的意义。   (3)论文采用改进划分系数的聚类有效性,对改进模糊C-均值聚类算法进行了评价。实验结果表明,采用曲线拟合所确定的最佳聚类数与改进划分系数的最佳聚类数一致,而且有效地减少了噪声数据的干扰。   (4)使用VC++编程语言和SQL Server2000数据库管理系统开发了一个模糊聚类原型系统,对聚类结果进行了可视化,将聚类的结果采用散点图的方式直观地展现出来。
其他文献
随着Web服务标准的持续完善和支持Web服务的企业级软件平台的不断成熟,越来越多的企业和商业组织参与到软件服务化(Software as a Services, SaaS)的行列中来,纷纷将其业务功
随着信息技术、网络技术、数据存储技术和高性能处理器技术的进步,数据资料的规模急速膨胀,从而促进了数据挖掘(Data Mining,DM)技术的产生和飞速发展。数据挖掘在不断的挖掘
数据库水印技术是实现数据库版权保护的一种有效手段,它在不影响数据库使用价值的前提下将水印信息嵌入其中,通过检测或提取水印以证实数据库的所有权或完整性达到身份证明及
学位
中国互联网的变化日新月异,原本占主流地位的PC网络端逐渐没落,被飞速发展的移动互联网所取代。伴随着iPhone,Android移动平台的出现,手机游戏开发正变得越来越受到大众的欢
无线传感器网络的一个重要技术就是数据收集技术,通过将节点收集到的数据发送到基站并对其进行分析以便作出相应的决策。同时,数据收集技术也是无线传感器网络得以稳定、高效
近年来越来越多的传统行业受互联网新技术的影响和推动,运用互联网技术处理数据业务,由此产生的海量复杂结构数据使得传统的关系型数据库已不再适用。非关系型数据库凭借其自
IP多媒体子系统(IP Multimedia Subsystem,简称IMS)作为下一代网络(Next Generation Network,简称NGN)的发展方向,已经成为全球通信领域研究的热点。其归属用户服务器——HSS
智能天线技术的核心是自适应波束形成算法,但传统算法存在计算量大、收敛速度受限等缺陷。而作为一种高效并行全局寻优方法的遗传算法可以解决此类问题。研究一种适合于波束
高层体系架构是分布式交互仿真的新一代体系结构。本文对高层体系架构和数据分发管理技术做了相关论述,重点对数据分发管理进行了研究。为获得良好的可扩展性、可伸缩性,基于
随着互联网的蓬勃发展,信息技术的广泛普及,云计算技术带给人们前所未有的网络服务体验。当前针对云计算的研究主要集中在云计算的模型架构、任务颗粒度﹑任务调度策略﹑容错机制