基因表达数据挖掘方法研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:jeeryf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因表达是指细胞在生命过程中,把储存在DNA序列中的遗传信息经过转录和翻译,转变成具有生物活性的蛋白质分子的过程.细胞中各个基因之间存在着复杂的表达与调控关系.表达型基因芯片可检测出以极低水平出现的mRNA,且易于同时监测大量的基因的表达情况,从而为基因功能研究提供依据.这一技术带来的海量基因表达图谱,需要通过生物信息学技术进行分析.数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据集中识别有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程.将数据挖掘技术应用于基因表达分析其目的在于运用其强大的分析能力来处理海量的基因表达谱数据,从中寻找基因之间表达调控的复杂关系网络,从而为功能基因组研究提供依据.根据目前国内外基因表达谱分析的现状,我们构建了集成基因表达分析软件系统(Integrated Expression Analysis System,IEAS).研制这一软件系统的目的在于利用先进的计算机技术,构建可在多种操作系统平台上通用的基因表达数据挖掘平台.通过集成多种基因表达分析方法,使用户能够综合各种分析方法,对基因表达数据进行数据挖掘,从中获取基因表达谱中基因表达模式之间的关系,寻找其生物学意义.IEAS系统在整体上实现了从大规模基因表达谱的输入和可视化,到数据的预处理,进而到使用基因表达分析算法和相似基因表达模式匹配查询算法对表达谱进行分析,以及最终对分析结果进行可视化和文件化输出的完整过程,是一个完整的基因表达数据挖掘平台.IEAS能够将大规模基因表达图谱中所包含的各项信息以可视化的形式提供给用户.在得到基因表达矩阵后,IEAS实现了对原始表达谱数据的预处理功能,从而滤除表达变化较小的基因,并将原始数据转变为易于处理的格式.IEAS中还提供了多种矢量间和类间相似性度量方法,可在算法中根据需求对基因表达矢量间相似性情况予以多种方式的计算.在这一基础上,我们实现了多种基因表达分析算法,包括:系统聚类法,动态聚类法,自组织映射网络和主成分分析等.通过聚类算法的分析,我们可以实现对具有同一模式的基因表达矢量的分类归并,从而为探讨这些基因的表达之间的关系提供依据.而通过主成分分析等其他算法,我们可以实现对基因表达矩阵主要信息的提取,从而获得基因表达矢量在数学意义上的空间分布.在IEAS中我们根据基因表达分析的特点对上述算法进行了优化,以提高分析效率.在此的基础上,我们探讨了初步的对具有相似表达模式的基因的匹配查询算法.针对整体强度差,相位差和相反表达模式提出了初步的解决方法,并在软件中实现了针对特定基因表达矢量在数据集中匹配查询相似表达模式基因的功能.同时我们利用拖放技术实现了自定义表达模式输入,用户可以自主输入感兴趣的表达模式曲线并在基因表达数据集中匹配查询相似的表达矢量模式.在IEAS中,我们提供了对上述分析结果的可视化输出.可以把整个表达分析过程中的数据综合的,直观的提供给用户.研究者可通过可视化单元方便、快速地查询到需要的相关分析结果.IEAS采用了先进的Java平台和相关技术,具有良好的性能和跨平台能力,为在高性能计算平台上使用打下了良好的基础.同时软件采用模块化设计,为将来进一步扩展做好了准备.最后,我们采用IEAS系统分析了酵母基因表达谱,发现IEAS系统所含有的基因表达分析算法能较好地将具有相似表达模式的基因表达矢量进行归并,形成的聚类中的基因基本具有相似的功能.且不同的算法之间得到的结果具有良好的相似性,可以互为映证,从而证明IEAS是一个完整而可靠地基因表达数据挖掘平台.
其他文献
目的:探讨骨髓增生异常综合征(MDS)造血细胞凋亡特征及相关药物对MDS-L原始细胞系的调控作用。 方法:1,用免疫组织化学方法(碱性磷酸酶-抗碱性磷酸酶系统,APAAP)结合DNA末端原
常规以45#钢及有关的合金钢为基材,固体渗硼工艺易产生的渗层较薄,较脆,与基材结合不牢,易于剥落问题。本论文以通过在渗剂中适量地加入稀土元素,对工艺进行改进。 通过金相显微
混凝土在房屋建筑施工中是应用最为广泛的材料, 在施工过程中混凝土施工工艺中所存在问题,相关建筑单位应充分立足实际,深入分析存在的问题并采取有效的措施进行解决,从而保
我国电气化铁路向高速(200-400km/h)发展是必然趋势。高速电车线要求在保持较高导电率条件下,大幅度提高电车线的抗拉强度。根据现实与可能,国产化的高速电车线将是铜镁、铜(或
虚拟内窥镜技术是医学图像可视化与虚拟现实技术相结合的产物,是近十年才出现的医学图像后处理系统.它可以降低诊断成本,提高诊断效率,有着巨大的应用潜力和社会效益,是近年
生命健康产业是21世纪的朝阳产业,纳米科技在21世纪拥有着巨大前景。而这两者的结合,即纳米科技在生命健康产业的应用也将在21世纪有着巨大的发展和广阔的前途。纳米技术是指利
针对唐山钢铁集团有限公司最新投产的FTSC 薄板坯连铸技术进行研究,采取示踪剂追踪、铸坯取样、综合分析等手段对唐钢薄板坯SS400 钢铸坯中非金属夹杂物分布、类型、来源及数
摘要:铝电解工业面临着巨大的节能减排压力,迫切需要对国内铝厂现有的生产线进行技术升级改造并开展节能技术研究,以期能够降低铝电解能耗。本文从铝电解槽的电-热场及应力场
本实验主要研究变形AZ31镁合金的最佳冶炼冶炼条件及以AZ31镁合金为研究对象,将近终形双辊铸轧技术应用到镁合金薄带的生产中,利用近终形双辊铸轧薄带新工艺快速凝固、动态直接
粮食是人类赖以生存和发展的基本生活资料,在人民生活和国民经济发展中具有特殊的地位和作用。但在粮食的储藏过程中经常遭受虫、霉等有害生物的影响,造成了极大的损失,储粮害虫