论文部分内容阅读
基因芯片技术是二十一世纪影响最深远的重大科技进展之一。基因芯片使得同时研究成千上万个基因的表达成为可能。如何对基因芯片实验产生的海量数据进行有效的管理和分析己成为使用这一高通量技术的瓶颈。一方面,已有的分析软件虽然提供了聚类分析和一定程度的数理统计分析,但仍然很难从结果中得到有价值的生物学知识及数据背后隐含的相互联系;而另一方面,这些分析软件大多集成度较差,生物学研究者在处理数据时常常需要在多个程序之间进行切换,不仅使用不便也带来了数据交换及安全性方面的隐患。目前,国外很多大学、研究机构和软件公司已相继开发了生物信息集成系统。作者在攻读硕士学位期间参加了北京市嵌入式系统重点实验室与美国GoldenCom公司合作研发的基因表达数据分析管理平台研发项目。
本学位论文以聚类分析算法为基础,对基因表达数据聚类分析及分析管理平台进行了深入的研究。研究的内容和取得的研究成果主要包括以下四个方面:
(1)在对模糊聚类分析算法深入研究的基础上,将模糊聚类算法应用于基因表达数据分析领域,提出了基于属性的模糊聚类算法。
(2)在R语言平台上实现了基于属性的模糊聚类算法,通过合成数据和典型数据集的实验对算法的性能进行了分析。
(3)采用J2EE平台开发工具实现了基因表达数据分析管理平台。集成了统计软件R语言和Bioconductor软件包,实现了数据的持久化。
(4)运行该平台进行数据分析实验,并对平台的完善和进一步发展进行了展挈。