论文部分内容阅读
人类基因组计划于2003年4月14日在华盛顿大学完成,这标志着生命科学研究全面进入了后基因组时代。以基因功能鉴定为中心的功能基因组学是后基因组时代研究的核心,而生物体中基因功能的实现无不与RNA的表达密切相关,各种以分析RNA表达为基础的研究方法成为当今生物学研究的重要手段,基因芯片技术就是其中之一。基因芯片技术自发明以来,由于其高通量的特性,可以在短时间内测定各组织部位及各生理状态下基因的差异表达,一直被广泛地应用于基因表达谱和基因的生物学功能研究。世界各地的生物芯片研究人员也通过生物学公用数据库与全球共享芯片的试验数据。如何对这些海量的原始数据资源进行有效的分析,提取出更多有价值的信息并寻找其中隐藏的生物学规律,尚未有令人满意的解决办法。本研究以从公用数据库中下载的人基因组芯片数据作为研究对象,通过分类整理,比较已知人管家基因在这些样本数据中的表达稳定性数值;针对现有聚类方法在人基因组芯片数据分析中的不足,提出一种基于模块性指标和子图平滑度的全局图聚类方法;最后在miRNA靶基因预测方法的研究方面对人基因组芯片数据的应用进行尝试。首先,研究从两大公用芯片数据库下载人基因组芯片数据样本共16398块,通过分类、整理、数据预处理、转换等步骤构建本地的人基因组芯片数据库;使用geNORM算法,对566个已发现的人管家基因在库中所有试验样本中的表达稳定性进行研究;将分析得到的最稳定的管家基因作为内参基因,应用于三组与黄曲霉毒素B1致癌毒性相关的人基因组芯片的数据分析中,试验证明通过使用多样本间表达稳定性更高的管家基因EEF-2作为内参,发现了更多的相关基因。然后,为了更有效地分析人基因芯片数据,针对现有基因芯片数据图聚类方法的不足,研究提出一种基于模块性指标和子图平滑度的全局图聚类方法(Module smoothness)。为防止算法陷入局部最优解,引入子图平滑度的定义,打散每次聚类结果中产生的平滑度较低的子图,再对得到的单节点进行下一次聚类,经多次迭代后得到全局最优的聚类结果。将该方法与经典图聚类、K-means、SOM及Fuzzy四种常用聚类方法一起,对同一组基因组表达数据进行分析比较。结果表明:该方法在聚类过程中的平均类间重叠度和FOM’值总体上优于其他四种算法,在将数据集分类到最佳聚类数39时,其FOM’值分别比上述四种方法低28.41%、19.21%、9.84%和24.67%;其分类准确度高于层次聚类和SOM算法,算法执行效率则与SOM算法相近,比Fuzzy算法高5.94%。最后,将人基因组芯片的数据挖掘应用到miRNA靶标预测的方法研究中,提出一种新的miRNA靶标预测方法(Dual sites SVM)。除了以机器学习算法SVM为核心,设计双种子位点搜索等机制外,还在其它基于碱基互补原则的特征向量基础上,定义两个利用本地人基因组芯片数据库中的试验数据产生的特征向量。使用该方法训练得到的模型执行效率比单种子位点模型高19.09%,比PicTar高16.76%;所构建的分类器性能与MirTarget2,miRanda,PITA,TargetSpy,TargetMiner和TargetScan六种常用方法相比,在不降低分类结果准确性的同时有效的提高了算法的敏感性。该预测方法已编写为在线工具,为生物信息学研究人员服务。本研究从构建本地人基因组芯片数据库入手,对基因组芯片数据的相关处理分析方法展开研究,在内参基因表达稳定性和表达谱聚类方法等方面取得了初步成果,为人基因组芯片数据的进一步挖掘研究和应用提供参考。