论文部分内容阅读
正如2001年人类基因组计划的初步完成,宣告了人类进入后基因组时代一样,2003年4月人类基因组计划的圆满结束,则拉开了人类迈入个体化医疗时代的序幕,使得个体基因组计划(PGP)成为可能。个体化医疗时代对个体进行疾病相关分析,就要求研究者获得不同个体的基因信息,获得存在于个体之间的变异信息和基因功能信息。基因组再测序理所当然的担当起这个任务。基因组再测序技术的研究已成为目前国际上生命科学领域的一个重点,东南大学生物电子学国家重点实验室也参与到这一研究中。本课题就是在这个背景下产生的。我们希望通过生物信息学的方法,建立一个再测序信息分析平台。首先针对目前再测序技术的特点,提出新的基因组序列快速、准确的拼接算法;其次,发展基因组测序信息的可视化技术,实现测序信息与基因组结构数据及基因序列变异数据的融合,进而实现融合数据的可视化,为基因组再测序技术的应用提供支撑。
在序列拼接方面,再测序产生的的测序片段比较短(100bp左右),同时由于人类基因组存在的大量重复序列和SNP位点,传统的拼接方法不再适应,且存在耗时的缺陷。人类基因组再测序有标准的基因组蓝图作参考,我们在比较传统的拼接算法后,提出了批量序列比对方法MegaBL AST 和基于哈氏表的快速定位算法。前者基于序列比对的方法,在处理如酵母,噬菌体等小的基因组时快速有效;而后者,采用的是将人类基因组序列库建成哈氏表的方法,大大提高了搜索查询序列的速度,比BLAST快3~4个数量级,且定位准确。
为了用接近真实的实验数据验证我们的算法,我们认真研究了人类基因组序列的特点,在充分的考虑了基因突变位点、多态性位点以及测序误差和覆盖倍数的基础上,提出了模拟数据集的数学模型,并构建了一套接近真实数据的模拟数据集用于我们的算法验证。
在可视化的实现方面,我们通过充分比较国际知名网站可视化的设计方案,结合我们的实际情况,采用了Applet可视化方法,使用户对序列片段有直观的理解。可视化的目的是能够逐层动态显示人类基因组染色体上的基因信息和序列信息,以及再测序片段的一系列信息,最后能够显示SNP信息。我们在获取了所需要的人类基因组注释信息数据库和序列信息数据库、SNP数据库,再测序片段库之后,采用Applet对其进行动态可视化。目前该平台已经进入试运行阶段,性能稳定化。