基因组序列快速拼接算法及可视化技术的研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:sunnymurder
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
正如2001年人类基因组计划的初步完成,宣告了人类进入后基因组时代一样,2003年4月人类基因组计划的圆满结束,则拉开了人类迈入个体化医疗时代的序幕,使得个体基因组计划(PGP)成为可能。个体化医疗时代对个体进行疾病相关分析,就要求研究者获得不同个体的基因信息,获得存在于个体之间的变异信息和基因功能信息。基因组再测序理所当然的担当起这个任务。基因组再测序技术的研究已成为目前国际上生命科学领域的一个重点,东南大学生物电子学国家重点实验室也参与到这一研究中。本课题就是在这个背景下产生的。我们希望通过生物信息学的方法,建立一个再测序信息分析平台。首先针对目前再测序技术的特点,提出新的基因组序列快速、准确的拼接算法;其次,发展基因组测序信息的可视化技术,实现测序信息与基因组结构数据及基因序列变异数据的融合,进而实现融合数据的可视化,为基因组再测序技术的应用提供支撑。 在序列拼接方面,再测序产生的的测序片段比较短(100bp左右),同时由于人类基因组存在的大量重复序列和SNP位点,传统的拼接方法不再适应,且存在耗时的缺陷。人类基因组再测序有标准的基因组蓝图作参考,我们在比较传统的拼接算法后,提出了批量序列比对方法MegaBL AST 和基于哈氏表的快速定位算法。前者基于序列比对的方法,在处理如酵母,噬菌体等小的基因组时快速有效;而后者,采用的是将人类基因组序列库建成哈氏表的方法,大大提高了搜索查询序列的速度,比BLAST快3~4个数量级,且定位准确。 为了用接近真实的实验数据验证我们的算法,我们认真研究了人类基因组序列的特点,在充分的考虑了基因突变位点、多态性位点以及测序误差和覆盖倍数的基础上,提出了模拟数据集的数学模型,并构建了一套接近真实数据的模拟数据集用于我们的算法验证。 在可视化的实现方面,我们通过充分比较国际知名网站可视化的设计方案,结合我们的实际情况,采用了Applet可视化方法,使用户对序列片段有直观的理解。可视化的目的是能够逐层动态显示人类基因组染色体上的基因信息和序列信息,以及再测序片段的一系列信息,最后能够显示SNP信息。我们在获取了所需要的人类基因组注释信息数据库和序列信息数据库、SNP数据库,再测序片段库之后,采用Applet对其进行动态可视化。目前该平台已经进入试运行阶段,性能稳定化。
其他文献
细胞是生命的基本单位,而细胞的生存和活动离不开细胞外基质。细胞外基质的拓扑结构可以通过改变细胞的形状和细胞骨架来影响细胞的一系列行为,包括细胞的迁移、增殖和分化。
以下刊登的文章为武汉市2005年度优秀论文二等奖,由于版面限制,摘要发表其主要观点。 The following published articles for the Wuhan City 2005 outstanding paper secon
随着互联网的发展,教育行业的发展模式也受到了一定的影响.在互联网的冲击下,传统的教学模式已经不再适用,基于“互联网+”的混合教学模式应运而生,并在教育行业发挥了非常重
该文在国内外较早使用亲水性良好的马来酸酐对生物可降解材料聚乳酸进行改性,以消除D,L型聚乳酸材料亲水性差、强度低、功能基单一等缺点.研究马来酸酐及聚乳酸的分子结构可
图像拼接是通过对具有一定重叠区域的多幅图像进行拼接来获取较大视野图像的技术。目前,这一技术在虚拟现实、生物医学、航空航天、地质探测、材料分析等方面都已经得到广泛应
二尖瓣反流是临床常见的瓣膜疾病之一,定量评价二尖瓣反流,尤其是偏心性二尖瓣反流对于临床的疾病诊断、治疗方式以及时机选择、预后评估等都具有重要意义。彩色多普勒血流成
新课程提出了知识与技能、过程与方法、情感态度与价值观三维目标体系。知识与技能强调的是每个学科的基础知识和基本技能.这是学科课程的静态价值。学科课程的静态价值体现在
血管组织工程技术在治疗血管疾病的领域内具有极为广阔的应用前景。近年来所常用的人造血管与机体自身正常血管组织相比,具有较大的缺陷。基于此,我们在本论文中,采用形状记
人民币有效汇率微幅升值自2005年7月20日人民币汇改以来,人民币兑美元累计升值了7.07%,但兑一篮子货币的贸易加权汇率却只累计升值了3.7%,且升幅主要集中在2005年度。在2005
以下刊登的文章为武汉市2005年度优秀论文二等奖,由于版面限制,摘要发表其主要观点。 The following published articles for the Wuhan City 2005 outstanding paper secon