多序列比对的可视化和特征数值化的探索与应用

来源 :南方医科大学 | 被引量 : 0次 | 上传用户:jhson47
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
1.序列比对的可视化多序列比对(Multiple Sequence Alignment,MSA)中保守区和可变区的识别对加快理解基因功能的进程至关重要。随着序列-结构-功能关系在分子生物学研究中日益受到重视,简单的显示核苷酸或蛋白质序列已不能满足研究需求。尽管已有的可视化工具为挖掘序列比对中的各类信息提供了不同的功能,但仍有许多问题没有解决。首先,仅通过在位点水平上显示核苷酸或蛋白质比对序列,很难捕捉到MSA中隐藏的分子特征。其他信息,如残基的主导趋势和残基间依赖关系,在MSA数据中也是很重要的。其次,由序列片段的交换而产生的重组事件,也需要一些更直观的方法来呈现。再者,将外部数据以一种有效的、易使用的、和可定制的方式与MSA结合起来仍然是一个挑战,最后,基因组的可视化方法很少在其他工具中涉及到,需要一种有效的方法呈现物种间的比对片段和重组信息。为了解决这些问题,我们实现了一个R包ggmsa,它提供了一套全面的方法用于分析和可视化比对序列。我们实现了序列标识(Sequence logo)、序列束(Sequence bundle)、堆叠序列可视化法(Stacked sequence alignment visualization)和核苷酸比较图(Nucleotidecomparativeplots)等可视化方法。这些方法可以用于识别MSA的保守或变异趋势、残基-残基间依赖关系以及挖掘重组事件的线索。并且,为了探索序列和相应个体表型或其它相关数据之间的关联性,ggmsa与课题组开发的工具包ggtree和ggtreeExtra通过联合互补,实现了 MSA与系统发育树和相关数据(如祖先序列、表达水平、基因组位点结构、分子功能)的整合可视化,有助于发现潜在的演化特征。最后,我们还设计了一种新的可视化方法,用于多比对格式(Multiple Alignment Format,MAF)基因组比对,以探索物种内部和物种之间的变异模式。2.生物序列的数值化表征序列特征的数值化可以将序列转化成数值向量,这常被应用于生物分子的分类预测。除了序列的可视化外,本研究还尝试探索数值化序列新的应用方法。我们设计了 R包UltraPseR,它封装了 UltraPse,具备多种序列编码方案,可以将核苷酸或蛋白质序列的组分特征和顺序特征转化为等长的数值向量直接用于机器学习算法。UltraPseR包允许使用者将生物序列快速转化为数值向量,与其他机器学习算法结合可以高效的完成生物序列的分类预测任务。本研究将UltraPseR应用于人类白细胞抗原(Human Leukocyte Antigen,HLA)基因序列,使用支持向量机对数值化的HLA基因序列进行分型,以探索序列数值化方法在HLA基因分型中的可行性。
其他文献
背景与目的:脊髓损伤(Spinal cord injury,SCI)会导致严重的,甚至永久性的神经损伤,造成肢体瘫痪、感觉丧失、大小便失禁等症状。该疾病发病率高、致残率高、医疗费用昂贵,给家庭和社会带来沉重的负担。但目前临床治疗手段有限,SCI仍然是一种难以治愈的神经系统疾病。近年来细胞移植显示出良好的SCI治疗效果,其中人脐带间充质干细胞(human umbilical cord-derived
学位
背景心血管疾病(CVD)目前是全球发病率的头号原因之一,其中缺血性心脏病是心血管疾病最常见的形式,主要表现为冠状动脉血流量减少,最终可导致心肌梗死(MI),每年影响全球700多万人。近年来,基于生物材料的治疗方法在治疗心肌梗死方面越来越受到重视,许多生物功能材料都用于制作心肌补片,且被证明可以通过结构强化、新生血管形成或炎症减轻等机制促进心脏恢复。然而,它们通常缺乏一个重要的组成部分,即导电性,是
学位
固体火箭发动机由于其性能优良,结构简单及高可靠性,在军事及民用领域得到广泛应用。在过去几十年中,根据任务需求的不同衍生出不同类型的固体火箭发动机。固体火箭发动机的不足之处在于其推力受到药柱型面及燃面变化控制。针对这一特点,提出了双脉冲固体火箭发动机。双脉冲固体火箭发动机通常由被隔离装置分开的两个燃烧室(即—脉冲燃烧室和二脉冲燃烧室)及喷管组成。固体火箭发动机的瞬态点火过程一般指,从发出点火信号直至
学位
目前,人用狂犬疫苗体外效力评估多采用酶联免疫吸附试验(ELISA),然而未能满足现代化疫苗质量控制需求。为实现快捷、稳健评估狂犬病毒疫苗效力,本研究建立了基于磁性微球的狂犬疫苗糖蛋白化学发光免疫分析(CLIA)定量检测试剂。狂犬病毒糖蛋白单克隆抗体包被于磁性微球并对狂犬病毒进行捕捉,标记有吖定酯的另一糖蛋白抗体为信号示踪剂。性能评估实验结果显示自制试剂具有灵敏度高、准确度高、精密度好、检测范围广等
学位
胶质母细胞瘤(Glioblastoma,GBM)是最致命的脑部肿瘤,5年死亡率超过90%。GBM致死率高,这是由于其在治疗上存在各方面的局限性,比如平均发病年龄高、肿瘤的位置、以及目前对肿瘤的病理生理学认识仍不足等。目前治疗GBM常用方法为手术切除、放疗和化疗。在GBM中,表皮生长因子受体(Epidermal growth factor receptor,EGFR)表达非常普遍,以 EGFR 过表
学位
背景与目的缺血再灌注损伤(ischemia-reperfusion injury,IRI)是指机体器官或组织在经历缺血以及缺氧的打击后,在恢复供血后不仅机体器官和组织不能恢复到原有的功能,反而还加重了损伤程度的情况。全身各个器官均可发生IRI,其中肝脏缺血再灌注损伤(Hepatic ischemiareperfusion injury,HIRI)最为常见,其是机体休克或肝脏外科手术术后重要的并发症
学位
研究背景膀胱癌(Bladdercancer,BC)是常见的泌尿系统恶性肿瘤,化疗、免疫治疗和手术是治疗BC的有效方法,但复发和死亡风险仍很高,探索BC耐药、复发的原因及机制,寻找新的干预靶点及策略,是进一步提高BC疗效的关键。研究表明,肿瘤在经过根治性治疗(如大剂量化疗)后,会进入休眠状态。肿瘤休眠(Tumordormancy)是暂时的、可逆的有丝分裂和生长停滞状态。休眠肿瘤细胞(Dormant
学位
一、研究背景和目的放射治疗是临床治疗癌症的主要手段之一,放射治疗会对正常的细胞造成损伤,称为放射损伤或放疗损伤,放射损伤导致临床治疗效果欠佳,患者预后不良等问题。例如,对左侧乳腺癌患者放射治疗时,心脏面临暴露于电离辐射的风险,引起放射性心脏病(RIHD)如心肌梗死等,对患者的生活质量产生严重影响[1-3]。近年来,对环状RNA的研究越来越广泛,基于其独特环状结构,在生物医学应用方面拥有广阔的前景[
学位
矽肺是一种由吸入二氧化硅(silica,SiO2)粉尘引起的肺部疾病,以肺部炎症和进行性肺纤维化为特征,目前尚无针对该疾病的有效治疗药物。近来的研究发现,辅助性T细胞17(T helper cell 17,Th17)细胞在矽肺的炎症与纤维化进程中发挥着重要的作用。甘露聚糖结合凝集素(Mannan-binding lectin,MBL)是天然免疫中重要的糖蛋白,其表达与肺部疾病的发生发展相关。MBL
学位
报纸