李扬利用统计学整合人类基因组大数据

来源 :中华儿女 | 被引量 : 0次 | 上传用户：kingknife2000

【摘要】

：

【作者】

：

陈晰

【出处】

：

中华儿女

【发表日期】

：

2019年6期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　重构人类基因进化历史，对于研究并预防遗传疾病具有重要意义。哈佛大学来自中国的留学生李扬首创了CLIME统计算法，依托大数据时代巨大的公共基因组数据，通过分析不同物种的DNA序列之间的关系，快速准确重构了2万人的基因进化历史，为推动生物医学研究发展做出巨大贡献。
　　李扬于1988年出生于北京。2011年赴美留学，师从华人著名统计学家刘军教授，2016获哈佛大学统计学博士学位。他在统计学中主要的研究方向是通过统计建模，利用大规模的基因组学数据预测人类基因的功能，从而推动生物医学的研究。他的论文刊登在世界著名学术刊物如Cell， PLoS Computational Biology， Journal of the American Statistical Association， Nature Methods， Proceeding of National Academy of Science等，同时还为全球714个实验室提供了6，000余次在线分析。其中，10余家实验室通过使用CLIME算法应用得到了新的科学成果。

快速高效完成DNA测序

　　人类基因组中大概有2万个基因，然而目前科学界只对其中不到50%的基因有所了解，另外50%的基因并不清楚他们在人体中起到什么作用。但就是这些未知基因的功能，却左右着人类的遗传疾病。
　　李扬告诉记者，根据达尔文的进化论，不同的高级物种可能是从少数的几个低级物种进化而来，通过分析不同物种的DNA序列之间的关系，就可以重构每个人类基因的进化历史。在大数据时代，巨大的公共基因组数据量给研究者提供了一个良好的契机，CLIME算法正是基于这种思想，并基于严格的数学统计模型而发明的。

　　CLIME的统计模型是根据统计学中著名的隐马尔科夫模型（Hidden Markov Model）对人类基因在进化过程中的产生和消失进行数学建模。通过这个模型，CLIME分析出每个人类基因的进化历史，同时进一步使用贝叶斯混合模型（Bayesian mixture model），并使用马尔科夫链采样算法（Markov chain Monte Carlo）把进化模型相似的基因进行聚类。因为D N A测序数据量巨大，统计分析算法往往需要很长的计算时间。李扬在CLIME中提出了一个动态规划（Dynamic Programming）算法，使CLIME可以在短时间内高效完成计算。

10余实验室通过CLIME算法得出新成果

　　在实际应用中，CLIME算法使用了138个物种（包含动物、植物、单核生物等）的基因序列数据，重构了2万个人类基因的进化历史，把进化历史相似的基因进行聚类。目前，哈佛大学已经建立了CLIME 算法分析网站www.gene-clime. org，该网站在全球范围内被研究者广泛使用，已经为全球714个实验室提供了6，000余次在线分析，在线提供的人类基因组进化模型的分析结果已经被下载超过51万余次。此外，全球有10余家实验室通过使用CLIME算法，并应用于他们的数据上得到了新的科学成果。
　　芬兰科学院院士、赫尔辛基大学Anu Wartiovaara教授近期在Cell Metabolism上发表论文，详细研究了细胞代谢中几个重要基因的作用。在此文中，Wartiovaara教授实验室的研究人员使用了CLIME算法，对几个重要的细胞代谢基因进行分析，并得出了几个基因之间相关性的分析。Wartiovaara教授提到：“CLIME算法是李扬对学术界的一个重要贡献，CLIME算法的在线分析网站不仅仅我的研究小组的研究人员经常使用，同时也是被国际上很多研究人员经常使用的工具”。
　　對于未来的研究方向，李扬表示，随着科技发展，各个领域各个行业的数据量都在迅猛增长，每天会出现不同来源、不同形式、包含不同信息的数据。而通过数据来发掘有用的信息，帮助人类社会发展是当今社会的一个重要问题。因此，自己下一步将重点研究在高纬度下，如何从众多的变量中选择出最有预测能力的变量。

对话李扬：

　　《中华儿女》：请简单介绍一下统计学和生物统计学？
　　李扬：统计学可以算是应用数学的一个分支。统计学不是简单的收集和整理数据，而是通过概率模型来对数据进行分析，从数据中提取有用的信息的系统学科。统计学的研究方法包含广泛。人们除了使用应用数学外，还需要了解和使用计算机科学中的很多算法来分析实际的数据。统计学在生物、经济、金融、社会学方面发挥很大的作用。生物统计学是现代统计学中最早的应用之一。大约100年前，英国的Fisher ， Pearson， Galton等人发明出了一整套统计分析的理论框架，他们将统计学应用在分析遗传学、生物学和农业科学等学科中观测到的数据。比如Galton在研究遗传学数据中，分析了孩子和父亲身高的数据。他发现孩子身高会有向父辈身高均值回归的现象，并发明了线性回归方法来解释这些数据。现代统计学已经在各科学的研究和各行业的生产实践中得到极为广泛的应用。
　　《中华儿女》：统计学和生物统计学为何现在如此受到人们的关注？
　　李扬：现在是一个数据爆炸的时代。随着科学技术的发展，各个行业都在变得更加电子化和定量化，都在生成“大数据”。这些大数据虽然包含很多的信息，但是这些信息都隐藏在数据中，并不是直观表现在外在的。引用我的导师刘军教授的话，大数据是“原油”而不是“石油“。我们需要使用系统的方法来分析数据，从数据中提取有用的信息。统计学通过建立定量模型来揭示大数据中的复杂关系，通过这些模型预测未来结果并发现潜在的科学机制。现今各大科技公司都有数据科学（Data Science）部门，招聘了很多数据科学家（Data Scientist）来分析数据，提高产品的使用体验，更好的为客户服务。例如说在线打车公司Uber和Lyft都雇佣了大量的数据科学家，分析海量的用户打车数据，建立统计模型。这些统计模型可以预测每个城市人口活动的分布，实现对出租车的精确调度。统计学中另一个重要的研究领域被称为“因果推断”，它在生物统计学中有极大的影响。因果推断研究如何从数据中推断出因果关系。比如一个制药公司研制出了一种新药，需要进行临床实验判断这个新药是否比老的药更有效果。在实验中采集各种数据，通过统计分析来判断这个新药是否有效。　　《中华儿女》：可以简单介绍一下你的研究工作吗？
　　李扬：我的研究方向是整合生物基因组大数据，建立统计模型，来预测人类基因的功能。人类基因组中含有大概2万个基因，然而我们只对其中不到50%的基因有所了解。另外50%的基因我们根本不知道他们是在人体中起到什么作用。对于现在很多的疾病，我们知道他们是遗传疾病，但我们并不知道这些疾病是由于哪个基因产生了变异。所以预测这些未知基因的功能就是一个很重要的问题。
　　我的研究方向是通过统计方法，建立人类基因的进化模型，分析出哪些基因是共同进化的。我们的研究之前，人们大致上知道共同进化的基因很有可能是相同功能的，但是一直缺乏一个系统的统计方法去预测两个基因的共同进化。我研究了这个问题，提出了使用了隐马尔科夫模型（Hidden Markov Model）对基因进化进行建模，并使用马尔科夫链采样算法（Markov chain Monte Carlo）把进化模型相似的基因进行聚类。这个模型很成功，我们的论文发表在了Cell杂志上。我们在论文里使用了138个物种（包含动物、植物、单核生物等）的基因序列数据，重构了2万个人类基因的进化历史。通过把进化历史相似的基因进行聚类，我们对几千个人类功能未知基因的功能做出了功能预测，论文发表之后有美国、芬兰、澳大利亚、日本等国家的实验室对我们的预测结果做了生物实验验证，都得到了正面的结果。我的另一个工作是用统计方法整合基因表达大数据，通過预测基因的共同表达来发现基因和基因之间的关系。我们知道基因是需要通过转录表达成mRNA在细胞中发挥功能。两个基因的mRNA表达如果有高度的相关性，说明这两个基因很有可能发挥相关的作用。之前学术界已经有多算法来从数据中发现基因的共同表达，但是这些算法都有一个共同的问题，就是它们都是使用一个数据集来寻找共同表达。一个数据集往往数据噪音很大，而且你关心的基因不一定在这个数据集中有表达。所以，我们提出了一个新的基于贝叶斯（Bayesian）模型的统计算法，整合了3000多个在美国国家卫生院（National Institute of Health）公共数据平台上的数据集。通过整合这样规模的大数据，在预测基因的共同表达上这个新的算法显著比以前的算法有更高的准确性。在论文中，我们通过预测的基因共同表达找到了很多关联基因，我们的合作者还通过生物实验验证了其中的一些预测。哈佛大学为这个新的统计算法建立了网站（www. gene-clic.org），这个网站有很高的访问量。
　　《中华儿女》：能否谈一下统计学未来的发展方向？
　　李扬：我认为统计学在未来会越来越多的注重于应用。以前统计学中很多研究是建立各种各样的数学理论。这些理论建立了统计学的基础，推动了统计算法的发展。现在我们要做的就是把这些统计方法应用到更广泛的场景中去。在这方面，统计学家们要增加和计算机科学家们的合作。现在很火的机器学习是统计学和计算机的交叉学科，他的很多核心方法是统计学的理论，不过更侧重于应用。通过使用计算机科学的大规模算法，机器学习把统计学应用到更大的数据集和更多的问题中去。对于未来我认为统计学和计算机科学会走的越来越近，统计学家会使用越来越大规模的计算平台，计算机科学家也会越来越多的学习统计理论来指导他们的数据分析。在未来这个以数据和电子设备驱动的时代，统计学必然会发挥越来越大的作用。

其他文献

乡镇农机管理人员做好农机推广工作探讨

农机推广工作是一个集学术性、普及性和指导性于一体的、真正的有利于农民生产生活的一项工作,是建设机械化农业必不可少的一步,本文基于乡镇农机管理人员的角度深入的探讨实

期刊

农机推广乡镇农机管理机械化农业

香榧种植技术及效益分析

品质优秀的香榧有种植区域的局限性,所以经济价值较高,种植17年的香榧基地,管理得当每亩年产值达2万多元,但香榧种植与很多因素有关,本文从品种、催芽、嫁接、采摘等角度探讨

期刊

香榧种植技术经济效益

践行以人民为中心的发展思想推动江苏养老服务高质量发展

积极应对人口老龄化,推进养老服务高质量发展,是关乎江苏1805万老年人幸福晚年和推进江苏“高质量发展走在前列”的重大战略课题.党的十八大以来,江苏省以习近平新时代中国特

期刊

企业家战略和领导力的缺失

2004年,联想历史将书写浓重的一笔.rn2月18日,联想集团发布了第三财季的报告,同时宣布了新的组织架构及高层人事任命.而4月1日,联想将启动新财年,同时拉开新一个三年规划的

期刊

企业家战略联想集团组织架构三年规划人事任命书写生日启动历史报告

晚期妊娠胎盘早剥5例急救及护理

妊娠20周以后或分娩期正常位置的胎盘在胎儿娩出前,部分或全部从子宫壁剥离称胎盘早剥[1].胎盘早剥是妊娠晚期严重并发症,起病急、发展快,若处理不及时可危及母儿生命.2009年

期刊

晚期妊娠胎盘早剥严重并发症现报告如下效果满意胎儿娩出妊娠晚期精心护理子宫壁分娩期孕妇位置生命抢救母儿处理剥离

军转干部自主择业面临的问题与对策

摘要：军转干部是党和国家宝贵的的人力资源财富，军转干部安置工作是党和国家的一项重要任务，是实现军转干部人力资源重新利用的有效方式。党和政府2001年提出自主择业的安置方式，但在实施过程中出现了部分问题。本文笔者结合本人长期从事军转干部安置工作的经验，针对军转干部安置问题提出个人意见建议，不足之处敬请指教。　　关键词：军转干部；自主择业；问题；对策　　2001年党中央、国务院、中央军委颁布的《军队转

期刊

军转干部自主择业问题对策

电网调度监控一体化运行管理分析

摘要：现阶段我国电网朝着现代化、智能化发展。在电网的运行管理中，将电网监控和电网调度结合管理。从而能够实现一体化运行，提高运行效率。现就电网调度与监控的一体化的策略进行探讨。　　关键词：监控；调度；一体化；电网；运行管理　　电网本身的运行效率与电网供电质量相关。而其运行效率主要通过管理来提高。电网调度监控一体化，能够提高电网的运行效率。另外，电网调度的工作也与供电的安全、稳定相关。而在实现了一体化

期刊

监控调度一体化电网运行管理

Spicing Up Trade

Rwandan farmers are feeling pos-itive right now after a local chili company struck a hot $500-mil-lion deal on September 13 to sell dry chili to China.

期刊

改革开放四十年与人的价值创造

2018年,恰逢我国改革开放四十周年.与此同时,成立于1988年的中国人力资源开发研究会也迎来了三十周年的纪念.rn四十年的伟大历史进程中,中国经济社会发展呈现出天翻地覆的变

期刊

加强高校平台建设提高科技创新能力

科研平台是高校创新体系中的重要组成部分,对于提高高校科技创新能力,实现科研成果转化有着举足轻重的作用.本文拟通过探究高校科技创新平台在开展高水平科学研究、聚集和培

期刊

平台建设科技创新高校路径