论文部分内容阅读
研究背景:原发性肝癌(Hepatocellular carcinoma,HCC)是我国最常见的恶性肿瘤之一,始终是我国医学界面临的基础和临床研究的重大课题。研究表明肝癌的发生发展是多种因素造成的基因改变累积的结果,也是大量基因相互作用的结果,属于一种多基因复杂性状疾病。目前仍然缺乏早期诊断的有效手段,其治疗主要依赖于外科手术。近年来,对于包括DNA序列、表达谱、蛋白质序列在内的各种生物学数据进行分析的研究已经在很多生物学领域取得了重要的进展。但是,对于肿瘤这样的复杂疾病,人类的认识仍然匮乏,巨量的数据与匮乏的新知识之间构成了巨大的鸿沟。如何从海量数据中提取有价值的信息,发现能进行早期准确诊断和分类的特征基因(Featuregene)以及基因之间的相互作用机制显得尤为重要。
肿瘤基因表达谱数据除了一般芯片数据所共有的样本量少基因多的特点外,往往噪声冗余多而对样本分类具有较强代表性的特征基因少,一些常用的提取特征基因的方法不再适用或效果不佳,如Ratio值分析未考虑到芯片实验样本量和变异的影响,且其阈值确定的主观性较强,不同阈值的结果差异较大;校正后的参数、非参数统计学方法均存在任意两组样本的多重比较会大幅度增加假阳性率(False positive rate,FDR)的问题;粗糙集方法不能直接处理连续型数据,需要对数据进行离散化,不可避免地损失数据信息,且其结果受离散化程度的影响较大;一些基于分类器的特征提取方法,如支持向量机、流形学习和张量分析等,利用基因对分类的贡献间接得到可能的特征基因的信息,但常会出现对噪声敏感、过拟合和数据可分性差等问题,影响分类效果使得到的特征基因不稳定或出现假阳性,并且,基于分类器间接得到的特征基因,有时仅能得到特征基因组合,难以进行生物学验证。如何提高肿瘤特征基因识别的效率和准确性一直是该领域研究的主要问题。
肝癌的发生发展往往是多种因素造成的基因改变累积和大量基因相互作用的结果,仅研究具有显性表达的特征基因不足以了解疾病的发生机制。基因表达谱数据为研究大量基因之间的相互作用关系提供了有力的数据保障。基于基因表达谱数据的各类基因调控网络模型中连续性网络调控模型(如线性组合模型、微分方程模型)优于离散性网络调控模型(如布尔网络模型),而连续性模型本身在网络结构选择、参数估计和确定等方面均存在一定缺陷。如线性组合模型和加权矩阵模型无法衡量基因间非线性的相互作用关系;微分方程描述网络方程的稳定形式通常很复杂,计算量大,参数确定困难,抗噪声能力较差,模型训练时容易出现数据过拟合;关联规则用于构建基因调控网络时需要对数据进行离散化处理,导致信息损失和关系的准确发现;贝叶斯网络模型采用有向无环图与概率分布相结合表示变量间的作用关系,直观地刻画具有多种不确定性的基因网络,有较强的处理数据缺失和噪声,充分结合先验知识的能力。但应用于基因调控网络的构建时,由于基因表达数据量巨大,在网络学习过程中,候选结构会随着变量(基因)呈指数级增长,大大增加了构建合适的网络结构的难度,有时难以得到合适的网络结构。如何构建肿瘤基因调控网络模型,为从分子层面探索其发生、发展的机理提供线索是肿瘤基因表达谱分析的另一重要任务,也是后基因组时代生物信息学研究的前沿问题。
课题来源:本课题受3项国家自然科学基金、1项第二军医大学青年启动基金资助。
目的:基于原发性肝癌基因表达谱数据,针对目前肿瘤特征基因识别和基因调控网络构建中所存在的问题,以及数据高维、高噪声、高冗余的特点,探索能有效识别原发性肝癌特征基因及构建基因调控网络的数据挖掘方法。从而在基因层面上研究可能的发病机理,为从生物学角度验证基因之间的调控关系提供有价值的线索,从基因水平上认识疾病发生、发展的机制提供数量上的依据。
方法:
1、肝癌基因表达谱数据的获得:本研究的肝癌基因表达谱数据来自Chen等发布在SMD(Stanford Microarray Database)上的肝癌数据库。该数据库有104个HCC样品和76个正常肝组织样品,包括基因22987条。
2、肝癌基因表达谱数据整理:为了保证数据提供足够的转录表达信息,删除原始数据中缺失值超过20%的基因;并对剩余基因采用kNN法进行缺失值填充,异常值修正及标准化处理,经整理后获得含15155条基因的表达数据集。
3、肝癌特征基因识别:根据肿瘤基因表达谱数据特征基因少,冗余基因多的特点,分两步进行肝癌特征基因的识别。首先,采用改进后的检验效能较高的统计方法进行特征基因的初选,使其结果更符合基因表达的生物学意义;其次,基于特征基因的初选子集,采用基于基因调控概率模型的特征基因提取方法进一步精选,得到基因数量尽可能少而分类能力尽可能强的特征基因集合,提高识别的准确率,降低假阳性率。在特征基因集合的选择过程中,根据特征基因对于样本类别的代表性强弱,采用径向基核函数的支持向量机(SVMs)的分类性能作为评判标准,确定最优特征基因子集,挖掘与疾病诊断相关的代表性好的特征基因集合。
4、肝癌基因调控网络构建:根据基因转录过程中的模块性,从基因转录模块划分的研究入手,构建基因调控网络模型,探索基因之间、转录模块之间的调控关系。基因转录模块划分:综合系统聚类与k-means聚类的特点,构建不同模块划分下的类别质量评价指标,确定最佳分类数,进行基因转录模块的构建。首先,生成基因的系统树图,根据生成类别的有效性确定最大分类数kmax和初始类中心;其次,采用k-means聚类法进行类别数在[2,kmax]各类别组的迭代、调整,估计类别质量评价指标;第三,依据评价原则进行不同类别数下类别质量的比较,确定最佳分类数;第四,以最佳分类数下系统聚类的类中心为初始类中心,进行k-means聚类,并采用迭代法以前一次的最终类中心作为本次聚类的初始类中心,直至聚类结果稳定,获得基因转录模块的最终划分。基因调控网络构建:基于基因转录模块,采用混合型贝叶斯网络模型,以组织类别与基因同时作为网络节点,构建各转录模块内的调控网络识别转录模块内基因之间的调控关系;并以最接近类中心的基因作为转录模块的代表,构建其调控网络,探索各转录模块之间的调控关系。
结论:
通过在模拟数据集上的验证和肝癌实例数据集上的分析,SAM-t检验与基因调控概率模型相结合的方法,能在提高分类准确率的同时减少肿瘤特征基因的候选数量;在特征基因的初选过程中,采用SAM-t统计量与期望统计量之间差别的阈值△可以减少候选基因子集的数量,减少后续评价的运算量。将系统聚类与k-means聚类相结合,采用类别质量评价指标CQI值,能获得数据集中准确的分类数,获得可靠的聚类结果,进而得到肝癌基因转录模块的最佳划分。对基因转录模块内部和基因转录模块间建立混合型BN模型,不仅能同时考察基因与基因,基因与组织类别之间的调控关系,发现在转录模块中较为重要的调控基因,识别出某些可能的假阳性基因,对于大规模基因调控网络的构建和解释也能提供一定的线索。
主要创新点:
1、将两种有效的特征基因识别方法——SAM-t检验与基因调控概率模型相结合,提高了特征基因识别的效率。
2、采用基于样本的SAM-t检验统计量t与阴性假设成立下重抽样得到的期望统计量(-t)之间差别的阈值△确定初选过程中候选基因子集的规模和数量,避免了人为选定候选子集的主观性,减少了后续分类算法评价的运算量。
3、将系统聚类与k-means聚类相结合,构建了类别质量评价指标CQI值,提出了确定最佳分类数的原则,获得了准确的分类数和可靠的聚类结果,获得了可信的基因转录模块划分。
4、在基因转录模块内部和基因转录模块间,采用混合型BN,同时考察基因与基因,基因与组织类别之间的调控关系,对于模块内基因的相互关系进行了分析,发现了在转录模块中较为重要的调控基因,并识别出某些可能的假阳性基因。
另外,本文提供了基因调控概率模型算法实现,以及一般基因表达谱数据集格式向LibSVM数据格式转换的SAS程序,便于研究者使用。