基于网络分析的潜在生物标志物选择算法研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:meiyajun1008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因组学、蛋白组学、代谢组学等是系统生物学的重要组成部分,从基因组学、代谢组学等组学数据中确定反映机体生理病理变化的生物标志物对疾病的诊断与预警、药物靶点预测等具有重要意义。组学数据具有样本量小、维度高的特点,如何从中确定精准反映疾病发生发展的生物标志物是组学研究的重要内容之一。本文采用网络分析技术从组学数据中确定潜在的生物标志物,主要工作如下:提出了基于特征区分能力和网络影响力的特征选择算法FS-DANI。与疾病相关的生物分子(特征)往往位于生物网络中重要的功能模块并在模块中发挥着高参与作用。FS-DANI算法根据特征在不同类样本上有效范围的重叠区域评价特征的区分能力,基于特征相关性网络中模块的重要性和特征在模块的中心性衡量特征在网络中的影响力,最后将二者结合综合评价特征的重要性。本文在10个公共数据集上将FS-DANI算法与性能较好的单变量特征选择算法(Relief F、ERGS)、多变量特征选择算法(m RMR、SVM-RFE)和基于网络分析的特征选择算法(ATSD-DN、INDEED)进行了比较。实验结果表明,在大多数数据集上FS-DANI算法所选特征子集在准确率、敏感性、特异性上优于对比算法所选特征子集。提出了基于样本网络的特征选择算法FS-SN。根据样本在分子(特征)表达水平上的近邻关系构建样本网络,基于样本网络的拓扑结构评价特征的区分能力。区分能力强的特征会使得网络中同类样本间的连边多,不同类样本间的连边少。同时,FS-SN算法利用特征间的引力作用去除冗余的特征。本文将FS-SN算法与性能较好的单变量特征选择算法(Relief F、ERGS)、多变量特征选择算法(m RMR、SVM-RFE)和基于网络分析的特征选择算法(ATSD-DN、INDEED)在10个公共数据集上进行了比较。实验结果表明FS-SN算法能够筛选出与类标相关的特征子集,在大多数数据集上,FS-SN所选特征子集在准确率、敏感性、特异性上优于对比算法所选特征子集。FS-DANI算法和FS-SN算法均采用了网络分析技术从组学数据筛选重要特征,FS-DANI算法基于分子间的相关性构建生物网络,结合特征自身的区分能力和网络影响力综合评价特征的重要性;FS-SN算法根据样本在特征上的距离为每个特征建立样本网络,基于样本网络的拓扑结构评价特征的区分能力。实验结果表明了两种方法的有效性。在生物组学数据分析中,采用网络分析技术有助于从网络水平识别反映疾病发生发展的生物分子。
其他文献
SPM(Single Point Mooring System,单点系泊)俗称为海上“油码头”,是海上与陆地油气传输的中转站。通过它,船舶不用靠岸,可以实现油气从陆地到船舶或船舶到陆地间的传输,是海洋工程装备的核心部件,是DSM公司的长期发展的产品。尽管SPM项目管理过程中,项目团队做了很多努力,由于SPM项目管理相关流程的缺失和不完善,导致部门间衔接不畅,效率低下,并没有达到预期目的,SPM项目
从数据到信息再到知识库,遵循了严谨的科学研究过程。本文通过梳理地质数据与大数据特征的共性与差异,总结典型应用案例的成果与问题,得到地质大数据信息化框架建立的逻辑。地质大数据仍将主要以因果关系为指导建立数据库,短期较难大面积跨领域、多领域开发挖掘算法,相关分析将作为重要补充融入地质研究体系。检索效率提升,数据加密与分层管控,点数据向线、面数据的扩展,是数据库之间互通、揭示共性规律的主要难点。
部分充液储箱在外部激励作用下产生的流动称之为液体晃动。液体晃动属于流体动力学的一个重要分支,涉及物理学、数学、力学以及诸多工程领域,并具有完整的理论体系。外部激励作用下,储箱内液体晃动产生的冲击荷载将对结构的稳定性及安全性造成严重威胁,且随着实际工程中储箱所处环境的日益复杂,开展减晃研究愈发重要。开孔格栅作为减晃结构,因其具有良好的耗散能量的特性,越来越多地受到诸多学者的重视。有限单元法(FEM)
圆柱绕流问题作为流体力学的热点研究问题,一直备受广大学者关注。目前,众多学者对于圆柱绕流问题基本集中在单圆柱绕流以及双圆柱绕流水动力特性研究,对柱群绕流问题的研究相对较少。因此,研究柱体的绕流特性具有十分重要的意义。所以本文从实际问题出发,主要研究三圆柱绕流和五圆柱绕流的尾流特性和各个柱体表面的受力特征。首先,本文介绍了国内外研究人员对于单圆柱绕流以及多圆柱绕流的数值模拟以及物理实验研究进行了分析
作为结构自身固有特征,准确地获取模态参数和进行模态分析,能够帮助提升结构运营性能和判定结构健康状态。在结构响应信号成分复杂或模态分析遇到困难时,基于现代信号处理技术的模态分解方法也是结构模态参数识别中的一类重要方法。针对目前模态分解方法可能出现模态混叠或失真等现象,提出一种用于结构模态识别的新的模态分解方法—约束模态分解。方法的基本思想是基于单阶模态频域响应的峰值特性,利用结构响应的线性组合实现目
对任意大于1的正整数N,定义双圆盘上的Hardy商模N=H2(T2)(?)[zN-wN].本文证明了该商模上的压缩移位算子Szk至少有NK个互不相同的非平凡极小约化子空间,并且当φ是有限Blaschke乘积时,商模N上存在Sφ(zN)的唯一非平凡极小约化子空间M,使得Sφ(zN)在M上的限制与Bergman移位Mz酉等价.本文还研究了亏格空间[zN-wN](?)z[zN-wN]上与算子FwN相关的
纳米流体是由特征尺寸在纳米量级的颗粒和基液组成的胶体悬浮液,可在现代工业设备中作为传质、储能的新型载体,如微电子散热芯片、太阳能收集装置等。一般来说,纳米颗粒的添加可引起流体传热、传质性能的协同变化,而纳米流体的导热系数、粘度等物理性质的耦合变化规律往往与纳米颗粒的属性密切相关,这对应用纳米流体并结合其物理性质进行现代工业设备的设计提出了挑战。因此,阐明基于纳米颗粒属性的纳米流体导热系数和粘度的调
本文利用非广延统计理论研究了π介子相互作用影响下的π介子分布。高能重离子碰撞产生的介子中,π介子产额最大,质量轻,研究它的分布情况对于研究碰撞演化的动力学信息具有重要的意义。在实际高能重离子碰撞过程中,介子之间存在强相互作用的剩余力,这种力是长程相互作用力,而Boltzmann-Gibbs统计无法准确描述这样的长程相互作用系统,我们在本文中选择使用非广延统计理论来描述。我们用非广延参数来表征π介子
由于李代数和物理的双重需要,人们开始研究Hom-李代数,而作为Hom-李代数一般情况的Hom-Leibniz代数的结构和性质也被广泛研究.本文主要推广了特征为零的域F上有限维Hom-Leibniz代数的广义导子代数GDer(V)、拟导子代数QDer(V)、中心导子代数ZDer(V)、型心C(V)、拟型心QC(V)的概念,研究了 n-Hom-Leibniz代数的导子代数的基本性质及其之间的关系,得出
令C为复平面,D为复平面上的单位圆盘,令f(z)=∑n=0∞0anzn为形式幂级数展开,令Rf(z)=∑n=0∞an∈nzn是f的随机化,其中∈n=±1.令Hp(D)为定义在单位圆盘D上的经典的Hardy空间,并且Hβp(D)为单位圆盘上D的Hardy-Sobolev空间,其中β ∈ R.1930年,Littlewood已经证明了:如果f(z)=∑n=0∞anzn ∈ H2(D),则对任意的p>0