LINCS数据相似性度量研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:wo19881026
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
LINCS是近期公开的一项大数据计划,它基于典型人体细胞在小分子化合物刺激下的反应而测定,数据丰富而规整,配套处理工具完善。由于基因表达具有高度相关性,探究LINCS基因表达的相似性对于基因推断、药物发现、多组数据融合分析、通路发现等具有重要的意义和参考价值。GSEA算法是目前研究LINCS数据相似性的主流算法,需要先预测实验结果然后再进行计算比对,由于其计算过程的复杂性,GSEA算法在相似性判定和时间开销上难以满足海量表达谱数据的分析需求。度量学习算法立足点在于学习,通过学习训练数据获得适合的度量空间从而进行相似度的计算,是比较理想的表达谱相似性判定方法,目前针对表达谱数据尤其是LINCS数据相似度分析的度量学习模型很少。基于此,本文以LINCS数据之间的相似度为出发点搭建了两种不同的的度量学习模型,另外,本文还提出了新的分类方法以拓展LINCS数据相似性的应用。课题主要工作包括:1.基于改进余弦距离的基因表达谱距离度量算法。本文首先提出基于H5py的数据提取优化方法用于LINCS数据提取,然后通过实验得出余弦距离是较为适合的相似度计算函数,接着对余弦距离进行改进,通过中心化和归一化使得算法对于基因表达谱各维度上的值更加敏感,结合NCA算法,组成基于改进余弦距离的近邻成分分析度量算法。在多个数据集上验证得出,该算法是一种对于基因表达谱相似度分析较为适用的度量算法。2.基于深度学习的基因表达谱距离度量算法。本文基于Siamese框架,构建DenseNet网络和Cosine距离相结合的深度学习模型,拓展了隐式的度量学习,采用Center loss和Cross-entropy loss结合的损失函数计算损失,在减少人工干预的同时提高了模型学习到的高层次特征表达的判别性。该方法的一个关键点在于数据的转换处理,需要预先将基因表达谱转换成基因方阵。在多组细胞系数据验证得出,该算法度量效果效果远远好于常用的度量学习方法和GSEA算法。3.基于共享字典学习的LINCS数据分类算法。本文设计了一种基于判别投影的共享字典学习模型,在训练字典时,还训练投影矩阵,并且投影矩阵对测试样本的投影可以加宽不同类型样本之间的距离间隔。另外,通过共享性能获取所有类别的样本,提高分类的判别性。最后,利用重构误差和均值向量之间的距离来判定样本的类别。在多组实验数据验证得出,该方法的分类准确率要高于当前主流分类方法。
其他文献
本文主要研究了空间型中子流形上的近Yamabe孤立子和近拟Yamabe孤立子.利用空间型中的特殊向量场及子流形的基本公式和基本方程,对空间型中子流形上的近Yamabe孤立子和近拟Ya
本文研究了取代基效应对N-(苯亚乙基)苯胺-银纳米超分子体系紫外吸收光谱和荧光发射光谱的影响。合成了银纳米溶液(AgNPs),通过透射电子显微镜(TEM)对AgNPs的尺寸进行了表征,测试了
复合材料具有高强度、高刚度、疲劳寿命长以及对结构预期功能的适应性等特点而广泛应用于航空航天、船舶、汽车等工程领域。由于复合材料结构在服役过程中不可避免的承受循环
蓝宝石作为一种先进的功能材料,具有优异的物理性能及化学稳定性,被广泛应用于航空航天、光学和医疗等多个领域。然而,蓝宝石无论是在加工过程中还是在其零件的服役期间,都可
量子纠缠的研究为量子信息的发展带来了质的飞跃,其中量子克隆作为量子纠缠态的应用领域之一,受到各界广泛关注。由于三体纠缠态具有独特的纠缠结构,其应用于远程量子克隆中所带来的结果会有很大变化,因此对于该纠缠态在远程克隆方面的研究具有很重要的意义。本文首先阐述了量子隐形传态和量子克隆的理论,国内外研究现状,细述了量子纠缠的概念及计算方法,以及研究量子克隆所需的理论知识。其次,介绍了三体纠缠态1→2、1→
现代工业借助化石能源飞速发展,然而过度依赖于不可再生资源所引发的能源危机与生态污染等隐患也日渐显露出来。为了社会可持续发展,探索可再生能源来替代枯竭的化石燃料已受
为了研究介孔Ni/MgO催化水蒸气重整商用生物质油制氢的活性以及生物质油转化制氢的微观历程,制备了介孔Ni/MgO催化剂。在固定床反应器上进行了Ni/MgO催化水蒸气重整模拟生物
高熵金属间化合物(High-entropy intermetallics,HEI)是一类新型的金属间化合物,它既具有高熵合金多主元化的原子组成特点又具备传统金属间化合物长程有序的原子排列特点。本
化合物结构性质定量关系QSPR(Quantitative Structure-Property Relationships)已成为化学计量学的一个十分重要的分支,通过建立QSPR模型来预测或估计未知样本的性质,分析对化
形状记忆聚合物(Shape Memory Polymer,SMP)是刺激响应聚合物中的一类,他们具有响应外界环境刺激而改变自身形状的能力。这些材料可在特定环境下由初始形状变形为临时形状。