融入特征选择的蛋白质功能预测和功能模块发现研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:chinacode007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人类基因组测序的完成让蛋白质组学研究成为了生命科学的重要领域之一。蛋白质作用参与了人体的各个生命活动,例如遗传物质复制、基因表达控制、代谢等活动都依赖于蛋白质-蛋白质相互作用(PPI)。因此,对PPI网络的研究有助于人们系统地了解其多样的生物学过程,PPI网络在后基因组时代受到越来越多的关注。在如今科技的发展趋势下,高通量技术也在不断完善中,得益于高通量技术的发展提升,越来越多的PPI数据能够被收集起来。然而尽管其中部分蛋白质的功能已经被加以标注,但未被标注功能的蛋白质数目也随着不断被收集的PPI网络数据而日渐扩大。因此如何能够科学高效的标注蛋白质功能成为生物课题研究中的一个重点内容。在目前已经被收集的蛋白质数据中,有相当大一部分的蛋白质的特征信息已经明确,而更多的是仅仅存在于相互作用网络中的蛋白质数据,它们没有其他附加的特征信息来帮助预测功能。对于仅仅存在于相互作用网络中没有其他特征信息的蛋白质,我们无法直接用分类的方法去预测它们的功能,却可以考虑用网络嵌入的方法学习出PPI网络中每个蛋白质数据点的低维表示,并以此作为蛋白质的特征来预测蛋白质功能。而那些具有特征信息的蛋白质,我们可以考虑使用聚类方法,在去除数据中噪声的同时对蛋白质相互作用网络和特征信息进行分解,达到识别相互作用网络中功能模块的目的。因此,在本篇论文中,根据对PPI网络拓扑结构的分析、特征学习和稀疏表示、网络嵌入和非负矩阵分解等机器学习的理论知识,我们提出了两种有效的方法来对蛋白质的功能进行标注:(1)提出一种联合网络嵌入的多标签学习方法,来自动的标注蛋白质功能。首先,用边介数加权原始的PPI网络获得一个新加权的邻接矩阵,然后用ISOMAP算法将新的邻接矩阵嵌入到低维空间,获得每一个蛋白质节点的低维特征向量。然后再将蛋白质节点的低维特征表示放到多标签学习的框架上,形成多标签线性回归模型,同时在模型中引入了一个稀疏惩罚项来获得蛋白质数据最具代表性的特征。最后,考虑到一个蛋白质数据可能拥有多种功能,蛋白质功能之间会有相关性,我们在多标签学习模型中引入了一个功能相关性的正则化项。在PPI网络数据上的实验表明了所提方法的有效性,并且在与几种蛋白质功能预测方法的比较中,我们所提的方法也展现了更高的准确性。(2)提出了一种在非负矩阵分解框架上实现的识别PPI网络中功能模块的方法,在获得功能模块后再分别为每个模块内的蛋白质标注功能。首先,我们分解PPI网络的邻接矩阵得到模块隶属矩阵,并保持计算得到的期望边与原来的网络拓扑结构紧密一致。接着分解描述蛋白质属性的特征矩阵获得隶属度矩阵和模块特征矩阵,最后引入了排他群Lasso约束来学习每个模块最相关的特征。对于目标函数的优化,我们设计了一个有效的算法来迭代求解几个具有闭型解的子问题。在LFR合成网络和DIP数据集上的比较实验证明了所提方法相较于其他的模块发现方法更加准确。
其他文献
工业机器人作为典型的机电一体化设备,广泛应用于工业自动化生产中,有效的降低了制造业相关企业的生产成本。目前,由于工业机器人成本较为昂贵,使得一些中小型企业继续采用人工生产,这降低了其在现代自动化浪潮中的竞争力,因此经济型机械臂便具有了一定的市场潜力,而一款经济性强且使用方便的工业机器人控制系统便是这些中小企业所需要的。故此,本文通过调研国内外工业机器人控制系统的发展现状,针对一款经济型六自由度机械
随着科技的不断发展,康复医学水平的提高,振动疗法在现代康复医学中重新受到重视,医学研究表明适当的机械振动对人体有积极作用。在与医院的合作项目中,课题小组研制了一种基
耕地后备资源开发是补充耕地占补平衡、保障农业生产、实现生态文明建设与经济发展双赢的重要举措。科学的对耕地后备资源开发适宜性进行评价,合理安排开发结构,为土地利用规
1,4-丁烯二醇(BED)作为精细化工的重要原料,其绿色合成得到了广泛关注。在所有合成BED的方法中,1,4-丁炔二醇(BYD)的选择性加氢是一种最简单的方法,工业上广泛应用林德拉催化剂作
本文选取了辉绿岩、玄武岩、钢渣和再生骨料等四种粗集料,分别对其组成的水泥乳化沥青混凝土的黏附性进行了研究。首先,对辉绿岩、玄武岩、钢渣、再生骨料等4种粗集料的表面构造和吸水率进行测试分析,并测试4种粗集料与乳化沥青间的接触角,进而对4种粗集料与乳化沥青间的黏附功进行了计算和排序。其次,对水泥、水、矿粉和乳化沥青间发生反应的情况进行探索,对水泥乳化沥青与粗集料间的界面进行了分析评分,设计低温黏结试验
本文合成了两类金属配合物。第一类:以N-苯基氨基硫脲(4-苯基-3-硫代氨基脲)和2-喹啉甲醛为原料合成缩氨基硫脲配体,然后与铁(Ⅲ)盐配位形成的单核铁(Ⅲ)配合物。第二类:以4-
CdS光催化材料由于其合适的禁带宽度、较强的导带还原电势被认为是最有研究价值和发展潜力的光催化材料之一。然而,纯相CdS材料在光催化过程中存在光生载流子分离效率低、界面催化反应速率慢和容易发生光腐蚀现象的缺点,严重制约了其大规模的实际应用。为了合成高效稳定的CdS基光催化材料,本论文分别从能带调控和助剂修饰方面对其进行了有益探索:(1)高效稳定CdxZn1-xS纳米晶光催化剂在过硫体系下的原位合成
随着近年来三维人脸重建技术在人脸识别、安防预警、目标追踪等领域的广泛应用,三维人脸重建方法研究成为了计算机视觉领域的热点。虽然三维重建技术有了一定的理论支撑以及广泛的应用基础,但如何在还原人脸过程中保证真实性和准确性依旧是一直以来的研究难点。传统的三维人脸重建方法需要充分考虑人脸特征的几何关联和面部纹理结构,为了补全这些关联而所获取信息的代价是极高的。除此之外,传统三维人脸重建技术需要通过红外扫描
非法经营罪体现在刑法第225条中,在司法实践中非法经营罪被广泛称为“口袋罪”,由于其罪状的设置采用了概括性的表达方式,入罪标准较为笼统,主要体现在其“兜底条款”相关内容规定的模糊性,即“其他严重扰乱市场秩序的非法经营行为”的模糊性。由于这种不确定性,在实践中往往存在着过分扩张的情形,使得现实实践中对非法经营罪进行进一步规制与明确的呼声越来越大。非法经营罪的“兜底条款”在司法实践的适用过程中,应当坚
电致变色薄膜及器件具有节约能源的效益,能有效降低全球日益加剧的能源危机问题,如今备受研究者的关注。在本文的研究中,采用直流反应磁控溅射法在ITO玻璃上溅射了不同氧分压的WO_3薄膜并对WO_3薄膜进行了详细的电致变色分析测试。同时本文在WO_3薄膜的基础上溅射了不同氧分压及不同压强系列的Ta O_x薄膜,分析了不同制备条件下的Ta O_x薄膜对WO_3薄膜的影响,并制备了含有Ta O_x薄膜的全固