基于本体数据库的多标签预测模型及生物医药数据挖掘研究

来源 :东华大学 | 被引量 : 4次 | 上传用户:coolgirl518
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息、概念和术语以指数级别的速度在飞速增长,本体数据库在生物信息领域的应用变得越来越广泛。本体数据库旨在统一科学术语,完成新老知识的无缝对接。GO(Gene Ontology)数据库和Ch EBI(Chemical Entities of Biological Interest)是两个典型的本体数据库。GO数据库是一个大型的存储基因产品生物功能的数据库。它的发起源于生物学家要求对不同领域的基因产品进行统一记录存储,以便更方便快捷地注释新的基因产品。Ch EBI数据库则专注研究小化学实体的分子。本体数据库应用于预测模型的典型方法大致有两种:分类图形结构相似方法和信息内容相似方法。但是,由于数据的飞速增长,以及人工智能技术的发展,老的预测模型已经不能够满足研究人员的要求。本文通过构造Bayes统计降维方法和OIPM(Ontology Information Probability Model)特征提取方法,使用新创建的多标签预测算法进行模型构建,提高了蛋白质亚细胞预测模型和药物预测模型的性能,缩短了模型的运行时间。通过Jacknife交叉验证方法的测试,与最新的预测模型对比,证实了新建预测模型的有效性。为了便于生物实验科学家和药物研究人员开发和研究使用,本文构建了网络蛋白质亚细胞预测服务器和药物ATC(Anatomical Therapeutic Chemical)类别预测服务器。以下是论文的主要工作和创新点:(1)创建了新的多标签算法ML-GKR(Multi-Label Gaussian Kernel Regression)。多标签分类是机器学习新兴的领域,它属于多分类问题的特殊情况。多标签分类中的每个案例可能会被分配一个或者多个目标标签。ML-GKR由高斯核回归算法演变而来,融入了多标签的属性。在多标签ATC药物分类模型研究章节中,通过将ML-GKR算法与经典的多标签算法ML-KNN(Multi-Label K-Nearest Neighbor)和RankSVM算法进行对比,发现除Aiming以外,ML-GKR在Chou的五个多标签评价指标的其他四个方面都是最优的。尤其是对多标签算法最重要的Absolute true评价指标,ML-GKR算法的预测值达到60.98%,比ML-KNN和RankSVM分别高6.82%,25.21%。在CPU处理器为(x64)4*2.6G的计算机(Windows7操作系统,4G内存)上运行,ML-GKR算法Jacknife测试的运行时间只有ML-KNN和RankSVM的0.3%和0.03%,运行时间为3分钟。(2)多标签药物ATC分类模型研究。指定一个药物化合物,我们提取出化合物-化合物交互信息、化合物-化合物结构相似信息和分子指纹相似信息作为样本特征,应用多标签算法ML-GKR,预测出药物的ATC类别及他的可能活性成分、治疗、药物和化学性质。该分类模型实现了第一个多标签ATC药物分类模型网站。以前的药物ATC分类网站为单标签预测模型,即一种药物只可以标记为14个ATC类中的某一个类。但是,某一个ATC药物可能同时属于多个ATC类。通过对该药物ATC分类模型研究,我们发现它对于旧药重利用有重要指导作用。我们使用网络预测模型对3883个药物进行预测分析,有1229药物样本被预测为假阳性。通过对部分药物预测结果的假阳性分析,我们发现假阳性可以指导药物的重利用和再开发。(3)基于ChEBI的多标签药物ATC分类模型研究。研究了如何根据药物在ChEBI数据库中的本体信息,抽取药物特征向量的问题。开发出来一个新的模型叫做OIPM,根据ChEBI中叙述化合物功能语义之间的差异来量化两个化合物之间的相似性。将OIPM与化合物-化合物交互信息、化合物-化合物结构相似信息和分子指纹相似信息等样本特征融合在一起,实现药物ATC类别预测精度的进一步提高。为此,我们开发了一个多标签ATC药物预测模型i ATC-mHyb。根据一个化合物特征功能的语言叙述,预测出它的治疗、药物和化学性质。这是一个重要,并且具有挑战性的问题,因为它的预测结果将有助于药物的开发和利用。(4)基于GO的多标签动物蛋白质亚细胞定位预测模型研究。该预测模型在最新的动物亚细胞位置预测模型iLoc-Animal的基础上进行改进后得到的。网络服务器的访问地址为:http://www.jci-bioinfo.cn/pLoc-mAnimal/。iLoc-Animal动物蛋白质的GO特征向量采用了GO术语频率(Term Frequency)方法。这种方法类似于1-0方法,1-0方法的特征向量中的每个元素的值只能为1或0,1代表GO术语对该蛋白质有标记,0表示GO术语对该蛋白质没有标记。而GO术语频率方法的特征向量中的每个元素的值为大等于0的整数,0表示GO术语对该蛋白质没有标记,其它数值表示给定蛋白质以及同源蛋白的GO术语出现的频率计数。本文提出的多标签动物蛋白质亚细胞定位预测模型pLoc-Animal使用了基于贝叶斯统计的特征向量降维方法。该方法假设样本中每个特征变量之间独立不相关,对每个GO术语进行贝叶斯统计,计算它与蛋白质亚细胞位置的关联度。然后,统计最大的关联值,以此作为蛋白质的特征向量。贝叶斯概率统计降维方法对iLoc-Animal中的GO特征向量进行降维,蛋白质特征向量维数从3043降到20维。pLoc-Animal模型采用多标签分类算法MLGKR,融合了GO特征向量和Grey-PSSM(Grey-Position Specific Scoring Matrix)矩阵特征向量,构造出预测动物蛋白质亚细胞位置的多标签模型。pLoc-Animal预测模型的绝对正确率达到0.6193,与预测模型i Loc-Animal相比提高了0.16。由于数据特征维的降低,预测模型的运行时间也大大降低。在(x64)4*2.6G CPU处理器,4G内存,Windows7操作系统的计算机上,对iLoc-Animal预测模型进行Jacknife测试,需要花费一个多月的时间。同样的硬件平台和操作系统,对动物蛋白质亚细胞位置预测模型pLoc-Animal进行Jacknife测试,只需要2分钟。同时,由于预测模型的运行时间大大地降低,对ML-GKR参数的优化也成为可能。(5)非平衡多标签集成植物蛋白质亚细胞定位预测模型研究。创建了多标签植物蛋白质亚细胞定位预测模型pLoc-mPlant,网络服务器的访问地址为:http://www.jci-bioinfo.cn/pLoc-mPlant/。通过分析发现,植物蛋白质数据集的各类蛋白质之间数量差别比较大,978个蛋白质中,属于Golgi apparatus和peroxisome类的只有21个,属于chloroplast类的有286个。同样可以注意到,Golgi apparatus和peroxisome类的蛋白质正负样本比率接近1:50。针对植物蛋白质数据集的非平衡特点,构建两个新的多标签集成算法EML-GKR-1和EML-GKR-2。其中,EML-GKR-1算法融合了上采样和下采样技术处理植物蛋白质数据集的非平衡问题,EML-GKR-2算法融合了代价敏感方法用于处理植物蛋白质数据集的非平衡问题。预测模型以蛋白质GO特征向量表示蛋白质特征,分别使用了三种多标签算法(ML-GKR、EML-GKR-1和EML-GKR-2)对植物蛋白质亚细胞位置进行预测。与最新的植物蛋白质亚细胞位置预测模型相比,新的集成算法在标准数据集上性能有较大提高。
其他文献
肠造口术是外科最常施行的手术之一,需要进行肠造口手术的疾病有:低位直肠癌、肠外伤、肠坏死、肠梗阻、炎性肠病、家族性腺瘤样息肉病、小儿先天性畸形、膀胱肿瘤。由于造口患
在保障国民经济系统稳定运行的基础上研究战争的经济承受力是适应高投入、高消耗的信息化战争的需要。选取国防支出占GDP的比例为战争的经济承受力指标,建立引入国防变量的联
多囊卵巢综合征(Polycystic ovary syndrome,PCOS)是一组复杂的症侯群,其主要临床特征为月经稀发、闭经、肥胖、多毛、痤疮及排卵障碍。血清学改变主要为高雄激素,高LH或LH/FSH≥2
"香格里拉之声"主持人,2006年参加CCTV奥运舵手选拔赛,并成功晋级80强,是同时晋级的三位云南籍选手中的惟一一名男性。
期刊
计算机技术的广泛应用和信息化时代的到来,完全改变了我们的生活和工作方式,为顺应现代化的潮流,学校会计电算化已经基本实现,来帮助学校进行记账、核算这些基础的会计工作,
食管狭窄是食管、贲门部疾病的常见并发症,近年我室采用胃镜下球囊扩张器治疗食管狭窄共55例,取得良好疗效,现总结如下。
以埃塞俄比亚德赛旧路改造工程为背景,在分析路基边坡中存在问题、缺陷及其成因的基础上,提出了提高边坡稳定性和整体性的施工措施和方法,经施工验证,具有良好的效果,可以为
英语作为国际交流通用语言,其教育现状和发展得到我国教育部门高度重视,明确将培养学生英语综合应用能力、增强自主学习能力、提高综合文化素养以及适应我国社会发展和国际交
患者,男,26岁,安徽省亳州农民,于2013年5~12月间自觉口腔有虫爬感,伴食欲减退、流涎、恶心和头痛等症状,痰液带少量血丝。赴当地县医院检查,主诉口腔有虫爬感,外科医生用镊子
不久前召开的全国金融工作会议在谈到防范化解金融风险时指出:“要推动经济去杠杆,坚定执行稳健的货币政策,处理好稳增长、调结构、控总量的关系。要把国有企业降杠杆作为重中之
报纸