基于特征协同作用的生物数据分析方法研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:taodengjiang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着计算机技术的飞速发展,生物信息学取得了长足的进步。如何从生物数据中挖掘出有用的信息,是生物信息学研究者们需要解决的问题。研究表明,从协同的角度对生物体内基因、蛋白、代谢物等特征进行研究有助于人们深入理解生物机体运行机制。本文提出了基于特征组合的随机森林算法RF-FC。该方法以特征的组合可以反映出生物体更为宏观的、系统的变化为出发点,在随机森林基决策树的分叉过程中不仅仅考察单特征的区分能力,还使用线性核支持向量机对所有特征对、特征三元组进行考察,从单特征、特征对、特征三元组中选取最佳方式进行结点的分裂。在14个公共数据集上的实验结果表明,本文提出的RF-FC算法的分类性能在大多数情况下优于随机森林。本文提出了基于Platt scaling技术和特征对得分的改进LC-k-TSP算法—LC-k-TSP-PlattCE。该方法在LC-k-TSP方法的决策阶段使用Platt scaling算法计算基分类器对未知样本的判别置信度,对每个基分类器依据对应特征对的第一得分进行加权。LC-k-TSP-PlattCE保留了LC-k-TSP的优点,采用k>0对特征的线性关系构建集成分类器,分类准则简单且易于获得生物学解释。在11个公共数据集上的实验结果表明,本文提出的LC-k-TSP-PlattCE算法的性能在大多数情况下优于LC-k-TSP,同时也优于支持向量机。本文提出了基于多种组合关系的生物网络构建与模块标志物发现算法MCR-Net。该方法以特征为网络的结点,使用单因素方差分析计算结点间+、-、×、÷四种组合方式的类间均值差异显著性p值,以最佳组合方式度量相应特征的协同作用,将对应的p值作为边的权重,构建能够反映生物体生理病理变化的生物网络。利用基于贪心思想的差异性模块搜索策略,搜索重要的网络模块。以模块本身的区分能力以及模块上支持向量机对未知样本判别的置信度为基础,将多个模块的信息有机融合,对未知样本分类。在18个公共数据集上的实验结果表明,本文提出的MCR-Net算法在大多数情况下优于其他流行的标志物选择算法。本文提出的方法都以生物特征间的协同作用为基础。算法在生物标志物研究和预测方面具有较强的应用价值。对三者的比较表明,基于MCR-Net算法的分类模型性能多数情况下较优,LC-k-TSP-PlattCE和RF-FC在解释性方面较好。
其他文献
第二次世界大战是人类历史上迄今为止规模最大、影响最广的一次战争。石油作为重要的战略资源在二战中起到了无可比拟的作用,在战争中扮演着重要的角色。二战前世界石油最主
《天池石壁图》是黄公望的代表作之一,笔者通过对《天池石壁图》实景与画境进行对比,探究黄公望绘画作品中视觉语汇的内部结构,分析黄公望是如何处理造化与心源的关系,有助于
随着蒙古国在羊绒制品生产方面的比较优势逐渐扩大,蒙古国生产羊绒制品的企业也在不断增加。而且随着蒙古国国内羊绒制品消费市场的饱和,越来越多的蒙古国羊绒制品生产企业开始探索国际化经营。然而在国际化经营过程中,蒙古国的羊绒制品生产企业总是会遇到各种各样的风险。因此,本文以“蒙古国羊绒制品生产企业国际化经营风险及其防范研究”为题,使用文献综述法、专家访谈法、层次分析法、模糊综合评价等研究方法,对蒙古国羊绒
涉及计算机程序的方法专利拆分侵权是多方参与侵犯同一专利权的情形,因为没有任何主体实质上实施了方法权利要求中的所有步骤,传统的专利直接侵权与间接侵权均不成立。但如果
随着知识产权与经济的不断融合发展,商事主体都逐步认识到掌握知名商标的重要性,于是商标许可制度也不断发展,成为许多企业发展经营的“搭便车”式选择。但是我国现行《商标
Mashup技术是Web 2.0的关键技术之一,它可以通过集成多种不同功能的Web API,构建出一种全新的Web应用——Mashup服务。在Mashup技术的支持下,许多组合级应用可以在较短的时间
伴随当前经济的快速发展和生活水平的提高,人民个体化需求越来越多样化,而且在社会转型的进程中,区别于政府的社会组织,在市场经济体制的带动下得到了快速的发展。但是,由于
随着智能终端的普及和定位技术的发展,基于位置的服务(Location Based Service,LBS)已得到广泛应用。然而,用户在享受LBS带来便利的同时,由于其需要将真实位置提交至位置服务提供商(Location-based Service Provider,LSP),因此也面临着位置信息被恶意LSP搜集并滥用,导致用户隐私泄漏的风险。为此,国内外研究人员提出了很多保护用户位置隐私的方法。作
复杂网络零模型抽象出某些网络的实际特征,可以与初始网络形成参照对比。动力学传播问题比如谣言传播、病毒传播一直是复杂网络中的一个研究重点,利用各种方法去研究复杂网络传播问题,具有现实意义。本文首先介绍了零模型的基础概念、构造方式、相关算法及应用;然后根据实际情况,对现有的不同阶次零模型算法进行了改进;最后用所生成的不同阶次零模型研究复杂网络中的病毒及谣言传播。本文贡献总结如下:1.针对通过现有2阶零
近年来,随着海外热播节目大规模引进,我国电视综艺节目的内容生产已呈现井喷状态,一大批为片面追求高收视率、高经济效益的真人秀节目迅速雄霸荧屏,电视节目出现严重同质化倾向,给我国电视环境带来极大冲击。2016年,国家新闻出版广电总局发布《关于大力推动广播电视节目自主创新工作的通知》,支持鼓励自主原创节目。此后,一批致力于传承和弘扬中国优秀传统文化的电视综艺节目悄然而生。其中,以中华古诗词文化为创作源泉