基于网页排名的特征排序和降维研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:ffxcat
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术的飞速发展,生物学、医学等领域与计算机的关系越来越紧密,它们已经开始朝着数字化的方向发展。单细胞测序、医学图像以及药物设计等每时每刻都在产生大量的数据,这些海量的数据给研究人员带来了巨大的挑战。特征排序和降维是机器学习和生物信息学研究中的关键方向。特征提取后的生物序列数据可以通过机器学习进行科学研究,但是经过提取的特征中存在很多问题,例如特征与特征之间容易出现冗余问题。我们通常只希望使用对模型训练最有价值的那些特征。但是不同特征排序的算法输出不同的排序结果,用户需要手动测试最终的维数,这样十分浪费时间和精力。在本研究中,我们主要解决了三个问题。一是降维算法的通用性问题,即一个方法能够处理不同的数据集。在特征排序过程中,我们使用到了多个特征选择算法,进而可以呈现出特征之间更复杂的关系,然后借助网页排名的思想去计算每个特征的重要性。由于PageRank的思想在我们特征排序中取得了不错的效果,后续工作中我们又添加了HITS,Leader Rank,Trust Rank三个方法。二是探索降维后的维度大小问题。这里采用了正向添加策略以及五折交叉验证去测试最优组合的特征子序列。三是由于本文的方法在降维时要多次使用交叉验证,如果数据集过于庞大将是一个十分耗时的任务。所以本文额外提供了Spark版本的并行化实现方案。在本文的实验中,我们分别从多个数据集的不同角度证明了本方法的有效性。另外利用Spark集群实现并行的计算速度也在文中的实验中得到了有效证明。由本文方法实现的程序后期也会不断更新,源码可以在我们的Github中获得。最后为了供科研人员研究和使用,我们还提供了在线的降维平台。
其他文献
报纸
随着能源危机的不断加剧和建筑能耗的不断增长,对于全社会能耗而言,建筑能耗约占总能耗的20%左右,因此,建筑节能在可持续发展战略中至关重要。而居住建筑作为人们生活中必不可少的场所,人们对居住建筑内舒适性要求的提高导致了相应能耗的增加,因此,控制居住建筑能耗已成为节能减排政策中重要的组成部分,而提前进行未来居住建筑能耗预测,有利于政府制定政策进行宏观调控,也有利于社会节能技术的进一步提升。为预测未来能
学位
随着我国经济社会快速发展,城市河流的水污染问题也在不断加剧。受污染河水的生物净化是应用最为广泛的河道净化方法之一。氮素污染物是引起河流富营养化的重要因素,因此高效脱氮是河水生物净化的研究热点之一。然而实际河水中很难同时满足传统生物脱氮过程中的好氧和缺氧条件,因此在好氧条件下既能进行硝化作用又能进行反硝化作用的异养硝化-好氧反硝化菌引发了广泛关注。目前利用异养硝化-好氧反硝化进行脱氮研究的报道大多是
学位
将城市污水进行再生利用是有效节约淡水资源、减少污水排放的有效措施。而磷作为二级出水中最丰富的污染物之一,如果不进行深度处理来严格控制排放量,将导致地表水富营养化的发生。此外,传统的水处理工艺难以去除水中的药品与个人护理品(PPCPs),这些PPCPs排放到环境中将会对人体健康及生态环境造成严重的危害。本文针对某再生水厂混凝气浮-超滤-反渗透各再生水工艺单元中总磷(TP)、COD和七种PPCPs进行
学位
三氯乙烯(TCE)是污染场地中一类常见的有机污染物,已被我国列入有毒有害污染物名录。TCE在地下水中具有较强的迁移能力,且难以自然降解,对地下水环境安全和人体健康存在威胁,亟需有效的修复技术来处理地下水中TCE污染。零价金属已被证明可用于污染物还原降解,其中,零价镁(ZVMg)作为一种还原能力较强的修复剂,已有研究证明其在有机溶剂体系中能降解多种有机污染物,但直接利用ZVMg降解水溶液中TCE的研
学位
<正>在北纬30度线上,有许多奇特的地方,如大西洋上的百慕大三角区、埃及大沙漠中的金字塔、世界上最深的海沟马里亚纳海沟和最高的山峰——珠穆朗玛峰等等,被称为"江南第一古县城"的慈城也恰恰在这个位置上。
期刊
随着化石能源的不断消耗,人们对于清洁能源的需求日益迫切,能源的储存与利用已经成为研究热点。储存与利用能源的同时兼顾环境的可持续发展是当今人类追求生产力发展与环境生态可持续的重要课题。超级电容作为一种潜力巨大,环保高效的储能设备,近些年来持续受到研究与关注。生物质废弃物每年产量巨大,利用生物质制备的生物炭材料在众多领域得到了普遍应用。其中生物炭用于超级电容的电极材料近年来受到广泛关注。本文利用KOH
学位
目前,机器学习技术已经深深扎根于人们的日常生活中,并且已经应用到几乎所有的应用领域。然而,构建一个高质量的机器学习模型是一个迭代、复杂、耗时的过程,同时这个过程需要大量的专家知识去尝试各种算法和技术。随着现实生活中数据量的不断大幅增长,人们已经认识到纵使知识渊博的数据科学家也无法应对这些挑战。因此,自动构建良好的机器学习模型是至关重要的。在最近几年时间里,一些技术和框架被引入来解决机器学习领域中自
学位
分布广泛、储备丰富且清洁无污染的太阳能已经成为能源开发利用热点,然而光伏在发电过程中温度较高,使得硅基光伏板发电效率及使用寿命受到了较大影响。辐射冷却技术的迅速发展使得廉价、环保且不受时间和气候限制提供冷量的冷却散热技术得以实现。辐射冷却与光伏发电技术相结合将综合两者的优势,为提高光伏发电效率及使用寿命提供一个新的途径。针对如何使光伏板温度保持在最佳温度,本文建立了基于辐射冷却的光伏间接冷却实验系
学位
功能性短肽是一类具有特定生物活性和功能的短肽。研究表明,许多功能性短肽可以应用到药物研发和癌症医疗之中,比如细胞穿膜肽和群体感应肽。这些功能性短肽的识别研究对于进一步了解其功能机制并将其应用于医疗领域尤为重要。目前已有许多研究工作致力于对功能性短肽的预测识别中,其中基于机器学习的方法可以完成更加快速准确且低成本的预测。在本项研究工作中,本人分别针对以下两种功能性短肽的基于机器学习的预测方法进行了深
学位