【摘 要】
:
在生物信息学中,从大量数据中挖掘对研究有价值的信息越来越受到研究人员的重视。时序基因表达数据是生物生长过程中不同时间点采集的基因数据,作为研究热点之一的时间序列基
论文部分内容阅读
在生物信息学中,从大量数据中挖掘对研究有价值的信息越来越受到研究人员的重视。时序基因表达数据是生物生长过程中不同时间点采集的基因数据,作为研究热点之一的时间序列基因数据挖掘也越来越受到研究者们广泛关注和研究。时间序列基因数据分类是一个非常重要的课题,它包含了大量与时间相关的生物信息。由于基因表达数据的“高维、小样本”特点。传统的机器学习方法在处理高维数据上不仅会建立复杂的分类模型,而且得到的分类结果很难用生物学的角度理解。最高得分对算法(Top Scoring Pairs,TSP)是利用少量特征对对样本进行预测的分类器,此算法在处理基因数据上达到了很好的效果,但还不能处理时间序列基因表达数据。为了充分利用TSP算法优势,本文提出动态最高得分对算法(Dynamic Top Scoring Pairs,DTSP),将TSP算法改进为能处理时序基因数据的分类器。本文的主要工作如下:1.本文提出DTSP算法,将趋势的思想融入TSP算法中,使其能够处理时序基因。DTSP算法不仅考虑了相邻时间点的差异趋势,并且将差异的值的大小考虑进去,提高了分类准确率。同时算法也改进了预测模型,用趋势的规则进行预测。本文使用时序基因数据集进行实验,将DTSP算法和支持向量机、K近邻算法做横向对比,并将DTSP算法中包含的三种算法做纵向对比。实验证明,改进后的分类器得到了很高的分类效果,选出了最具分类能力的特征对。选出的特征对将对生物学基因研究提供了新的思路。2.在动态最高得分对算法理论的基础上,本文设计了基于DTSP算法的时序基因分类系统。该系统不仅实现了DTSP算法对时序基因的分类,同时兼容传统的机器学习分类算法,能够为用户提供二次开发的接口,集成自定义的时序基因分类算法。该系统不仅能对时序基因分类,而且可以将DTSP计算出的最高特征对展示出来,可以用于医疗生物学的进一步研究。
其他文献
复杂网络作为一门交叉学科引起了许多领域研究者的广泛关注,尤其在生物领域、工程领域以及社会学研究领域等等。从初夏的夜晚萤火虫的闪烁发光,到群体的同步闪烁;从放映厅中
本文主要讨论了一类时标高阶泛函动力方程非振动解的存在问题。全文共分为三章。在第一章,我们介绍了时标动力方程的研究背景、意义和研究现状,并且给出了本文需要的定义,概
本论文针对淡水鱼前处理加工过程主要完成了淡水鱼体长与比例测量、鱼头定向装置设计和鱼头切除装置设计等研究内容。淡水鱼体长与比例的数据能为鱼头定向和切除装置提供设计参考和自动调整依据;鱼头定向装置能够自动调整鱼头方向以满足鱼头切除装置正常工作需要;鱼头切除装置是淡水鱼自动化前处理生产线的一个模块化核心装置。针对以上问题,首先是利用python图片处理功能研究了草鱼体长和头尾比例关系。首先对草鱼图片进行
目的:观察通阳泄浊法配合西医常规治疗冠心病稳定性心绞痛痰浊闭阻证的临床疗效。方法:选取60例符合诊断标准的住院患者,随机分为治疗组和对照组,两组各30人。对照组运用西医综合治疗,治疗组在对照组基础上加用通阳泄浊汤,治疗4周。比较两组患者治疗前后的心绞痛发作情况、中医单项症状积分、中医症候疗效、心电图改变情况、硝酸甘油停减情况及治疗前后的血清血脂水平变化。结果:治疗组在改善心绞痛症状、减少中医单项症
随着我国城市化的不断推进,常规公交系统已逐渐无法满足人们出行的需求,而城市轨道交通凭借其运量大、能耗低的特点在各大城市中得以迅速发展。但是随着城市轨道交通的建设不断扩大,其耗电量仍然是城市总耗电量中不可忽视的一部分,因此城市轨道交通运行方案的节能优化研究有着重要的意义。本文基于城市轨道交通列车的性能参数、线路条件及运营策略等多方面因素,建立列车能耗模型,并结合萤火虫算法进行优化,使用MATLAB软
粗糙脉孢菌(Neurospora crassa)是脉孢菌属的一种多细胞丝状真菌,其菌丝透明,并有分隔和分枝,菌丝疏松,呈网状,能产生桔色分生孢子。粗糙脉孢菌生长快,易培养,遗传背景清晰,
音频场景识别是近年来数字音频研究的一个新领域,旨在通过分析背景声音对所处场景进行分类。智能设备可以利用当前音频中提取的背景环境信息来调整系统或应用程序的参数,以满
随着国家现代化水平的不断提高和居民收入的日益增长,空调逐渐成为我们的生活中不可或缺的元素。空调在运行时会由于振动而产生噪声,噪声中包含空调运行过程中的状态信息。根
全球气候变化的研究,是当前国际科学研究的热点之一,它不仅是地球演变中的重大事件,更是生命的产生和物种变迁的决定因素。在人类社会的发展过程中,气候一直扮演着非常重要的
在非病毒基因载体中,聚乙烯亚胺(PEI)阳离子基因载体转染效率极高,但却有很高的细胞毒性,需要进行优化。在此,我们构建了两种基于PEI的基因载体。在体系一中,我们用环糊精(CD)交