【摘 要】
:
利用基因表达数据分类对癌症等恶性疾病进行识别,是数据挖掘技术在生物医学领域内的一个典型应用。决策树算法作为一种基础的机器学习算法,由于存在着理解性强,算法结构简单
论文部分内容阅读
利用基因表达数据分类对癌症等恶性疾病进行识别,是数据挖掘技术在生物医学领域内的一个典型应用。决策树算法作为一种基础的机器学习算法,由于存在着理解性强,算法结构简单等优点被广泛运用,因此也产生了许多变体和集成方法。由于旋转森林算法在精度和集成度方面的优势而在近些年引起了研究者的关注。然而由于基因表达数据存在非线性和不平衡的特点,使得旋转森林算法的性能还需要进一步提高。当考虑到所有的样本存在不一样的分类代价时,除了追求分类精度外,对代价因素的处理也是一个必须面临的问题。针对以上问题,本文结合基因表达数据的特点,进行了以下方面的研究:(1)提出了一种基于核主成分分析的旋转森林算法(KPCA-Ro F)。利用核主成分分析实现数据从样本空间到特征空间的非线性变换以及数据的差异性变换。借鉴支持向量机的思想和旋转森林的集成方法,实现了基于核函数的旋转森林算法。选择高斯径向基核函数为映射函数,并且对其中的参数进行了分析和选择。实验证明基于核主成分分析的旋转森林在算法精度方面优于原始的算法,并且在较小的集成度时就可以达到良好的效果。(2)结合几种常用的代价因素类型,提出了嵌入代价敏感因素的旋转森林学习算法(CS-Ro F)。首先,通过改变EG2代价敏感决策树属性分裂的度量方法,嵌入误分类代价和测试代价;其次,在C4.5_cs代价敏感决策树的基础上嵌入拒识代价,形成了同时具有误分类代价和拒识代价的旋转森林算法。实验结论表明,代价敏感学习方法是解决数据不平衡性的良好途径;同时嵌入代价敏感因素可以降低平均分类代价并且保证了精度。
其他文献
机器视觉技术是一门新的学科,主要是用计算机来代替人眼,通过处理分析图像的方式来直接或间接地识别出物体。该方法常被用于实际测量或检测。近年来,该项技术在诸多行业发展
随着计算机技术、通信技术、广播电视技术等的高速发展和图像处理设备价格的降低,户外视觉系统(如户外安全监控、道路监控)应用越来越广。对系统的适应性要求也更高,例如要求
近年来,随着计算机技术的发展,面部表情识别系统广泛运用于各领域。人们对表情特征提取方法和分类方法进行了深入研究,提出了许多行之有效的方法。本文综述了课题的研究背景
冠字号码可以给人民币作一种标示作用,每一张人民币上都对应一个唯一的冠字号码。据此,金融部门可以建立适当的管理机制,追踪人民币的使用情况,人民币冠字号码的自动识别系统
本研究基于长城信息湘计海盾有限公司的项目“VxWorks下的1394软件包”,在FreeScale PowerPC7448和VxWorks平台上设计1394接口驱动以及1394DV应用。VxWorks是美国风河(WindRiv
作为一种全新的信息获取和处理技术,无线传感器网络有着广泛的应用前景,而众多的应用都是基于节点位置信息的,节点定位技术已成为传感器网络的支撑技术之一。因此,节点定位技
科学计算可视化(Visualization in Scientific Computing, ViSC),指的是利用计算机图形学、图像处理技术,将科学计算过程中产生的数据及计算结果转换为图形图像在屏幕上显示
森林防火应急指挥系统将计算机技术、GPS技术、通信技术应用于现代森林防火应急指挥中,是计算机应用领域一个研究方向,得到了广泛重视。森林火灾具有突发性、地形相关性和高
Web2.0应用程序以其界面友好、功能丰富、实用性强等特点受到越来越多Web应用开发者和使用者的青睐。基于Web2.0应用程序的特点,它允许接受不受信任的来源,导致针对Web2.0应
本文对基于NetFlow的网络管理系统NBOS(NetworkBehavior Observation System)进行了研究。该系统的工作目的是为了管理网络服务质量和监控网络安全状态。论文用并行化的方式