【摘 要】
:
分类学习方法有一个基本假设,即不同类别的样本数量相当.样本数量分布不均衡,会影响分类的准确率.针对样本分布不平衡的肿瘤亚型分类问题,提出聚类-过采样(clustering minority over-sampling technique,CMOT),避免了算法“对少数类不友好”的情况.具体来说,首先在少数类的内部进行聚类,目的在于寻找少数类数据的分布结构.其次,使用改进的过采样方法,对少数类数据进行数据增强,最终实现不同类别的样本数量均衡.对比四种过采样方法,使用CMOT方法,肿瘤免疫亚型的分类准确率达到
【机 构】
:
贵州师范大学大数据与计算机科学学院,贵阳 550000
论文部分内容阅读
分类学习方法有一个基本假设,即不同类别的样本数量相当.样本数量分布不均衡,会影响分类的准确率.针对样本分布不平衡的肿瘤亚型分类问题,提出聚类-过采样(clustering minority over-sampling technique,CMOT),避免了算法“对少数类不友好”的情况.具体来说,首先在少数类的内部进行聚类,目的在于寻找少数类数据的分布结构.其次,使用改进的过采样方法,对少数类数据进行数据增强,最终实现不同类别的样本数量均衡.对比四种过采样方法,使用CMOT方法,肿瘤免疫亚型的分类准确率达到98.79%,明显高于其他方法.CMOT方法能够捕获少数类样本的真实特征,产生的伪样本足以平衡数据集,进而提升分类模型的精度.
其他文献
互联网在线应用的迅速发展,使网络中加密流量的数量激增,复杂性增大,这对加密流量的分类问题提出了严峻的挑战.为此,提出一种基于聚合残差网络的加密流量分类方法,该方法使用的模型结合了分组卷积、特征聚合的结构以及残差网络的跳接思想,并充分发挥了一维卷积神经网络在处理一维数据时的优势,实现对加密流量的准确分类.对公开数据集“ICSX VPN-nonVPN”中12种不同类型的流量进行分类的准确率达到了98.1%,在精确率、召回率和F1分数上的均值分别达到了98.2%、97.3%和0.977.
在无人机的应用当中,路径规划是其中一项核心技术,是确保无人机高效完成工作的重要保障.A*算法是常用的算法之一,它主导的是全局规划,在无人机航迹规划区域应用很普遍.动态窗口法在局部避障方面应用非常普遍,高度依赖于全局参数.为了给无人机在运行过程中规划一条好的路径,将A*与动态窗口算法融合在一起,建立无人机运动模型,确保全局最优路径的前提下,再进行局部环境的避障.
1975年后有限元数值极限方法的出现和计算机的应用和发展,使得工程材料的弹塑性解析计算进入到数值极限计算的新时代.文章所研究的岩质隧道就是采用了这一新方法,即强度折减法与荷载增量法,以及最近提出的极限应变法.为解决岩体隧道围岩力学参数的不确定性,提供较为科学合理的围岩力学参数,必须做好理论、勘察和经验相结合的围岩分级工作.以轨道交通隧道围岩分级为例提升分级的水准,包括强度指标的改进,以定量分级为主的分级方法,合理确定岩体基本质量指标BQ值,增加围岩分级数量,制定区间隧道与车站隧道的围岩分级表,定性与定量分
准确可靠的径流预报在水资源的优化管理中发挥着越来越重要的作用.为了提高预测精度,提出了一种神经网络模型,来进行日径流预报.此模型将经验模态分解(EMD)方法、注意力机制、BiLSTM神经网络相结合,并且对输入数据采用了插值方法来提升精确度.EMD方法能够将非稳态非线性的径流时间序列分解成多组本征模态分量和趋势项,实现输入时间序列的稳态化,再经过注意力机制赋予时间序列不同关注度,然后通过BiLSTM分别预测再重构.将该模型应用于四川省宣汉县的清溪河站点的每日径流数据上,与另外三种神经网络模型即LSTM、AT
针对传统支持向量机(support vector machine,SVM)处理非平衡的数据分类泛化性能差的问题,提出了一种基于主动学习的非平衡SVM分类方法(the imbalanced SVM classification method based on active learning,ISVM_AL).该方法先对多数的负类样本进行划分采样,再与少数的正类样本合并训练得到初始分类器,并根据负类剩余样本集中样本与分类器间的距离,选择主动学习中的关键信息样本逐次加入到负类训练样本集中,同时删除负类训练样本集
随着信息过载问题日益严重,对新闻长文本进行自动摘要,不仅可以帮助读者实现快速精准地浏览,也能够减少撰写摘要所需要的人力物力.现有的自动文摘算法主要分为抽取式和生成式两大类,前者注重从原文抽取关键句子,后者倾向于模仿人类总结摘要的过程对原文进行理解和压缩.然而现有的算法中,面向中文长文本摘要的研究较少,并且大多数算法都聚焦于提升生成摘要的可读性而忽略了事实准确性.针对以上问题,本文提出了一种基于实体注意力的生成式摘要算法,将实体注意力与时序注意力相结合,并将实体信息引入了损失函数.经实验,所提出的模型在中文
Photoshop CS 6是目前使用比较广泛的一款图像处理软作,也是我校文科类学生的必修课之一.在设计图片、图像修改等方面发挥着重要作用.进行图像处理时,选区抠图是一个重要的知识点,直接关系到我们处理图像水平的高低.那么选择Photoshop中的哪一种工具去进行选区抠图,就显得至关重要.因此对于图像处理人员来说,掌握好选区抠图的方法与应用具有重大意义.
近年来,国家先后出台了多条支持新能源车产业发展的政策.《节能与新能源汽车产业发展规划》称,未来十年,中央财政将投巨资支持核心技术研发推广,资金数额达上千亿元.而要实现这一目标,政府的扶持将会是新能源汽车产业在现阶段得以稳步发展的最有力的驱动.在国家政策大力扶持下,新能源汽车在2021年再次成为行业最大亮点,呈现出市场规模与发展质量双提升的良好局面 ,为“十四五 ”汽车产业高质量发展打下了坚实的基础 .
中文短文本分类是自然语言处理的重要领域之一,文中提出了一种基于多维度图神经网络的短文本分类方法,通过对文档中的中文词语进行建模,分别构建序列边、词频边、主题边与结点信息相融合以达到提取深度语义信息的目的,提高图神经网络的分类能力.通过和现有方法对比,本文提出的基于多维度图神经网络的短文本分类方法具有更高的准确率,能够有效的达到中文短文本分类的目的.
针对中文主观题自动评分准确率低的问题,提出一种基于doc2vec算法的主观题自动评分方法.利用doc2vec算法计算出参考答案文本和考生答案文本的文本向量,计算出两文本向量之间的相似度,然后根据相似度计算考生得分.将主观题试题作为实验数据集,用doc2vec算法进行评分,并采用方差及偏差率作为衡量标准,对基于doc2vec算法的评分结果进行验证,并与基于TextRank算法的主观题自动评分结果及人工评分进行对比,实验表明基于doc2vec算法的评分结果的方差及偏差率都较小,稳定性较好,为后期研究主观题评分