代价敏感学习相关论文
[目的] 增强虚假评论识别任务中模型对文本深层语义信息的学习,并解决虚假评论识别任务中存在的严重的数据不平衡问题。[方法] 基于......
针对辐射源个体识别(SEI)中样本标签不完整和数据类别分布不平衡导致分类准确率下降的问题,该文提出了一种基于代价敏感学习和半监督......
正类和无标签类学习(Positive and Unlabeled learning,PU学习)作为弱监督学习领域中不完全监督的一个重要分支,由于其在实际应用中......
传统的机器学习分类算法通常是在各类数据集样本数量基本平衡的基础上建立起来的。但实际应用场景中的数据集常存在不平衡问题,如......
【目的】提出一种面向不平衡数据的电子病历自动分类方法,以进一步提高临床电子病历分类性能。【方法】利用MC-BERT增强电子病历的......
道路提取作为遥感影像对象提取环节中的重要角色,可以为道路提供语义信息和位置信息,属于一种特殊的语义分割任务,目标是将图像像......
随着大数据时代的到来,人们逐渐面临各式各样的网络安全问题,而恶意URL(Uniform Resource Locator)作为Web攻击的媒介,渐渐威胁着用......
燃气是城市生活中重要的能源,而燃气管线作为输送和分配燃气的载体,更是起着不可或缺的作用。由于燃气具有易燃、易爆、有毒的特点......
随着互联网时代的到来,数据规模的快速增长给存储带来了巨大挑战。磁盘凭借其容量大、价格低等优势,被广泛用于数据中心存储。然而,磁......
随着数据采集技术的高速发展,采集到的数据维数激增,需进行维数约简后才能应用于各种后续操作。传统的维数约简方法未考虑到数据集的......
信用风险评估是商业银行信贷风险管理中一项基础性且关键性的工作,其目的在于分析商业银行在贷款业务中可能面临的信用风险,从而为贷......
从广义上讲,机器学习(Machine Learning)是以使其包括任何计算机程序通过经验来提高其任务处理性能的行为。如果机器能够真正完全......
网络技术的不断发展、网络知识的不断普及,使得我们的生活发生了根本性的变革,社会生活的各个方面都受到了极大的影响,网络系统已成为......
随着网络技术的迅速发展和互联网规模的不断扩大,互联网已经成为了全球最大、最广泛使用的信息库,如何有效检索这些海量信息成为当前......
在数据挖掘中要面对三大挑战性问题:挖掘方法、挖掘对象和挖掘约束,分类问题是三大挑战中的挖掘方法问题。早期的分类的效果一般以......
粗糙集是一种刻画不完整和不确定性问题的数学工具,其不需要任何先验知识对数据进行分析和处理。面对如今高速的信息时代中海量数......
超网络是在细胞中生物分子网络的启发下形成的一种用于学习和记忆的概率图论模型。超网络是一种由大量超边组成的特殊超图。与一般......
数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性信息的过程。数据挖掘又译为资料探勘、数据采矿,是数据库知识......
蛋白质分类预测通常包括如下四个步骤:(1)构建合理的蛋白质数据集;(2)特征描述方法把蛋白质信息转化为特征向量;(3)若数据集维度较......
软件缺陷预测是一个活跃的研究领域,它寻求有效的方法来预测给定软件项目中的缺陷倾向。软件缺陷预测技术通过挖掘源代码文件和一......
大数据时代下,传统的异常流量检测采用静态规则匹配的方法,已然不能满足多变复杂的网络环境。而机器学习由于其自学习、自演化的特......
工业产品质量控制是工业产品获得稳定质量要求的重要手段。传统的工业产品质量控制是独立分析各种潜在信息或价值数据对质量指标的......
随着信息时代的发展,数据形式呈现多样化。其中,具有高维和不平衡双重特性的数据广泛存在于我们的实际应用中。传统的分类模型在分......
软件缺陷预测作为软件工程领域的研究热点,其主要的目标是发现软件中存在的缺陷从而提高软件质量。以往的研究大多数致力于项目内......
在许多场景和应用领域中,不均衡数据学习是一个常见并且长期存在的问题。例如在实际生活中电信管理,信用卡欺诈检测,诊断数据中的......
在现代工业生产中机械设备的智能化程度不断提高,这些设备在大幅提高生产效率的同时也带来了维护上的困难。现实中即使是一个不明......
在Web2.0技术广泛普及的时代,互联网信息技术不断发展与成熟,各大社交与电子商务平台快速兴起,网民不但能从互联网上摄取信息,而且......
不平衡数据分类问题在数据挖掘领域占有重要的地位,如何有效处理不平衡数据已然成为当前的一个研究热点。采用传统的分类模型时,数......
近年来,深度学习模型在许多领域都取得了卓越成果,这其中的关键是大规模的有标注数据集。但实际上大规模数据集很难拥有完善的数据......
近年来,人工智能和知识发现的发展迅速,计算机技术在各领域的应用日益增多。数据量剧增,并呈现高维度、多类别、结构复杂等特点,对......
逻辑回归是多标签分类以及排名任务中最常用的损失形式,但逻辑回归下的Sigmoid交叉熵损失函数受类别不平衡的影响极其严重。这种不......
在线学习是一类用于时序数据挖掘的机器学习范式,现已广泛应用于各种时序分类任务中。在实际应用中,时序分类任务通常面临两个严峻......
在现实机器学习任务中,不同类别的误分类代价往往不同,为此以最小化总体代价为目标的代价敏感学习成为一个重要研究分支。考虑到在......
输油管道的安全运行是保障我国国民经济健康平稳发展的重要因素。近年来,国内屡屡发生的输油管道泄漏事故,给我国人民带来了巨大的......
识别场所的个性化语义是普适计算的重要研究方向。现有方法的问题有:1)大多仅考虑场所访问在时间和空间上的信息,未充分利用与场所......
当前大多数人脸识别方法将识别精度作为唯一的衡量指标,即试图找到一个精确的分类器以实现最低的误分类误差。但是此假设仅在所有......
铜闪速熔炼过程中,冰铜温度、冰铜品位及渣中铁硅比是衡量铜闪速熔炼过程质量优劣的三大工艺指标,但由于该三大工艺指标人工检测的......
财务预警模型的创建都是建立在这样一个理想假设之上:训练样本分类完全正确,即财务危机样本企业一定存在财务危机,财务正常样本企业不......
物料分选是将物料按照固定的标准或一定的要求分类成不同类别等级的产品或者不同的产品,以增加其使用价值来满足消费、生产需要或便......
随着大容量、高参数的风力发电机组投入商业运行,对机组设备故障诊断的实时性、准确性及有效性的要求也越来越高,而故障诊断是保证......
在处理高度不平衡数据时,代价敏感随机森林算法存在自助法采样导致小类样本学习不充分、大类样本占比较大、容易削弱代价敏感机制......
随着互联网技术的快速发展,在实际应用中出现了大量复杂的数据,这些数据往往带有多个标签类别。因此,从这些复杂的数据中获取有用......