基于负相关性增强的不平衡多标签学习算法

来源 :计算机工程与科学 | 被引量 : 0次 | 上传用户:kongshuai19900505
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于标签空间过大,标签分布不平衡问题在多标签数据集中广泛存在,解决该问题在一定程度上可以提高多标签学习的分类性能。通过标签相关性提升分类性能是解决该问题的一种最常见的有效策略,众多学者进行了大量研究,然而这些研究更多地是采用基于正相关性策略提升性能。在实际问题中,除了正相关性外,标签的负相关性也可能存在,如果在考虑正相关性的同时,兼顾负相关性,无疑能够进一步改善分类器的性能。基于此,提出了一种基于负相关性增强的不平衡多标签学习算法——MLNCE,旨在解决多标签不平衡问题的同时,兼顾标签间的正负相关性,从而
其他文献
对大规模数据流统计的问题进行了研究,针对大流统计的典型结构Elastic Sketch替换策略中存在的问题进行优化,优化策略解决了冷流被误判为热流插入重部的问题。针对重部中保存的不一定是最大流的问题进行优化,提出了基于最大值和组相连的替换策略,保证了存储在重部的一定是最大的流,提高了大流统计的精度,同时大大降低了热碰撞发生的概率。相比于传统的测量统计方法,在提高了测量精度的同时,减少了内存占用。
远程监督是一种根据知识库自动对齐实体进行大规模语料标注的方法,但过强的假设导致获取的语料混有大量的噪声。针对这一问题,提出了一种基于同义词词林和规则的中文远程监督人物关系抽取方法,该方法基于多示例学习思想将人物关系句子划分为包(bag)级,利用同义词词林对人物关系触发词做词频统计,确定最大词频候选关系和次大词频候选关系,再结合特定的人物关系判别规则判断人物关系。对bag判断出某个人物关系后,再对其进一步进行多关系预测,最终得到人物关系预测结果。在大规模的中文远程监督人物关系抽取公开数据集(IPRE)上的实
滚动轴承是旋转机械内常出现问题的重要部件,其故障情况复杂且难以诊断。基于小样本故障数据学习环境,针对小样本学习在提取真实特征值与目标特征值时有较大差异且泛化能力较弱的问题,提出一种采用半监督变分自编码器与LightGBM分类模型相结合的小样本学习模型LSVAE,并利用基于高斯过程的贝叶斯优化改进算法对LightGBM的超参数进行了优化处理,有效地解决了小样本学习性能不稳定,提取特征能力弱,过拟合等问题,并在凯斯西储大学发布的轴承实验数据集上进行了对比实验,结果表明LSVAE模型在面向小样本数据空间时有着更
可擦除项集挖掘是从大规模产品数据库中挖掘出低利润项集,以解决厂商财务危机的方法。传统挖掘方法只处理静态产品数据库,在提取可擦除项集时忽略项本身的权值。为解决现有可擦除项集挖掘算法考虑条件单一、效率低下的问题,提出一种有效的在增量数据集上挖掘加权可擦除项集的算法WELI。该算法综合考虑了数据不断积累和项具有不同重要性的因素,采用简洁的列表结构减少内存消耗,利用权重条件进行项集修剪,并结合包含索引和差集思想简化增益的计算过程,以实现高效的增量挖掘操作。实验表明:就运行时间和内存消耗而言,该算法在稠密数据集和稀
量子优化是量子计算领域近年来颇受关注的一个研究分支,主要研究如何利用量子计算加速优化问题的求解.根据优化问题的变量是否连续分类梳理量子优化算法,侧重介绍连续变量优化算法.通过对现存工作的调研梳理得到一些观察:1)5~20年前的研究主要集中在离散变量的量子优化技术,近5年的研究则更关注连续变量的量子优化技术;2)量子优化使用的主要基础技术都是10~20年前提出的,在基础技术方面需要进一步革新;3)量子优化算法相比于对应的经典算法通常在理论上有加速优势,既有体现在时间复杂度的加速,也有体现在查询复杂度的加速,
网络操作中收集了大量的系统日志数据,找出精确的系统故障成为重要的研究方向。提出一种条件因果挖掘算法(CCMA),通过从日志消息中生成一组时间序列数据,分别用傅里叶分析和线性回归分析删除大量无关的周期性时间序列后,利用因果推理算法输出有向无环图,通过检测无环图的边缘分布,消除冗余关系得出最终结果。仿真结果表明,对比依赖挖掘算法(DMA)和网络信息关联与探索算法(NICE),CCMA算法在处理时间和边缘相关率2个主要性能指标方面均有改善,表明CCMA算法在日志事件挖掘中能有效优化处理速度和挖掘精度。
随着社交网络的发展,越来越多的研究利用社交信息来改进传统推荐算法的性能,然而现有的推荐算法大多忽略了用户兴趣的多样化,未考虑用户在不同社交维度中关心的层面不同,导致推荐质量较差。为了解决这个问题,提出了一种同时考虑全局潜在因子和不同子集特定潜在因子的推荐方法LSFS,使得推荐过程既考虑了用户共享偏好又考虑了用户在不同子集中的特定偏好。考虑到参与到不同社交维度的用户对不同的项目感兴趣,首先根据用户的社交关系将用户划分到不同的子集中;其次通过截断奇异值分解技术建模用户对项目的评分,其中全局潜在因子捕获用户共享
脉冲神经网络(Spiking Neural Network,SNN)包含具有时序动力学特性的神经元节点、稳态-可塑性平衡的突触结构、功能特异性的网络环路等,高度借鉴了生物启发的局部非监督(如脉冲时序依赖可塑性、短时突触可塑性、局部稳态调节等)、全局弱监督(如多巴胺奖赏学习、基于能量的函数优化等)的生物优化方法,因此具有强大的时空信息表征、异步事件信息处理、网络自组织学习等能力.SNN的研究属于交叉学科,将深入融合脑科学和计算机科学,因此对其研究也可以主要分为两大类:一类是以更好地理解生物系统为最终目的;另
随着信息产业的高速发展,人们对算力的需求远远超过以往任何一个时代.为了实现更强大的数据处理能力,各种具有潜在颠覆性影响的计算理论和计算模型获得了越来越多的关注.量子计算作为其中最炙手可热的研究方向之一,在过去的几十年间,相关的理论和实验研究成果都取得了长足的进展.量子计算是一门由数学、计算机科学和量子物理学相结合的交叉学科,通过利用量子状态的相干性、纠缠特性、不可克隆性等量子力学基本原理。
针对文字图像中不规则干扰与文字粘连导致误识字的问题,提出了基于部分卷积的文字图像不规则干扰修复算法。研究分析了若干常见字体的文本图像特点,建立文字图像数据库,使其与干扰掩码数据库进行图像融合后对模型的修复效果进行评测,并对不同等级的修复情况进行分类测试。实验表明,所提模型在保证原有文字信息不损失的前提下,根据当前文字的现有部件对缺失部分进行预测,峰值信噪比最高达到32.46 dB,结构相似性最高为