【摘 要】
:
数据采样是快速提取大规模数据集中有用信息的重要手段,为更好地应对越来越大规模的数据高效处理要求,借助近邻传播算法的优异性能,通过引入分层增量处理和样本点动态赋权策略,实现了一种能够非常有效地平衡处理效率和采样质量的新方法.其中的分层增量处理策略考虑将原始的大规模数据集进行分批处理后再综合;而样本点动态赋权则考虑在近邻传播过程中对样本点进行合理的动态赋权,以获得采样的数据空间上更好的全局一致性.实验中,分别使用人工数据集、UCI标准数据集和图像数据集进行性能分析,结果表明:新方法与现有相关方法在采样划分质量
【机 构】
:
江南大学 人工智能与计算机学院,江苏 无锡 214122;江苏省媒体设计与软件技术重点实验室(江南大学),江苏 无锡 214122
论文部分内容阅读
数据采样是快速提取大规模数据集中有用信息的重要手段,为更好地应对越来越大规模的数据高效处理要求,借助近邻传播算法的优异性能,通过引入分层增量处理和样本点动态赋权策略,实现了一种能够非常有效地平衡处理效率和采样质量的新方法.其中的分层增量处理策略考虑将原始的大规模数据集进行分批处理后再综合;而样本点动态赋权则考虑在近邻传播过程中对样本点进行合理的动态赋权,以获得采样的数据空间上更好的全局一致性.实验中,分别使用人工数据集、UCI标准数据集和图像数据集进行性能分析,结果表明:新方法与现有相关方法在采样划分质量上可达到同等水平,而计算效率则可实现大幅提升.进一步将新方法应用于深度学习的数据增强任务中,相应的实验结果表明:在原始数据增强方法上结合进高效增量采样处理后,在保持总训练数据集规模的情况下,所获得的模型性能可实现显著的提升.
其他文献
针对粗粒度锁会严重影响并发程序的可伸缩性问题,提出一种面向细粒度锁的自动重构方法.该方法借助访问者模式分析、别名分析、负面效应分析等多种程序分析技术获取临界区代码的读写模式,然后使用下推自动机构建不同锁模式的识别方法,根据识别结果进行代码重构.与以往锁重构方法的不同之处在于,该方法考虑了锁降级模式,使重构适用性更广.基于此方法,在Eclipse JDT框架下,以插件的形式实现了自动重构工具FLock.在实验中,从重构个数、改变的代码行数、重构时间、准确性和重构后程序性能等方面对FLock进行了评估,并与已
随着SOA技术的发展,Web服务被广泛应用,服务数量增长迅速.正确高效地对Web服务进行分类,对于提高服务发现质量、促进服务组合效率非常重要.然而,现有的Web服务分类技术存在描述文本稀疏、未充分考虑属性信息以及结构关系等问题,难以有效提升Web服务分类的精度.针对此问题,提出一种基于GAT2VEC的Web服务分类方法.首先,针对Web服务之间的结构关系和自身的属性信息分别构建出多个相对应的结构关系图和属性二分图,并采用随机游走算法生成Web服务的结构上下文和属性上下文;然后,利用SkipGram模型对联
零指代是汉语中普遍存在的一个现象,在汉英机器翻译、文本摘要以及阅读理解等众多自然语言处理任务中都起着重要作用,目前已成为自然语言处理领域的一个研究热点.提出了篇章视角的汉语零指代表示体系,从服务于篇章分析的角度出发,首先以基本篇章单元为考察对象,判别其是否包含零元素;再根据零元素在基本篇章单元中承担的角色将零元素划分成主干类和修饰类两类;接着以段落对应的篇章修辞结构树为考察指代关系的基本单元,依据先行词与零元素间的位置关系将指代关系分成基本篇章单元内和基本篇章单元间两种,并针对基本篇章单元间的指代关系,根
虚拟云高性能向高效能计算演进,已是环境保护、人类可持续发展的迫切需求.然而目前,一方面,硬件级物理节能空间需要适度延展;另一方面,以遗传或人工免疫算法为代表的元启发式调度中间件大多存在进化动力不足,以致收敛性和分布性冲突难平衡等瓶颈.事实上,每个候选解(调度方案)都蕴含一定的物理反馈效应,而拟配资源的非线性和异构性,则意味着不同方案间与能效相关的实时动态反馈的巨大差异化.因此,尊重科学规律,巧妙地借力于硬件节能原理,给算法优化动力注入新能量,并进一步增强软件方法的节能主导性,是本文研究方法;继而提出一种着
受限玻尔兹曼机(restricted Boltzmann machine,简称RBM)是一种概率无向图,传统的RBM模型假设隐藏层单元是二值的,二值单元的优势在于计算过程和采样过程相对简单,然而二值化会对基于隐藏层单元的特征提取和数据重构过程带来信息损失.因此,将RBM的可见层单元和隐藏层单元实值化并保持模型训练的有效性,是目前RBM理论研究的重点问题.为了解决这个问题,将二值单元拓展为实值单元,利用实值单元建模数据并提取特征.具体而言,在可见层单元和隐藏层单元之间增加辅助单元,然后将图正则化项引入到能量
案件舆情摘要是从涉及特定案件的新闻文本簇中,抽取能够概括其主题信息的几个句子作为摘要.案件舆情摘要可以看作特定领域的多文档摘要,与一般的摘要任务相比,可以通过一些贯穿于整个文本簇的案件要素来表征其主题信息.在文本簇中,由于句子与句子之间存在关联关系,案件要素与句子亦存在着不同程度的关联关系,这些关联关系对摘要句的抽取有着重要的作用.提出了基于案件要素句子关联图卷积的案件文本摘要方法,采用图的结构来对多文本簇进行建模,句子作为主节点,词和案件要素作为辅助节点来增强句子之间的关联关系,利用多种特征计算不同节点
代理辅助进化算法(SAEA)是目前解决昂贵优化问题的一种有效途径.提出一种基于多样性的代理辅助进化算法(DSAEA)来解决昂贵多目标优化问题.DSAEA采用Kriging模型近似每个目标来代替原目标函数进行评估,加速了进化算法的优化过程.其引入参考向量把问题分解为多个子问题,根据解与参考向量之间的角度大小建立它们的相关性,然后计算出最小相关解集.在此基础上,候选解生成算子和选择算子会趋向于保留多样性的解.另外,训练集A在每次迭代后会进行更新,根据多样性删除价值不大的样本以减少建模时间.实验部分对DSAEA
随着滴滴、Uber等出租车服务的日益普及,用户的乘车需求预测逐渐成为智慧城市、智慧交通的重要组成部分.准确的预测模型既可以满足用户的出行需求,也可以降低道路车辆空载率,有效地避免资源浪费,并缓解交通压力.车辆服务商可以收集到大量GPS数据及用户需求数据,然而,如何合理运用数据进行需求预测,是关键且实用的问题.提出一种结合城市POI的可变形卷积时空网络(DCSN)模型来预测区域乘车需求,模型包括两部分——可变形卷积时空模型与POI需求关联模型:前者即通过DCN与LSTM建模未来需求与时空之间的相关性,后者则
数据隐私保护问题已成为推荐系统面临的主要挑战之一.随着《中华人民共和国网络安全法》的颁布和欧盟《通用数据保护条例》的实施,数据隐私和安全成为了世界性的趋势.联邦学习可通过不交换数据训练全局模型,不会泄露用户隐私.但是联邦学习存在每台设备数据量少、模型容易过拟合、数据稀疏导致训练好的模型很难达到较高的预测精度等问题.同时,随着5G(the 5th generation mobile communication technology)时代的到来,个人设备数据量和传输速率预计比当前提高10~100倍,因此要求模
提出一种脑电图(electroencephalograph,简称EEG)数据表示方法,将一维链式EEG向量序列转换成二维网状矩阵序列,使矩阵结构与EEG电极位置的脑区分布相对应,以此来更好地表示物理上多个相邻电极EEG信号之间的空间相关性.再应用滑动窗将二维矩阵序列分成一个个等长的时间片段,作为新的融合了EEG时空相关性的数据表示.还提出了级联卷积-循环神经网络(CASC_CNN_LSTM)与级联卷积-卷积神经网络(CASC_CNN_CNN)这两种混合深度学习模型,二者都通过CNN卷积神经网络从转换的二维