【摘 要】
:
针对SMOTE(synthetic minority over-sampling technique)等基于近邻值的传统过采样算法在处理类不平衡数据时近邻参数不能根据少数类样本的分布及时调整的问题,提出邻域自适应SMOTE算法AdaN_SMOTE。为使合成数据保留少数类的原始分布,跟踪精度下降点确定每个少数类数据的近邻值,并根据噪声、小析取项或复杂的形状及时调整近邻值的大小;合成数据保留了少数类的
【机 构】
:
北京石油化工学院信息工程学院,北京石油化工学院人工智能研究院
【基金项目】
:
北京市属高校青年拔尖人才培育计划资助项目(CIT&TCD201704048),北京市教委—市自然基金资助项目(KZ202110017025)。
论文部分内容阅读
针对SMOTE(synthetic minority over-sampling technique)等基于近邻值的传统过采样算法在处理类不平衡数据时近邻参数不能根据少数类样本的分布及时调整的问题,提出邻域自适应SMOTE算法AdaN_SMOTE。为使合成数据保留少数类的原始分布,跟踪精度下降点确定每个少数类数据的近邻值,并根据噪声、小析取项或复杂的形状及时调整近邻值的大小;合成数据保留了少数类的原始分布,算法分类性能更佳。在KEEL数据集上进行实验对比验证,结果表明AdaN_SMOTE分类性能优于
其他文献
目前多种眼部信息被用于情感识别,针对一般眼部信息如注视时间、瞳孔直径、扫视时间等数据需要使用专业的眼动仪采集这一问题,提出了一种基于瞳孔位置的情感识别方案。该方案采用基于梯度的瞳孔定位算法,直接从面部视频中获取瞳孔位置坐标数据。对于预处理后的数据,又提出了综合波形复杂度作为特征值,通过对瞳孔位置坐标波形进行分段,求取所有分段之间的相关性系数绝对值之和,从而得到波形的综合复杂度。实验结果表明,瞳孔位
针对樽海鞘群算法在对函数优化问题求解上出现的求解精度不高、收敛速度慢的缺点,提出了一种改进的群海鞘群算法。对于领导者引入加权重心取代最优个体位置,防止过早聚集在最优个体附近;对于追随者引入自适应惯性权重平衡算法的全局搜索和局部寻优能力;最后对于个体进行逐维随机差分变异,减少维间干扰,提高了种群的多样性。仿真实验结果表明改进的樽海鞘群算法在均值、标准差和收敛曲线优于标准樽海鞘群算法和其他改进算法,说
通过对文本内容中敏感词过滤方法及相关技术的研究,提出了一种基于改进的Trie树和DFA的敏感词过滤算法,解决了敏感词过滤技术中的人工干扰、分词障碍等关键问题,提高了文本中敏感词过滤的准确性和有效性。提出的算法包括三个步骤:基于排列组合的数学原理对中文词向中拼混合词进行扩充;采用改进的Trie树结构来存储DFA的所有状态,构建敏感词树;根据构建的敏感词树结构以及采用最小匹配规则对文本内容中的敏感词进
研究决策者权重部分未知的概率犹豫模糊分阶段动态群决策问题。针对外部环境的变化,结合符号距离测度,提出考虑外部环境变化的分阶段群决策方法。首先,基于元素的方差及个数差异定义概率犹豫模糊元的犹豫度公式,并在此基础上定义概率犹豫模糊元的符号距离公式。然后,根据外部环境的变化会导致每个时序阶段获得的信息存在差异的特点,构建动态决策模型以确定各个时序阶段的决策者权重,进而分阶段集结信息,形成决策过程方案链。
离群点是与其他正常点属性不同的一类对象,其检测技术在各行业上均有维护数据纯度、保障业内安全等重要应用,现有算法大多是基于距离、密度等传统方法判断检测离群点。本算法给每个对象分配一个"孤立度",即该点相对其邻点的孤立程度,通过排序进行判定,比传统算法效率更高。在AP(affinity propagation)聚类算法的基础上进行改进与优化,提出能检测异常数据点的算法APO(outlier detec
双向长短时记忆(BiLSTM)及其变体能够处理可变长度序列,由于文本的复杂语义信息和文本数据嵌入维度的高维性,BiLSTM表现出低层次网络学习能力较弱,通过叠加网络层学习高层次的特征表示,容易出现网络退化问题。为解决这些问题,提出一种闭环BiLSTM模块用于丰富每一层网络结构隐状态的语义信息表示,同时采用残差连接和增强稀疏表示策略来优化模块,稀疏化隐状态特征向量减缓网络退化问题;最后利用加权融合的
由于一个评论往往会涉及多种方面类别及情感倾向,而传统注意力机制难以区分方面词和情感词的对应关系,从而影响评论同时存在多种方面类别时的情感极性分析。为了解决上述问题,提出了一种基于上下文感知的方面类别情感分类模型(MA-DSA)。该模型通过重构方面向量捕获句子中更多样且有效的语义特征,并将其融入上下文向量,然后将上下文向量通过DiSA模块进一步捕捉句子内部情感特征,确定方面词与情感词的关系,进而对指
针对蝴蝶优化算法存在的求解精度低、易陷入局部最优等缺陷,提出混合策略改进的蝴蝶优化算法。首先,利用Circle映射初始化蝴蝶个体的位置,增加初始个体的多样性;其次,在局部搜索阶段利用动态切换概率控制改进正弦余弦算法与蝴蝶优化算法的转换,充分利用少量的蝴蝶个体,增强算法的局部开发能力;然后,在全局和局部位置更新处引入自适应余切权重系数,控制蝴蝶个体下一代的移动方向和距离,提高算法的收敛速度和精度;最
针对目前云制造系统中存在的各参与主体间信任问题以及资源调度效率问题,研究了将区块链技术应用于云制造系统中。首先,阐述了区块链技术应用于云制造系统的意义,提出了一种基于区块链技术的云制造系统;其次,设计了基于智能合约的制造资源调度方式,构建制造成本最小、时间最短、合格率最高的资源调度模型并用差分进化算法进行求解;最后,进行实验仿真。结果表明,基于区块链技术的智能合约内进行资源调度方法在保证了系统内各
传统数据中心的负载均衡只追求资源利用的最大化,而忽略了不同类型任务对完成时间的需求是不同的,使得系统总体服务质量无法达到最佳。针对不同任务的需求差异,引入时间效用函数以表征不同类型任务的完成时间与服务质量的关系,并形式化定义了面向效用最大化的动态资源分配问题。由于该问题是NP难的,设计了一个利用任务优先关系的调度机制,其主要思想为将原问题分解为若干同构的小规模子问题,并利用任务间的优先关系,决策为