一种针对低频词进行改进的中文短文本分类方法

来源 :计算机应用研究 | 被引量 : 0次 | 上传用户:huihuiwang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文短文本分类中存在大量低频词,利用好低频词中的信息能有效提高文本分类效果,针对基于词向量的文本分类研究中,低频词不能被有效利用的问题,提出了一种针对低频词进行数据增强的方法。首先,利用受限文本生成模型产生的数据来微调低频词的词向量,再利用一种词向量的构造算法将高频词的更新信息迁移到低频词中,使低频词获取更准确且符合训练集分布的词向量表示;其次,引入相似词和实体概念等先验知识来补充上下文信息;最后,利用改进的卡方统计去除明显的噪声词,以及设计词注意力层对每个词进行加权,减少无关噪声对分类的影响。在多
其他文献
目前已有的蚁群算法优化的特征选择方法,大多采用的是以属性依赖度和信息熵属性重要度作为路径上启发搜索因子,但这类搜索方法在某些决策表中存在算法早熟或搜索到的特征子集包含了冗余特征,从而导致选择精度显著下降。针对此类问题,根据条件属性在分辨矩阵中的占比提出了一种属性重要度的度量方法,以分辨矩阵重要度作为路径上启发因子,设计了一种基于分辨矩阵与蚁群算法优化的特征子集搜索方法,该算法从特征核出发,蚁群依次
期刊
针对LASSO方法构建脑功能超网络模型缺乏组效应解释能力和网络有偏性问题,提出两种基于组变量选择的近似无偏稀疏脑功能超网络模型来改善超网络的构建,分别为组最小最大凹惩罚方法和组平滑剪裁的绝对值偏差方法,并将其分别应用于抑郁症的分类研究中。分类结果显示,所提两种方法的分类表现均优于传统超网络模型,且组最小最大凹惩罚方法的分类准确率最高,达到86.36%。这结果表明若想构建有效的脑功能超网络模型,则不
期刊
近年来,图神经网络由于其丰富的表征和推理能力收到广泛的关注。然而,目前的研究聚焦于卷积策略和网络结构的调整以获得更高的性能,模型不可避免地面临单一模型局限性的约束。受到集成学习思想的启发,面向图神经网络创新性地提出一套集成学习框架(EL-GNN)。不同于常规的文本和图像数据,图数据除了特征信息外还包括了丰富的拓扑结构信息。因此,EL-GNN不仅仅将不同基分类器的预测结果进行融合,还在集成阶段额外补
期刊
在许多机器学习应用中,需要分析的数据可能由对称正定矩阵构成,而经典的欧氏机器学习算法处理这种数据的性能较差。针对此问题,提出一种新的基于对数欧氏度量学习的概率黎曼空间量化方法。该方法将对称正定矩阵看做对数欧氏度量下的黎曼流形上的点,采用对数欧氏度量学习距离函数将概率学习矢量量化方法从欧氏空间推广到对称正定黎曼空间。在BCI IV 2a脑电数据集上,该方法相较于概率学习矢量量化方法识别正确率提升20
期刊
针对算术优化算法(AOA)在搜索过程中容易陷入局部极值点、收敛速度慢以及求解精度低等缺陷,提出一种多策略集成的算术优化算法(MFAOA)。首先,采用Sobol序列初始化AOA种群,增加初始个体的多样性,为算法全局寻优奠定基础;然后,重构数学优化器加速函数(MOA),权衡全局搜索与局部开发过程的比重;最后,利用混沌精英突变策略,改善算法过于依赖当前最优解的问题,增强算法跳出局部极值的能力。选用12个
期刊
为改进传统K-means聚类算法中存在因随机选择初始质心而导致聚类结果不稳定且准确度低的缺点,出了基于改进量子旋转门人工鱼群算法的K-means聚类(IQAFSA)算法,该算法通过动态更新量子旋转门的旋转角,提高下一代更新方向准确度及更新速度。变异策略从传统的非门改为H门,既增加种群的多样性,又使全局搜索能力增强。最终使用所改进算法选取K-means的初始质心再进行聚类。通过UCI数据的测试以及在
期刊
针对现有基于深度神经网络的工业过程故障诊断方法存在网络结构设计繁琐及参数寻优耗时等问题,提出了一种基于网络结构搜索的工业过程自动故障诊断方法(Automatic Fault Diagnosis,AutoFD)。该方法采用AutoFD网络结构搜索算法,来自动完成卷积神经网络的网络结构设计和网络参数寻优,在此基础上,首先通过在原始数据上施加操作生成新通道,接着利用表现预测加速获取通道适应性排序的过程,
期刊
针对郊狼优化算法全局搜索能力不足,易陷入局部最优的缺陷进行了研究,在郊狼优化算法寻优进程中引入变形的精英保留策略,并在郊狼成长过程中加入环境影响因子,再将成长后的郊狼带入kent映射遍历搜索空间,强化算法的开采能力和搜索性能,提出了一种改进郊狼优化算法,数值实验表明,该算法具有较优的性能。以全社会经济成本和碳排放量为决策目标,构建了一个电动汽车充电站选址定容双层规划模型,并将改进后的郊狼优化算法求
期刊
在室内定位中,行人航迹推算(PDR)方法是最便捷的定位方法之一,其缺点是随着移动距离的增加,累积误差会越来越大。利用蓝牙峰值纠正算法能有效降低PDR的累积误差,但蓝牙信号在多蓝牙基站中存在伪峰、错峰的问题。针对上述问题,提出基于PDR的蓝牙峰值检测方法。首先,根据PDR位置估计信息和蓝牙分布信息计算预测概率,筛选前进方向最接近的蓝牙,减少错峰。其次根据信号的变化计算自适应阈值输出开关信号寻找波峰以
期刊
准确度量复杂网络中节点的重要度对于研究网络结构和功能等方面具有重要的指导意义。现有的多数节点重要度评估算法考虑了节点及其邻居节点的相关信息,却忽略了节点间的拓扑结构对节点重要度的影响。针对此问题,提出基于引力模型及相对路径数的节点重要度评估算法。该算法首先分析了相对最短路径数对节点间信息传播的影响效果,同时考虑到非最短路径及路径距离等因素的影响,然后以三阶范围内邻居节点与中心节点的相互作用力之和定
期刊