针对低频词进行改进的中文短文本分类方法

来源 :计算机应用研究 | 被引量 : 0次 | 上传用户:kingper
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文短文本分类中存在大量低频词,利用好低频词中的信息能有效提高文本分类效果,针对基于词向量的文本分类研究中低频词不能被有效利用的问题,提出一种针对低频词进行数据增强的方法.首先,利用受限文本生成模型产生的数据来微调低频词的词向量,再利用一种词向量的构造算法将高频词的更新信息迁移到低频词中,使低频词获取更准确且符合训练集分布的词向量表示;其次,引入相似词和实体概念等先验知识来补充上下文信息;最后,利用改进的卡方统计去除明显的噪声词,以及设计词注意力层对每个词进行加权,减少无关噪声对分类的影响.在多个基础分类模型上进行实验,结果表明各基础模型经改进后都有明显提升,体现了提出方法的有效性,同时也说明了短文本分类任务中低频词能改善分类的效果.
其他文献
针对多无人机多类型作战任务分配问题,提出一种混沌自适应萤火虫优化算法.将全局历史最优值和自适应惯性权重引入位置公式,并采用自适应步长以加快收敛速度、提高精度.运用变尺度混沌方法改进光吸收强度系数防止其陷入局部最优解.将改进算法的应用效果与粒子群优化算法(PSO)和萤火虫算法(FA)对比,结果表明,该算法能够提升多无人机系统的协同作战响应速度和效率,其精确度相对提高了16.07%、11.12%,收敛速度提高了31.99%、24.79%.
提出一个新颖的车道变更模型,采用合作博弈方法激励车辆参与合作.首次将合作博弈理论应用到车道变更领域,设计用于两车变道的纳什讨价还价变道模型,然后扩展为三车的合作博弈变道模型,并求出变道模型的纳什讨价还价解和夏普利值.为了进一步激励车辆参与合作,在收益分配方案中加入支付补偿部分来实现整体收益的可转移性,从而取得模型的解.实验结果表明,采用合作博弈后车辆的整体收益得到了大幅增加,同时每个参与车辆的个人收益也增加了.
为了解决在实际网络环境中用户实体行为访问异常的快速检测问题,主要是主机间访问异常分组问题,提出一种针对IPv4主机之间访问数据相似性的改进Jaccard算法.基于对相关海量历史数据以IPv4子网的划分方式逐层学习,可在数据处理的早期就识别异常数据并快速获得异常分组模型,从而降低整体处理复杂度,实现对大规模网络数据的高速异常行为检测和分析方法.实验表明,与一般方法相较,此改良Jaccard算法具有良好的异常检测性能和实际运用价值.
针对具有多种覆盖需求的柔性制造车间RFID网络规划问题,以部署成本、阅读器干扰与阅读器效能为多优化目标,提出一种分层聚类、冗余消减与梯度下降方法集成的RFID网络规划方法,采用分层聚类算法确定RFID初始数量与部署位置,采用冗余阅读器消减算法优化RFID数量,采用梯度下降算法优化RFID部署位置从而实现网络规划多目标优化.实验研究表明,提出的方法在多目标综合性能方面优于传统基于分层聚类方法、遗传算法、粒子群与冗余消减混合方法的RFID网络规划方法,验证了该方法的有效性.
针对头脑风暴优化算法在求解机器人路径规划问题时存在初始解成功率低、运算代价大且路径不平滑等问题进行了研究,从心理学角度出发,提出了一种新型头脑风暴优化算法及其离散化方案.引入羊群效应下的教与学思想增强个体学习的方向性,并通过基于自我选择效应的步长调节机制扩大后期局部搜索比例,提升算法效率;离散处理阶段采用贪婪移动搜索法取得较优初始解,重新定义运算过程以双向平滑路径.仿真结果表明,新型头脑风暴优化算法在离散化前后均有较优的表现,在不同障碍物环境中均能规划出较优的路径.数值实验验证了所提算法的有效性,该算法在
随着互联网技术的发展,个性化的推荐系统得到了广泛应用.但用户数据稀疏与冷启动仍是推荐系统普遍面临的难题.将深度学习与注意力机制相结合,提出基于用户-项目交叉注意力机制的迁移推荐模型.该模型能够充分学习源域数据中用户、物品及评分间的潜在关系,然后初始化目标域神经网络,迁移应用到目标域.为验证算法模型的有效性,在公开数据集上进行实验,结果表明该模型可以更好地预测实际评分.
污染源定位是大气污染治理与预防中的重要环节.为了避免地表状况、温度和风向等环境条件对污染源定位的影响,提出一种基于社区网络分析的污染源定位算法.通过Granger因果检验方法分析各监测点的空气质量指数AQI的时间序列,得出任意两个监测点的AQI值之间的影响关系.以监测点作为节点,以影响关系作为监测点间的关联关系,构建污染网络.通过改进的标签传播算法(ILPA)将污染网络划分成多个污染区域,分析各子网络中节点的度中心度、出度和入度,得出污染源的位置.以273个监测点处的空气质量AQI作为数据进行实验,实验结
为解决推荐系统的个性化应用问题,提出一种融合准确性和多样性的多目标优化推荐模型DenseNCF.利用自组织映射网络(Self-Organizing Map,SOM)模型对推荐项目样本进行聚类分析,并建模用户的多样性倾向度.采用DenseNet深层卷积网络学习用户和项目的外积交互特征,得到精准的推荐结果.根据用户的多样性倾向度,设计综合准确性和多样性的损失函数,实现模型的端到端训练.在公开数据集上进行实验验证,结果表明所提模型的性能比简单的CNN网络结构的模型更优,既能够保证推荐结果的准确性,同时能有效提高
针对社会网络中新关系出现的预测,提出一种基于自动学习机的社会网络链路预测算法.将自动学习机与三元组转化相结合,将不同类型三元组的转化作为预测的重要依据并构造学习函数,提出六种三元组内节点相似性指标.实验结果表明,该算法所提出的六个预测指标的预测准确度和稳定性要好于六种常用的链路预测指标,对于社会网络分析具有实际应用价值.
体三维显示是三维显示领域重要研究方向,当处理带凹陷体的点云数据时,凹陷体区域无法正确判定导致对应区域的颜色无法正常显示,会对显示精度造成严重影响.为了解决点云中凹陷体判定问题,为点云数据中的凹陷体作规范化定义,并根据凹陷体的空间特点提出点云数据凹陷体判定(PCDD)算法.算法将点云体素化,之后根据凹陷体区域体素的属性特征判断可能属于凹陷体的体素征并通过空间连通性原理进行凹陷体体素分割,得到各个独立不相连的凹陷体并求出边界.实验结果表明,该算法可以稳定地判定出点云数据中的凹陷体,解决了凹陷体的判定问题,也为