基于多通道Bi-GRU和损失再平衡的不平衡样本情感分类研究

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:dbbzy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
通常情感分类模型都假定数据集中各类别样本数之间处于平衡状态,实际上数据集中不同类别样本间并不平衡.当样本间存在样本类别不平衡问题时,会导致训练结果偏向多数类样本,少数类样本分类精度不高.另外,在训练过程中,新加入样本存在贡献衰减问题,这将导致新样本对情感分类的效果影响降低,从而影响最终分类效果.针对以上问题,该文提出一种基于混合采样与代价损失再平衡相融合的多通道双向GRU情感分类方法(Re-balance Multichannel Sampling BiGRU,RMS_BiGRU).该模型首先在数据集上对样本进行混合重采样处理,根据不同的采样形式输入到不同的神经网络通道中,并在各通道中使用损失函数再平衡策略对新老训练样本进行贡献平衡.该文提出的模型可以缓解神经网络对多数类样本的依赖问题,同时样本空间中的所有样本对训练的贡献都大致相同.实验结果表明,该方法在整体G-mean评价上优于其他情感分类方法.
其他文献
为进一步改善城市水环境、提高新型城镇化质量,结合上位规划指标要求及研究区生态环境本底现状,提出了榆中生态创新城海绵城市总体规划.文章根据研究区的特征构建海绵中心,保障区域自然海绵结构,并针对城市的不同组成系统,制定了海绵城市总体建设策略.为了更好地管理榆中生态创新城雨洪综合系统,海绵城市建设与管理及控制性详细规划的落实为总体目标提供技术支撑.
文章采用ABAQUS有限元软件建立了5根再生混凝土柱数值模型,进行轴压作用下不同设计变量对再生混凝土柱受力性能的研究.轴压作用下再生混凝土柱的破坏形式与普通混凝土柱类似;随着再生骨料取代率和长细比的提高,柱的轴心受压承载力降低;随着再生骨料取代率的增加,柱的侧向挠度减小.文章建立的ABAQUS有限元模型可以进行类似轴压作用下再生混凝土构件的受力行为模拟.
针对传统方法获取地下空间数据效率低的问题,文章直接利用地面激光扫描仪快速获取地下人防工程的激光点云数据,在GPS信号极弱的情况下利用集成的GNSS/IMU获取的惯导信息拼接各扫描站点云数据,借助少量控制点可得到满足测图精度要求的点云数据,使室内外测图一体化大面积生产成为可能.
在工业遗产的保护更新流程中引入数字技术,这是在新的时代背景下为传统保护与再利用策略注入新活力的有效途径.文章以中东铁路支线附属建筑群窑门站区旧址为例,结合中东铁路工业遗产的自身特征,探索数字技术在中东铁路工业遗产保护更新流程中具备的优势,提出以BIM+AR为引导的中东铁路工业遗产空间信息数据库和成果展示路径.
异形网架球结构普遍施工难度大,精度低.项目在施工过程中通过BIM软件建立高精度BIM模型,获得网架球理论球心坐标.网架拼(吊)装过程中,利用4组反光贴实测球面坐标,输入自主开发运算程序迅速得出球心实测坐标,将实测坐标与理论坐标比较,调整网架拼(吊)装位置,从而提高施工的紧凑及流畅性,达到缩短工期,节约成本的目的.
作为智慧环卫的基础支撑,环卫精细化监管平台需要不断更新优化.本文通过对北京市各区现有环卫平台的调研,发现环卫精细化管理主要存在数据分散、数据标准不一;档案记录、历史台账不全;事件处置模式传统等问题.针对存在的问题,提出“一个环卫监管平台、一套环卫数据资源体系、全方位的环卫监管运营服务、便捷的掌端应用”四位一体的优化方案.
目前交通噪音已然成为严重影响农村声环境舒适性的噪声源之一,为了解乡镇沿街建筑室外声环境现状,文章应用PKPM室外声环境sound软件对湖南省新邵县严塘镇207国道路段进行了室外声环境模拟,分析影响乡镇沿街建筑的主要因素,并提出合宜的优化策略.
基于深度学习的跨语言情感分析模型需要借助预训练的双语词嵌入(Bilingual Word Embedding,BWE)词典获得源语言和目标语言的文本向量表示.为了解决BWE词典较难获得的问题,该文提出一种基于词向量情感特征表示的跨语言文本情感分析方法,引入源语言的情感监督信息以获得源语言情感感知的词向量表示,使得词向量的表示兼顾语义信息和情感特征信息,用于跨语言文本的情感预测.实验以英语为源语言,分别以汉语、法语、德语、日语、韩语和泰语6种语言为目标语言进行跨语言情感分析.实验结果表明,该文所提模型与机器
针对目前藏文文本自动查错方法的不足,该文提出了一种基于规则和统计相结合的自动查错方法.首先以藏文拼写文法为基础,结合形式语言与自动机理论,构造37种确定型有限自动机识别现代藏文字;然后利用查找字典的方法识别梵音藏文字;最后利用互信息和t-测试差等统计方法查找藏语词语搭配错误和语法错误等真字词错误,实现藏文文本的自动查错.实验测试集由100篇新闻类语料构成,共包含49处错误.实验表明,该文方法能有效发现非字错误和真字词错误,该方法的查错召回率达到83.7%,查错准确率达到70.7%,F值达到76.7%.
政策文本的量化研究近年来受到了政策研究学者的广泛关注,其研究结论以客观数据为依据,在很大程度上可以克服以往对政策定性分析的主观性和随机性.已有定量政策文本分析方法主要存在两方面的不足:一方面,对于政策文本的采集主要依靠手工收集,其数据规模较小;另一方面,在政策识别方面主要依靠人类经验,在小规模数据集上进行偏置归纳.针对以上问题,该文提出基于预训练语言模型的政策识别方法,从而克服以上问题,在较大规模的政策文本数据集上取得了较好的效果.