【摘 要】
:
伴随着信息技术的迅猛发展,互联网每天都会产生海量的数据。数据分类是信息管理的一种重要手段而文本分类是数据分类中重要的一种。然而,在现实中,由于数据收集方法等原因,需要进行分类的文本数据往往是类别不平衡的,即不同类别的样本数目差异较大。在训练时,若样本数目少的类(少数类)的特征不明显,在预测时少数类样本倾向被预测成样本数目多的类(多数类),极大地影响分类效果。一般的文本分类算法较少考虑到文本数据的类
论文部分内容阅读
伴随着信息技术的迅猛发展,互联网每天都会产生海量的数据。数据分类是信息管理的一种重要手段而文本分类是数据分类中重要的一种。然而,在现实中,由于数据收集方法等原因,需要进行分类的文本数据往往是类别不平衡的,即不同类别的样本数目差异较大。在训练时,若样本数目少的类(少数类)的特征不明显,在预测时少数类样本倾向被预测成样本数目多的类(多数类),极大地影响分类效果。一般的文本分类算法较少考虑到文本数据的类别不平衡问题,在类别不平衡文本分类任务中,分类器无法很好地学习到少数类的特征。双向门控循环单元(BiGRU)是一种深度神经网络,在文本分类任务中,以低维词向量作为文本的特征输入到网络,从前后两个方向提取文本的特征,具有较强的提取文本特征的能力。但BiGRU没有专门针对类别不平衡问题进行设计,不能很好地应用在类别不平衡文本分类任务中。为此,结合类别不平衡问题中特征选择、欠采样和模型集成三种解决方法对BiGRU改进,本文提出了多通道词向量增强BiGRU-Attention模型,用于解决类别不平衡文本分类问题。(1)在特征选择方面,通过卡方检验方法提取各个类别的特征词得到类特征词词典,然后将文本中的词用词的类别向量表示并与经Word2vec训练的词向量结合,获得带有词类别信息的增强词向量作为模型的训练数据。(2)为了使BiGRU模型在提取文本特征时更好地分配文本各个部分的权重,在BiGRU中引入注意力机制得到BiGRU-Attention模型,对文本重要部分赋予更高的权重。(3)在欠采样方面,对多数类样本欠采样以缓解少数类的特征被多数类的特征淹没的问题。(4)在模型集成方面,为了避免多数类因欠采样丢失过多的特征,影响模型整体的分类效果,使用了多通道模型。先通过随机欠采样生成多组不同的样本,然后分别输入到各个通道的词向量增强BiGRU-Attention模型中进行训练,模型可以学习到更多的特征。融合多个通道输出的特征作为分类特征,经过全连接层和softmax层的计算,得到最后的分类结果。在类别不平衡文本分类数据集的实验结果表明,与同类算法相比,本文提出的分类算法在宏平均召回率、宏平均F1-Score和G-mean均值上有了一定的提升,取得了较好的分类效果。
其他文献
随着市场经济的日益成熟以及信息时代的到来,橡胶制造品行业的市场竞争也越来越激烈。由于外部环境不断变化,市场竞争得日益激烈,企业不得不从当前的状况出发对自身的经营策略进行调整,此前主要通过竞争实现外延式发展的企业,现在应及时调整为外延和内涵并重式的两条腿走路的发展策略,这样企业才能实现健康、稳定的发展。B橡胶制造公司作为一家专业从事橡塑密封件、汽车橡胶零部件以及各种橡胶制品生产、研发和销售的大型公司
日本《防卫计划大纲》是日本长期防卫政策的基本方针,是其国家最重要的国防文件之一,它规划了自卫队力量建设的总体方案,对日本的安保走向和防卫导向具有一定的指导意义。日
语音合成技术也叫文语转换技术,能够将文字转换成语音的形式输出,是人机交互中必不可少的一部分。在当今的智能音箱、智能家居、车载导航等许多人工智能应用场景中都离不开语音合成技术。基于语料库的波形拼接语音合成方法目前已有较高的可懂度和自然度,但在进一步提高听感质量上仍有待加强,尤其是基元的拼接产生的声音突变现象需要进一步改善,造成声音突变的主要原因是传统的语音合成系统不能使前后基元之间具有足够的协同发音
随着计算机技术和通信技术的飞速发展,传统的有线网络技术正在迅速地被无线网络技术取代。相比于有线网络技术,无线网络技术的优点是方便并且价格低廉,但缺点是能耗非常的高,利用时间采样机制很难满足应用要求。在二十一世纪的今天,对于人类来说,资源越来越紧缺,资源的有效利用和低能耗才是社会所需要的。面对这种情况,事件触发机制被引入了控制系统中。事件触发机制是进行的非周期采样,也就是说,系统仅在某个系统参数或者
表现性评价是对学生在真实情境中表现的综合能力进行评价的评价方式,被众多的国家和国际评价项目用于科学探究能力的评价。新的教育形势下,表现性评价被认为是落实核心素养的
无源天线受制于带宽-增益-体积理论的约束,难以同时实现宽带化、高增益与小型化的目的。相比于无源天线,由非福斯特电路与电小天线结合构成的有源天线能够突破Bode-Fano准则的限制,可在短波频段上实现更好的宽带化与小型化特性。本文主要是对电小天线与非福斯特电路进行深入研究,完成有源接收天线的设计,主要工作内容包括:1.仿真设计和分析了一款采用单级非福斯特电路匹配的无源单极子天线。首先,设计并且测试了
人口贩卖一直是全球社会间合力打击的主题,已有一千多年的历史。人口贩卖不仅涉及人权发展、人身安全等问题,更是严重侵害人身权利的违法犯罪行为。在国际社会的大环境下,通
修养工夫历来是中国哲人思想中最重要的组成部分,也是区别于其他哲人的主要标志,《训门人》中的修养工夫是朱熹晚年思想的代表,其内容构成一个由内而外、内外兼修的完整系统,