论文部分内容阅读
随着人工智智能渗入人类自然语言的程度越来越深,NLP(Natural Language Processing)技术在人类日常语言处理中诸如文本分类、语种翻译、词性标注以及命名实体识别等领域中扮演着越来越重要的角色,并取得了令人瞩目的成绩。在大数据时代中,人类日常所接触的语言数据集是一堆杂乱的,非均衡的多目标学习任务文本数据集,与学术研究中所使用的标准干净的、类别数量均衡的以及单一标签的文本数据集不同,本文所研究的敏感文本检测实际上就是一类涉及数据非均衡和多目标学习的文本分类任务,而已有的关于处理此类任务的方法中没有一个统一的高效的方法,所以如何在多目标非均衡数据集上训练出准确率高的、鲁棒性好的模型是至关重要的。本论文目的就是研究在涉及数据非均衡和多目标学习特性的文本数据集中将敏感文本数据检测(分类)出来,主要的研究工作由四部分组成。(1)对字符型数据进行量化操作,将字符型数据转换成实数型数据。引入词向量的概念,不同于已有的训练词向量模型——Skip-Gram模型和CBOW模型,因为这些词向量训练模型并没有考虑词序信息,导致所训练出的词向量中损失了一部原始数据的语义信息,我们需要设计出一种可以包含词序信息的词向量训练模型——Char-Word模型。(2)分析已有的处理数据非均衡的方法的优缺点,针对各个算法的优点和不足进行融合创新,这里我们综合了数据采样、同义词替换、数据合成以及代价敏感等特点设计了一种可很好的解决数据非均衡问题的方法。对于数据集中存在的多目标学习问题,首先分析了已有的二元关联组方法以及算法改编方法在解决多目标学习中的优缺点,然后在设计解决多目标学习问题的方法的时候,不仅考虑到了文本内容与子标签之间的关系,更是将子标签之间的关系引入进来,使得模型在训练的时候能够充分利用已有的数据的所有关联信息,而不是局限于某一部分关联信息。(3)为了提升文本分类模型的学习能力,我们设计了一种能够更好的提取数据特征信息和语义信息的网络结构,这里分析了在计算机视觉领域中表现良好的残差网络ResNet和Inception-v3网络,并且融合这两种网络结构优点,并进行创新迁移形成了一种新的网络结构NRI(NLP ReNet Inception),使得该网络不仅可以适用于文本分类领域,而且相比单一的CNN网络以及RNN网络能够更有效的提取文本数据的特征信息。(4)在ToxicComment数据集上进行各种方法的对比实验。首先基于原始的数据集,与CNN网络结构、Bi-LSTM网络结构以及我们所提出的NRI网络结构进行试验对比,从对比结果来看我们所提出的NRI网络结构更能学习到文本数据的特征和语义信息;接着用我们所提出的训练词向量的Char-Word方法和已有的训练词向量的Skip-Gram方法以及CBOW方法来分别初始化文本分类模型,从模型的分类效果来看,我们所提出的词向量训练方法Char-Word更加有效;然后在处理数据非均衡问题的对比实验上,我们所提出的解决数据非均衡的方法使得模型的AUC值得到了大幅度的提升,从而说明了我们提出的解决数据非均衡问题的方法的有效性;后面则进行了关于解决多目标学习问题的对比实验,同样的从实验的结果来看,我们的方法是有效的;最后则将我们所解决多目标非均衡文本分类问题的方法与现阶段已有的方法进行了对比,本论文的LT方法在验证集上的准确率达到了0.914,在测试集上准确率达到了0.921,并在模型的平衡性AUC值上达到了0.861,超过了其他主流方法的性能。综上都说明了在解决多目标非均衡的文本分类问题中,我们所提出的方法是高效的。