基于非平衡数据的多目标敏感文本检测

被引量 : 0次 | 上传用户:XIONGSHENG0
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智智能渗入人类自然语言的程度越来越深,NLP(Natural Language Processing)技术在人类日常语言处理中诸如文本分类、语种翻译、词性标注以及命名实体识别等领域中扮演着越来越重要的角色,并取得了令人瞩目的成绩。在大数据时代中,人类日常所接触的语言数据集是一堆杂乱的,非均衡的多目标学习任务文本数据集,与学术研究中所使用的标准干净的、类别数量均衡的以及单一标签的文本数据集不同,本文所研究的敏感文本检测实际上就是一类涉及数据非均衡和多目标学习的文本分类任务,而已有的关于处理此类任务的方法中没有一个统一的高效的方法,所以如何在多目标非均衡数据集上训练出准确率高的、鲁棒性好的模型是至关重要的。本论文目的就是研究在涉及数据非均衡和多目标学习特性的文本数据集中将敏感文本数据检测(分类)出来,主要的研究工作由四部分组成。(1)对字符型数据进行量化操作,将字符型数据转换成实数型数据。引入词向量的概念,不同于已有的训练词向量模型——Skip-Gram模型和CBOW模型,因为这些词向量训练模型并没有考虑词序信息,导致所训练出的词向量中损失了一部原始数据的语义信息,我们需要设计出一种可以包含词序信息的词向量训练模型——Char-Word模型。(2)分析已有的处理数据非均衡的方法的优缺点,针对各个算法的优点和不足进行融合创新,这里我们综合了数据采样、同义词替换、数据合成以及代价敏感等特点设计了一种可很好的解决数据非均衡问题的方法。对于数据集中存在的多目标学习问题,首先分析了已有的二元关联组方法以及算法改编方法在解决多目标学习中的优缺点,然后在设计解决多目标学习问题的方法的时候,不仅考虑到了文本内容与子标签之间的关系,更是将子标签之间的关系引入进来,使得模型在训练的时候能够充分利用已有的数据的所有关联信息,而不是局限于某一部分关联信息。(3)为了提升文本分类模型的学习能力,我们设计了一种能够更好的提取数据特征信息和语义信息的网络结构,这里分析了在计算机视觉领域中表现良好的残差网络ResNet和Inception-v3网络,并且融合这两种网络结构优点,并进行创新迁移形成了一种新的网络结构NRI(NLP ReNet Inception),使得该网络不仅可以适用于文本分类领域,而且相比单一的CNN网络以及RNN网络能够更有效的提取文本数据的特征信息。(4)在ToxicComment数据集上进行各种方法的对比实验。首先基于原始的数据集,与CNN网络结构、Bi-LSTM网络结构以及我们所提出的NRI网络结构进行试验对比,从对比结果来看我们所提出的NRI网络结构更能学习到文本数据的特征和语义信息;接着用我们所提出的训练词向量的Char-Word方法和已有的训练词向量的Skip-Gram方法以及CBOW方法来分别初始化文本分类模型,从模型的分类效果来看,我们所提出的词向量训练方法Char-Word更加有效;然后在处理数据非均衡问题的对比实验上,我们所提出的解决数据非均衡的方法使得模型的AUC值得到了大幅度的提升,从而说明了我们提出的解决数据非均衡问题的方法的有效性;后面则进行了关于解决多目标学习问题的对比实验,同样的从实验的结果来看,我们的方法是有效的;最后则将我们所解决多目标非均衡文本分类问题的方法与现阶段已有的方法进行了对比,本论文的LT方法在验证集上的准确率达到了0.914,在测试集上准确率达到了0.921,并在模型的平衡性AUC值上达到了0.861,超过了其他主流方法的性能。综上都说明了在解决多目标非均衡的文本分类问题中,我们所提出的方法是高效的。
其他文献
近年来,我国网络社交媒介发展迅速,微信以其便利性和实用性,在各类社交媒介的使用率中遥遥领先。伴随人口老龄化程度的逐步加深,老年用户为微信的使用注入了一股新活力,在这种用户“新”趋势和社会“老”形态交织的背景下,针对老年人社交媒介接触动机与影响因素的研究显得尤为重要。本研究在“使用与满足”理论的视域下,以老年人的微信接触行为作为研究对象,对老年人的微信接触行为、动机及需求满足提出假设,运用问卷调查法
随着精准扶贫的深入和农村基础设施的不断完善,农村电子商务的发展具备了腾飞的条件。加快农村电子商务的发展,不仅能极大地提高农民生活质量,而且能形成新的经济增长点,促进
在排队过程中,由于等待空间有限往往会造成顾客流失,因此对等待空间有限的队列模型的研究十分重要.泛函中心极限定理、马尔可夫队列及概率测度收敛等是高负荷条件下对等待空间有限的队列模型各性能指标收敛性的研究工具.本文运用鞅方法研究高负荷条件下带有顾客流失的队列模型.本文主要对带有顾客流失的M/M/n/m_n、M/H*_2/n/m_n、G/M/n/m_n和G/H*_2/n/m_n队列模型的队长过程进行研究
回顾了企业的运作模式在信息技术推动下的变化历程,阐明了企业模式向面向服务的企业和业务生态系统演变的趋势;结合研究现状,探讨了面向服务的企业与业务生态系统的概念、特
随着时代的发展,社会的进步,女性在社会中的地位逐渐提高.女性不再是传统社会中只会在家缝衣织布的形象,越来越多的女性选择进入社会同男性一样一起拼搏.随着眼界的不断开阔,
为进一步提高车辆定位精度和对定位环境的适应能力,利用车联网(V2X)通信网络进行辅助定位,以实现对GPS/DR组合定位的增强。首先GPS、DR和V2X辅助定位3个子系统独立地进行滤波
"中风"一词,首见于《内经》。关于中风的病因病机,一般认为唐宋以前以"外风"学说为主,多以"内虚邪中"立论;唐宋以后突出以"内风"立论。清代医家黄元御首创"一气周流"理论,并
改革开放以来,我国经济逐渐融入到全球化浪潮中,显著表现在对外直接投资的快速增长,跨境并购已然成为一个重要的经济现象。跨境并购对企业来说是不小的挑战,由于对外投资的资
目的:骨髓干细胞的研究已成为近年的热点,本文检索了骨髓干细胞与骨骼肌再生、心.肝、肺.肾脏疾病治疗、皮肤再生、糖尿病以及中枢神经系统疾病治疗的关系,并对骨髓干细胞的可塑性