基于深度学习的短文本去攻击性研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:gl_521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在日新月异的互联网环境下,社交媒体环境相对自由,一些包含辱骂、侵犯等词汇的攻击性言论影响阅读感受,也对青少年的成长有不利影响。因而,本文对于短文本去攻击性方向进行了深入研究。短文本去攻击性任务等价于文本从“攻击性”到“非攻击性”的风格迁移。通常情况下,文本风格迁移任务融合了自然语言处理中的分类、文本生成两大热门任务。在现有技术下,对于文本生成,采用Encoder-Decoder结构将原始内容和目标内容建模学习。其中,Encoder结构用来学习源内容的蕴含信息和特征编码,Decoder结构用于对内容特征进行学习、生成所需的目标内容。对于文本分类,现有的基础模型如TextCNN、TextRNN等已经可以达到需求。本文对基于无监督思想,利用分类网络对文本进行攻击性识别,并对于Encoder-Decoder网络结构所生成的去攻击性文本进行识别校正的相关方法展开研究和探索。为了解决短文本去攻击性问题,本论文提出了三种创新性方案,主要工作包括以下几个方面:(1)为了解决风格迁移模型对于语法考虑不足和优化目标单一的缺陷,本文提出了一种基于语法衡量和反馈重建的短文本去攻击性模型PPBT,该结构基于预训练词性标注模型设计语法损失,改进编解码器,增加反馈机制,构建重建损失,以完善优化目标。(2)为了提升风格迁移模型对于攻击性到非攻击性的理解,本文提出了一种基于注意力机制、自适应生成的短文本去攻击性模型AABLG,该结构通过注意力机制对源内容进行编码,同时通过生成内容的攻击性来平衡重建损失和分类损失,以实现自适应性的保留和更新原文本。(3)为了更好的理解原文本并通过生成文本给予编解码器更多的信息反馈,本文提出了一种基于全局反馈理解的短文本去攻击性模型GFGAN。GFGAN通过设计NgramCNN模型更好的进行攻击性识别,同时将生成内容融合到编解码器的输入以优化模型的效果。同时也借鉴了 BERT模型的MASK思路以增强模型的鲁棒性。本文从无监督学习的角度,采用不同方法构建了攻击性识别网络。通过实验可以看出,NgramCNN比传统TextCNN具有更好的表达能力,通顺性损失的加入和分类器的特征回传对于Encoder-Decoder模型的生成都有一定的帮助,用于Encoder部分的CNN结构和基于注意力机制的自适应生成方式可以在短文本去攻击性任务中达到良好的效果。
其他文献
农业转移人口市民化是一项复杂的社会系统工程。党的十八届三中全会指出,坚持走中国特色新型城镇化道路,推进以人为本的城镇化,有序推进农业转移人口市民化,逐步把符合条件的
目的研究中药温化蠲痹方对胶原诱导性关节炎(collagen induced arthritis,CIA)大鼠滑膜缺氧诱导因子(hypoxia inducible factor,HIF)、血管内皮生长因子(vascularendothelial
高中作文教学向来是高中语文教学中的重点难点问题,而写作素材的积累和运用能力是写好作文的基础和源泉。根据高中语文课程标准,以相应写作理论为依据,对普通高中学生议论文写作素材积累和运用状况进行了调查研究。通过分析学生写作过程中的素材积累方式和渠道,指出现存素材积累方式的各项缺点与问题;对教师现有的作文指导策略进行统计分析,提出目前作文指导方式存在的粗放性、不重视、轻练习、重讲授等突出矛盾;以佳作为标杆
近年来,有关基于纳米组装体的表面增强拉曼散射(SERS)技术在痕量有害物质检测方面的应用在国内外受到广泛关注和研究。尽管人们在该研究领域已取得了许多有意义的研究成果,但仍有许多问题亟待解决。为此,在本文中我们针对这些问题,设计并制备了一系列基于纳米组装体的SERS基底,并考察了其在水中痕量抗生素、农药及非法食品添加剂检测方面的应用。首先,我们通过电沉积法制备了一种负载Ag“纳米树丛”的Ti网,并在
本文分别以各向同性及正交各向异性的Kirchhoff薄板和Mindlin中厚板为研究对象,采用修正的傅里叶级数方法描述位移及弹性边界条件,采用超音速活塞理论描述非定常气动力,进而建立壁板结构动力学和气动力耦合模型,研究其振动响应问题,并预测弹性约束壁板的颤振临界速度和颤振行为。本文的主要工作及结论如下:(1)通过修正的傅里叶级数方法分别建立了各向同性和正交各向异性薄板及中厚板的振动模型,由数值计算
重金属污染是国家工业化发展进程中难以避免的环境问题,其中镉作为毒性最强的重金属之一,严重威胁了生态系统安全和人类健康。本文以课题组前期在受污染农田中筛选的洋葱伯克霍尔德菌Burkholderia cepacia GYP1为研究对象,研究了其对重金属镉的耐受性能、寡营养条件下的镉积累能力及其应对镉胁迫的微观机制和分子机制,论文取得的主要研究成果如下:(1)研究表明驯化后的GYP1能够耐受高浓度的Cd
中国人民抗日战争是一场属于全国各族人民共同胜利的战争,也是中华民族有史以来最伟大的卫国战争。经过长达十四年艰苦卓绝的抗争,中国各族人民团结奋斗,最终取得了胜利。在抗日战争中,中国共产党提出了以抗日民族统一战线为核心的民族政策,对团结朝鲜族人民进行抗战起到了积极作用。在此基础上,朝鲜族与其他民族相互合作共同抗日,最终融入中华民族大家庭。本研究通过搜集和整理中国共产党在抗日战争时期对东北地区朝鲜族实施
复合材料因其高比刚度、高比强度等优异的力学性能,被广泛应用于航空航天领域。随着飞机上大量使用层合复合材料结构,层合复合材料在冲击载荷引起的损伤状况也备受关注。层合复合材料对冲击载荷比较敏感,受到冲击后容易发生诸如分层、基体开裂和纤维断裂等损伤。这些损伤会严重影响层合复合材料的力学性能,导致结构的承载能力明显下降,危及飞行安全。本文针对层合复合材料开展了冲击损伤的试验和数值模拟研究。本文主要内容如下
行人再识别是指在无重叠视域多摄像机监控系统中,检索出现在某个摄像机下的行人是否在其他摄像机中再次出现。在实际的视频监控场景中,由于存在摄像机拍摄角度不同、光照变化
毒品现在已经成为危害人类生活的最大隐患。它造成了无数的家庭倾家荡产,支离破碎,诱发各种违法犯罪活动,扰乱社会治安。自从鸦片战争以来,中国人民就从未停止与毒品的战争,目前对于吸毒人员,我国主要有强制隔离戒毒、社区戒毒、地方戒毒所戒毒三种模式,其中最严厉、最彻底的是强制隔离戒毒。作为从劳教制度演变而来的一个全新的机构,强制隔离戒毒所承担了戒毒人员的管理、教育、习艺劳动、身体康复以及戒毒场所安全等任务,