基于PU学习和迁移学习的脏话识别算法

来源 :四川大学 | 被引量 : 0次 | 上传用户:a57556836
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如今,诸如微信、Twitter以及网络游戏等社交平台的兴起,促进了广大用户的线上信息交互,但也衍生出网上脏话言论无节制、无约束使用的问题。脏话主要是指针对个人或者某个群体的侮辱或攻击言论,这些言论给公共环境和用户体验带来了负面影响。因此为社交平台进行脏话自动识别具有重要意义。近些年来,脏话识别任务吸引了不少自然语言处理领域学者的研究。目前脏话识别采用的方法大多属于有监督学习,需要大量标注数据。虽然已有来自Twitter、Facebook等平台的标注数据,但不同主题平台的脏话特点可能具有差异,导致这些标注数据不一定适用于其他平台;另外采用人工标注数据耗时耗力。本文将由社交平台举报机制得到的脏话作为正例,提出基于正例无标签(Positive and Unlabeled,PU)学习的脏话识别算法。另外由于平台运营前期举报的脏话样例较少,使得模型学习到的脏话信息有限,本文进一步引入迁移学习方法提升脏话识别的效果。本文的具体工作如下:(1)现有的标注数据主要基于Twitter、Facebook等平台,而不同主题平台脏话特点可能存在差异,因此,不一定适合使用已有的标注数据为其他平台进行脏话识别,采用人工标注数据也耗时耗力。本文考虑到社交平台的举报机制易于获取正例样本,负例样本难于获取,提出一种基于PU学习的脏话识别算法。该算法使用正例样本和无标签样本进行训练并在训练中将无标签样本作为权重较小的负例,降低了模型训练的成本。为了验证该方法的有效性,本文在Offensive 2019数据集上进行了实验,结果表明本文提出的方法能够在只有正例的情况下达到与有监督学习方法接近的效果。(2)平台运营前期举报的脏话样例较少,导致模型学习到的脏话信息有限,针对此问题,本文进一步提出一种基于迁移学习的脏话识别算法。该方法将针对脏话词典和牛津高阶词典中例句的脏话识别作为源领域,针对社交平台言论的脏话识别作为目标领域,对源领域中的知识进行迁移,使目标领域模型的识别效果得到提升。为了验证迁移学习的有效性,本文分别在PU学习方法和有监督学习方法基础上进行实验,结果表明该方法的F1值整体得到了提升。
其他文献
创造教育思想是陶行知教育思想体系的重要组成部分,《创造的教育》一文发表标志着陶行知创造教育思想的初步形成。陶行知所倡导的创造教育是以行动为前提的教育,有行动才能生发思想,有思想才能生发真知,才能创造。创造教育应“以社会为学校”,使得社会含有学校的意味,学校亦含有社会的意味。创造教育要教学做合一,做的最高境界就是创造。创造教育是以生活为中心的教育,是与生活实践相结合,在生活之中求得的、指向更好生活的
两固体表面间的粘着对微机电系统的发展意义重大。在微纳尺度下,机械系统主要受表面效应的影响而非惯性效应。粘着是微机电系统在制造和使用中失效的一个主要原因。随着微机电系统进一步微型化,研究如何避免粘着失效也成为提升系统可靠性的迫切要求。因此,需要开展大量的实验和理论研究深入探讨粘着机理。原子力显微镜(AFM)是微纳粘着力实验的最主要工具之一。实验中的参数对粘着力的测量结果影响很大。其中,接触时间常起到
以T公司生产线为对象,探究通过对生产线工站数量调整、合理分配作业单元的方式提升生产线整体平衡率。引入双遗传算法对该生产线平衡问题采取进一步改善,将作业单元编码,并将优化方案中的作业单元进行交叉变异最终得到全局最优解,最终使生产线的整体平衡率由初始的85.85%提升至97.79%。基于Flexsim仿真软件建立改进后的生产线的仿真模型,统计对比生产线的月产量,验证了改进的效果与改进方法的可行性。
学位
在过去十几年锂离子电池占据了便携式电子市场的主导地位,且目前正受汽车行业大规模应用的重视。但大规模应用受到了成本和性能的制约,其中电极材料是最重要的影响因素之一。另一方面,随着钢铁行业的发展,由酸洗废液产生的酸洗铁红也正逐年增加,不当地处理会带来资源浪费与环境污染等问题。为了解决这些问题,本文以廉价的酸洗铁红为原料,较为系统的研究了制备性能优异的铁氧化物和LiFePO4的参数。首先通过TG-FTI
序列化推荐旨在通过建模用户的历史交互数据(如点击、购买和签到)之间的顺序依赖关系,来捕获用户的动态兴趣(或需求)并为其推荐在未来最可能会交互的物品。近几年,序列化推荐已经成为个性化推荐系统研究中的一个热点问题。尽管研究者已经提出了很多序列化推荐工作,但现有的序列化推荐工作仍然面临着以下两个挑战:第一个挑战,现有的序列化推荐工作未能同时考虑用户偏好的全局稳定性和局部波动性,使用基于标量的加权模式来融
大数据等技术支撑着社交网络数据分析领域的发展,同时也使社交网络发布的数据面临隐私泄露的重大威胁。近年来,数据泄露大事件层出不穷。例如,2021年315晚会曝光人脸信息未经本人同意被收集、各大招聘平台随意叫卖简历、个人信息遭暗网兜售等。社交网络,尤其是加权社交网络中包含的个人或企业的隐私信息规模大。如果敏感数据未经隐私保护处理被发布,不法分子可以根据已发布数据预测出与用户或企业相关的隐私数据。与现有
陶行知创造思想,在小学语文教育中能够得到有效应用,也能促进相关教育发展工作的进行,在开展语文教育中,要抓住陶行知思想的核心,采用合理的方式积极促进小学生的语文综合能力培养,将学生培养成具备完善能力的现代新人。
小学阶段的教育是培养小学生个性化理解能力和表达能力的重要阶段,而小学英语学习在小学教学过程中更加能够强调小学生理解能力与表达能力。因此,想要进一步提升我国小学英语教学的质量以及教学水平,文章将结合陶行知先生的创造教育理念作为支撑,对现阶段小学英语教学改革提升相应的对策,从而达到实现小学英语教学创新的目的。
学位