带变体的不良短文本识别方法研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:ebeggar
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网给人们的生活带来了便利,但是也造成了各种安全问题。不法分子为了牟利在互联网上发布各种不良信息,比如:垃圾邮件、色情广告信息等。大量的不良信息不仅会破坏网络环境、影响人们的上网体验,而且会影响到青少年的身心健康,甚至会危害社会治安。现有的不良短文本识别方法能够过滤掉部分不良信息,但在识别带变体的不良短文本时效果不佳。变体是不法分子为了逃避检测而在其发布的不良短文本中添加的一种干扰噪声,其中同音字变体是最常用、最难以处理的变体类型。针对变体尤其是同音字变体对不良短文本识别的影响,本文提出基于汉字-拼音双通道Text CNN(Text Convolutional Neural Networks)的不良短文本识别方法和基于Seq2Seq Attention(Sequence to Sequence Attention)的变体处理方法。本文的主要工作如下:(1)针对带变体的不良短文本识别问题,本文提出基于汉字-拼音双通道Text CNN的不良短文本识别方法。该方法在预处理阶段使用先匹配再替换或删除的策略过滤掉大部分的变体,接着构建了汉字Text CNN模型和拼音Text CNN模型,并在Soft Max层融合两个模型。基于汉字-拼音双通道Text CNN的不良短文本识别方法在过滤掉大部分变体类型的基础上,融合了汉字和拼音信息,在一定程度上消除了同音字变体的影响,提高了识别准确率。实验结果验证了该方法的有效性。(2)针对基于汉字-拼音双通道Text CNN的不良短文本识别方法在处理同音字变体上的不足,本文提出基于Seq2Seq Attention的变体处理方法。该方法基于汉字与拼音的对应关系,利用汉字-拼音-汉字的两次转换来还原包含同音字变体的短文本,解决了同音字变体问题。实验结果显示相较于基于汉字-拼音双通道Text CNN的不良短文本识别方法,结合该变体处理方法的不良短文本识别方法的识别效果得到了提升。(3)基于所提出的不良短文本识别方法,本文设计并实现了直播弹幕检测系统。软件测试报告验证了本文所开发系统的有效性。
其他文献
本文主要针对具有大外飘平台船型(如半潜平台、大件货物运输船等)首部及舷侧结构在高海况下受波浪载荷影响,参考ABS和DNV等规范,借助耐波性软件,通过多点选取,重点分析其在不规则波浪条件下受到的波浪抨击载荷,评估在高海况下进行海上作业的安全性。分析结论可作为此类船型大外飘甲板的设计参考。
期刊
场景图生成旨在检测图像中的目标并预测目标之间的关系,进而构建以目标为节点、关系为边的场景图。场景图生成任务不仅能为视觉内容理解提供图像中潜在的关系,这些关系也是高层次视觉任务的知识基础,因此具有十分重要的研究价值。目前,场景图生成任务的难点主要体现在两个方面:1)从图像中生成信息丰富的场景图需要整合并推理各种目标和关系的交互信息,但现有的场景图生成方法大多由于缺乏关系的高层推理和有效的信息整合机制
学位
眼睑恶性黑色素瘤是一种死亡率极高的罕见疾病,对该疾病进行准确诊断既重要又具有挑战性。在眼睑恶性黑色素瘤诊断过程中,由于存在病理图像染色不一致、人工标注成本高等问题,设计高效且有针对性的辅助诊断方法具有重大现实意义。本文针对眼睑恶性黑色素瘤病理图像数据集开展研究,通过结合自监督学习(Self-Supervised Learning,SSL)、注意力机制等技术,首先进行了染色处理和数据增强优化,并在此
学位
本文汇总2018~2021年梅州市化妆品监督抽样检测结果,从样品类别,被抽样单位、不合格(问题)项目等不同角度对近4年共296批化妆品检测结果进行分析。并重点对“妆”字号和“消”字号婴幼儿护肤品检测结果的明显差别,标签标识问题进行分析讨论,发现监管风险点,提出监管建议。
期刊
瓷砖具有图案美观、防水耐磨等特点,是装潢设计中不可或缺的材料。目前瓷砖样式设计自动化程度较低,设计师主要通过扫描天然大理石或者木纹等切面纹理进行设计加工,这些纹理图案通常风格样式单一,无法满足多样化设计需求,而传统的基于图像纹理生成方法在瓷砖真实感和多样化方面有所欠缺。为了解决这个问题,本文提出基于深度学习的瓷砖图像多样性设计方法,即瓷砖纹理自动生成和瓷砖风格转换的两类方法,这些方法能满足瓷砖设计
学位
在互联网大数据时代,智能手机以及监控相机等数据采集设备的广泛应用,显著地提高了行人图像数据的获取、分享和传播效率。一方面,这些数据能广泛应用于智能服务以提高人们的工作效率与生活质量;另一方面,如果这些数据被滥用,会严重威胁个人或者组织的隐私安全。因此,研究行人图像隐私保护方法具有重要的价值及应用前景。近年来,生成对抗网络技术为基于图像合成替换的身份匿名隐私保护方法提供了新思路。然而,现有方法大多关
学位
近年来我国在校大学生数量一直在持续增加,现已达到了4000余万。大学生毕业后总是希望从事“专业对口”的职业。社会职业与大学专业间的关联性很强,而大部分学生却对专业和职业缺乏足够的了解与认知。特别是在社会经济迅猛发展的今天,新职业不断出现,大学生对当前社会各行业有哪些与自己所学专业对口的职业更加不了解。另外,就业地区也是大学生就业时的重要考量因素,因为同一个职业在不同的地区和城市其薪资水平可能会有很
学位
近年来,随着人工智能技术不断发展与创新,电子商务借助人工智能技术实现新突破。各大电商平台相继推出虚拟试衣服务,旨在改善消费者的网购体验,从而提高零售商的销量。本文主要研究基于图像的虚拟试衣,并根据适用场景将其划分为基于时尚单品场景的虚拟试衣和基于全套服饰场景的虚拟试衣。通过对两个场景的虚拟试衣方法的深入研究,本文展开以下两个工作:(1)通过分析基于时尚单品场景的虚拟试衣的难点,针对其存在的服装形变
学位
随着基于位置的社交网络(Location-Based Social Network)的快速发展,海量的签到数据被用于挖掘用户的行为模式以实现兴趣点(Point-of-Interest)推荐。兴趣点推荐不但可以提高用户体验,增加用户粘性,还能为商家带来潜在的商业利益,已成为推荐系统中最重要的研究方向之一。现有的相关工作主要对时间、空间、序列、社会关系等多种因素进行建模。但是,这些工作还存在着诸多不足
学位
K均值聚类和谱聚类是无监督学习中流行的聚类方法,旨在根据样本相似性对数据点进行分簇。然而,K均值聚类因簇初始质心初始化的质量差异和离群点干扰,导致其聚类结果存在较大随机性,即聚类性能相对不稳定,同时不能有效处理非凸分布数据集。另外,完整的传统谱聚类采用三阶段策略完成聚类,即根据输入数据构造相似度图,然后在图上执行谱嵌入得到松弛的连续标识矩阵,最后运用Kmeans或谱旋转等后处理技术对连续标识矩阵离
学位