基于多特征图卷积嵌入的不良文本识别

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:limingminghappy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
根据中国互联网信息中心于2021年2月发布的第47次《中国互联网络发展状况统计报告》显示,截至2020年12月,我国网民规模达9.89亿,网民使用手机上网的比例增致99.7%。开放包容的互联网环境丰富了人们的日常生活,提升了居民生活品质,提高了工作效率。然而,作为一把双刃剑,网络中流转的内容鱼龙混杂,其中的不良信息会对正常用户带来极大影响,严重侵害人身安全,败坏社会整体风气,甚至诱导他人走上违法犯罪道路。不良文本通常以即时聊天或评论等形式出现,其中色情、暴力、违禁等内容具有很强烈的负面信息,其特点是文本长度较短、语言结构多变、语义模糊。此外,这类文本还具有很强的规避性,一些常见的不良词通常以异形、变体等方式替代,传统的人工规则与机器学习模型很难对其有效识别。本文在调查研究文本分类和不良信息识别相关技术的基础上,提出一种基于多特征图卷积嵌入的短文本分类模型,结合工程化思想设计一套高效的不良词库扩充与检索方案,最终对不良文本识别系统进行设计与实现。论文主要研究工作如下:1)基于多特征图卷积嵌入的短文本分类模型。考虑到短文本特征稀疏、语言结构多变、语义模糊问题,提出一种融合文本多特征(Multi-feature)的图表示方法,将文本依存关系和文档、词性信息表示为异构图,利用图卷积网络(Graph Convolutional Network,GCN)捕获图结构特征,最后将训练好的词嵌入(Word Embedding)输入Transformer模型,学习节点间多跳信息以减小噪声特征节点对分类的影响。实验结果表明,相较现有文本分类基线模型,本文提出的MFGCE-Transformer模型在多组中文短文本公开数据集上准确率和F1分数均有提升。2)基于前缀树和词频-逆文本频率的不良词识别模型。考虑到不良文本具有规避性、不规范性等干扰模型识别的特点,从近义词、异形词、变体词角度出发,设计基于词嵌入与局部敏感哈希、基于隐含马尔可夫模型与汉语拼音、基于汉语拆字字典的不良词库扩充方案;使用前缀树对不良词库进行建模,并将词频-逆文本频率作为停止节点标志。实验表明,本文提出的不良词识别模型具有高效性。3)不良文本识别系统的实现。基于上述思路,结合软件工程方法对不良文本识别系统进行设计与实现。将收集并标注的微博评论及社交网络聊天脱敏数据作为测试对象,测试结果表明本系统在不良文本识别任务上具有优异效果,同时具备可扩展性。本论文课题来源于企业项目,所提出的算法改进方案应用于实际工程中,在识别效果和效率上均有提升,具有较强的实用性。
其他文献
随着集成电路的生产工艺不断进步,显示驱动芯片得以飞速发展。显示驱动芯片规模不断扩大,承担了更多的功能。显示驱动芯片结构复杂程度的不断上升,不仅会对芯片设计提出更高的要求,也会给芯片成品测试带来更多的挑战。现如今的消费电子市场芯片产品迭代周期不断缩短,为提高芯片的品质,降低芯片成本,减少芯片测试时间,可测试性设计逐渐占据了重要地位。可测试性设计主要方法是将芯片测试纳入芯片的设计规格中,通过在芯片中添
近年来,人工智能和集成电路领域的飞速发展对健康医学产生了深远的影响,机器学习可以利用病人大量的临床数据对其病情做精确地分析,智能计算机系统可以为卫生专业人员提供治疗方案。智慧医疗在电子信息、生物医学、数据分析等领域进行深度交叉融合,在引领未来医疗时代等方面具有重要意义。植入式生物医疗芯片作为智慧医疗的硬件载体,逐渐成为近年来的研究热点。植入式生物芯片需要植入生物体内获取被测者的生理参数,因此需要有
声源定位包括利用传感器阵列测量声场中的声学量和利用反向传播算法重建声源在声场的分布图像。目前声源定位在工业生产、医疗、地质研究和军事等领域都有着广泛的应用。麦克风阵列信号接收作为声源定位过程的关键步骤,其对声源信号采样的质量直接影响着后续的声源定位准确性。根据采样定理,麦克风阵列接收信号频率的上限受到阵元间距影响,下限受到阵列大小影响。所以对于超出频率限制范围声源信号,麦克风对信号的采样质量会下降
图像分类任务是计算机视觉领域的基础问题。随着互联网和人工智能技术的快速发展,每天都会产生大量的图像数据。图像分类技术已经应用到很多生活和工作场景中,因此很多互联网公司和科研机构将图像分类作为研究重点。目前基于深度学习算法的图像分类已成为主流,但性能提升的同时模型也越来越大,如何在提高分类正确率的同时减少模型参数量是一个具有挑战性的课题。本文针对该问题提出了新颖的轻量分割卷积、沙漏模块、多尺度注意力
大数据时代的来临,导致我们需要处理和分析的数据越来越多,用户和企业很难在本地对这些数据进行有效的管理和分析。伴随着云计算技术的日渐成熟,越来越多的用户和企业选择将数据上传到云服务器中来减小本地服务器的压力。云服务器可以为用户提供巨大的存储空间和高效的处理器,而用户只需要支付很少的费用就可以享受到这些服务。为了保证用户的隐私安全,常用的处理方法是将数据加密后再上传到服务器中,但是通过传统的加密技术得
学位
近年来,为了使芯片的上市周期缩短提高效率,节省成本,SoC(System on Chip)已经开始推广运用能够复用的IP(Intellectual Property)核,DDR4的主流速度达到了2133Mbps,在业内使用量较高。而与DDR相匹配的DDR PHY(Physical)常被当作一个高速IP核来使用,当DDR PHY作IP使用时,由于使用者对内部架构和设计并不完全了解,很多时候使用者把D
近年来,随着集成电路产业工艺技术的不断推进,芯片的电路规模日益扩大,内部复杂度逐渐提高,与之带来的功耗问题成为了芯片设计人员不可忽视的重要因素。而在各类便携式智能医疗设备中,考虑到其日常使用场景和性能指标,如何有效控制内部控制芯片功耗也是当前研发人员首要考虑问题。因此,在保证芯片的可靠稳定和性能需求基础上,实现低功耗的设计目标,具有重要的实现意义。本文研究对象为某款针对医疗市场研发的血红细胞检测芯
在工业控制中,脉冲宽度调制(PWM)作为一种有效的数字信号控制模拟电路技术,被广泛用于电力电子、电机控制及机械控制等领域中。为了满足工业控制需求,需要在SoC芯片中集成PWM发生器,本课题基于SoC技术完成了符合APB总线接口标准的四相PWM IP核的设计与验证,论文的主要工作如下:针对工业控制芯片的PWM功能需求,完成了PWM核的前端设计,包括总体架构定义、模块功能划分、模块原理设计等工作,设计
电路综合是超大规模集成电路芯片设计中承前启后的一个重要环节,综合的策略从方方面面影响着综合网表的质量。近十年来,随着工艺进入深亚微米级别,前后端网表差异过大成为了制约芯片设计质量的一个重要因素。过去的工程实践常常将综合阶段的互连延时做理想化或者归一化处理,但是这样做的弊端开始显现;而且,传统的逻辑综合往往不考虑单元的位置信息,使得一些需要物理信息的综合策略无法很好实现,导致WNS指标变差,时钟频率