【摘 要】
:
随着社会与网络的不断发展与进步,自然语言处理领域的各项技术如机器翻译、文本匹配与文本分类等也积极地应用在了现实生活中,并取得了良好的效果。互联网的发展,使自然语言处理领域逐步面对更加现实的数据:这些数据存在大量噪声;数据中的每个样本可能被多个子标签的组合所标记;数据中各种类别之间的样本数量不均衡。而当今社会的发展,正需求对网络文本与网络舆情的监管,那么能够处理这种不规则、复杂数据的方法是十分必要的
论文部分内容阅读
随着社会与网络的不断发展与进步,自然语言处理领域的各项技术如机器翻译、文本匹配与文本分类等也积极地应用在了现实生活中,并取得了良好的效果。互联网的发展,使自然语言处理领域逐步面对更加现实的数据:这些数据存在大量噪声;数据中的每个样本可能被多个子标签的组合所标记;数据中各种类别之间的样本数量不均衡。而当今社会的发展,正需求对网络文本与网络舆情的监管,那么能够处理这种不规则、复杂数据的方法是十分必要的。本文所研究的多标签数据的文本多分类正是致力于从自然语言处理的各个流程中探索对这种复杂数据的处理方式,主要的研究内容由数据预处理、文本表示与分类模型三个部分所组成。(1)数据预处理过程由数据清洗与数据均衡两个部分构成。数据清洗主要是针对网络文本中的一些无用符号如正文中所说的html标识等进行删除。同时与传统的自然语言处理任务不同,在文本清洗过程中,本文留下了文本中的标点符号作为语义表达的部分。而在进行数据均衡的过程中,本文结合了中文文本的特点,数据集的特点,上下采样方法的特点,综合使用了随机调换顺序、上下采样等方式进行了大类与小类的平衡。(2)将输入的文本转换成计算机可以识别的实数矩阵是自然语言处理中不可缺少的一部分。本文针对在网络舆情监管中可能存在的硬件问题,分别从传统的嵌入向量模型与BERT语言模型两个方面探索了对网络文本的文本表示方法。本文结合网络文本的特点,以及字向量与词向量的优缺点,并根据字词联合训练的思想,提出了字嵌入向量模型aw-char2vec。同时本文将BERT模型作为文本表示下接分类网络,相比直接使用BERT作为分类模型取得了更好的效果。(3)为了使得文本分类模型能够更好的作用于网络文本多标签分类中,结合网络文本中无意义的词语较多的情况,本文将注意力机制引入了RCNN中,使得其在编码文本上下文含义时,能够更加注意网络文本中能够表示含义的部分。同时,根据本文使用数据集的特点,结合标签Powerset与二元关联方法设计了一种类似于投票的分类器,将标签之间的关系纳入到模型的训练之中。在微博数据集与百度题库数据集上取得了较好的效果。
其他文献
车辆路径规划是智能交通中的重要研究方向之一,其研究内容主要包括路网模型、交通信息预测和路径规划算法等。如何充分利用道路交通信息,动态且快速地为目标车辆提供一条合理高效的行车路线具有非常重要的意义。论文将深度强化学习融入路径规划算法,对车辆动态路径规划问题进行了研究。论文的主要工作如下:论文针对现有路径规划中对路况分析不全面的问题,构建了基于层次分析法的道路效率指标评价模型,综合分析各种影响道路通行
随着计算机网络的发展和不断流行,越来越多的网络应用和网络服务在Internet上运转。方便大众的同时,这也给网络攻击者可乘之机。用户对网络依赖性的加大,导致网络设备的大量增加,使得攻击者更为方便地控制足够多的僵尸主机在网络上发动攻击,所以当下面对的网络安全威胁更加棘手。其中比较棘手的攻击就是分布式拒绝攻击(DDoS),这种攻击的攻击形式多,危害大,并且难以识别和防御。由于SDN技术的不断发展,结合
随着三维传感技术的极速发展,已经有大量的三维模型出现。如何帮助用户高效使用已有的三维模型,已成为如今亟待解决的问题,三维模型检索方法随之诞生。一方面,现有的基于多视图的三维模型重建算法受LSTM网络时序性的影响,重建结果与输入二维图像的顺序息息相关。另一方面,目前的三维模型检索算法大多基于传统卷积神经网络进行研究的,但是传统的卷积神经网络具有平移不变性,且由于神经元为标量的缘故需要大量的数据进行训
近年来,随着信息通信技术的快速发展和信通网络的大规模部署,新兴网络应用大量涌现。信通网络各层协议和应用在正式部署于实际系统之前须经过严格的测试。因而,构建逼真度高、成本可控且灵活可扩展的测试网络对于网络研究具有重要意义。现代信通网络结构复杂、构建成本巨大,若所有测试网络均采用实际物理设备搭建,将耗费极大的人力和物力。为降低构建大规模测试网络的成本,提升测试网络灵活性和可扩展性,可采用虚拟节点构建测
随着语言模型建模能力的增强,使用机器生成流畅的句子或片段已经不再困难,然而当长度增加时,生成文本往往难以保持原有的高质量,开始出现严重的不一致和退化问题。究其根本原因,一是由于语言模型对自然文本的建模存在偏差,无法保证预测的概率分布总是符合上下文语境,导致生成的词语与前文不一致或不相关。二是解码算法没有对语言模型的偏差合理规避,使得不一致或不相关问题随长度增加而逐渐累积,最终偏离了原有质量。基于以
在获取数字图像时,图像被噪声污染是一个很难避免的问题。图像去噪是许多其他图像工作的基础,如图像分割,边缘提取,图像识别等,都需要首先经过图像去噪,去除干扰信息。图像去噪会很大程度上影响后续工作的效果,因此对图像进行去噪是非常必要的。近年来,因为深度学习的快速发展以及卷积神经网络(CNN)在图像识别等领域取得了很大的成功,人们开始尝试在图像去噪领域研究基于深度学习的方法。最近的研究中,在高斯白噪声领
随着日益复杂的电磁频谱环境带来的严峻的干扰问题,干扰处理技术越来越受到重视。机器学习作为当下的潮流之一,正带动着通信抗干扰技术向智能化方向发展。干扰识别是抗干扰的前提和基础,也是其关键技术之一。将机器学习算法应用到干扰识别技术中,可以使得干扰类型及其相关参数的识别更加准确高效。成功识别出干扰信号之后,利用链路自适应技术,根据不同的信道质量指标对发送功率、调制编码方案及信号波束方向等参数进行实时更改
随着网络技术的飞速发展,无处不在的移动设备和大量的新兴应用导致了移动数据流量的爆炸式增长。内容分发网络(Content Delivery Network,CDN)作为解决网络流量快速增长的重要手段,为了获得更低的延迟和更好的用户体验,不断将其缓存设备从中心网络下沉到边缘网络当中,我们称这样的内容分发网络叫做边缘缓存网络。新的场景带来新的问题,边缘缓存中,通常缓存设备搭载在基站上,这导致了缓存所能够
随着大数据时代的发展,各行各业都呈现出了数字化、信息化的趋势。由于医疗与民生的高度相关性,所以医疗大数据的发展也越发引人关注。然而医疗数据以其多种难以解决的特性往往会对信息化发展产生制约,这些特性包括不完整性、隐私性、多态性等。并且由于医疗数据是在实际的临床工作中获得的,病人往往会在得病之后才去就医,所以医院得到的各种病症的数据比例必然与对应病症的发病率相关,这会导致医疗数据出现不平衡的情况,从而
近些年实例分割任务越来越多的受到研究者们的关注与研究,但目前为止该任务依然没有达到令人满意的效果,其中大部分算法都无法达到实时性的要求,即使达到实时性的算法也很难具有较高的准确度。为了在工程中使用具有实时性的实例分割算法,本论文在YOLACT算法的基础上进行了相关改进,并在保证实时性的同时进一步提高算法准确度。然后在实例分割算法的基础上进一步研究了行人属性识别算法,并通过实例分割方法解决行人属性识