基于深层特征的长短文本分类算法研究

来源 :南京信息工程大学 | 被引量 : 0次 | 上传用户:wenzheng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类是自然语言处理中的一个基本问题。其核心是从文本中抽取出能够体现文本特点的关键特征,并设置一个从抓取特征到类别之间的映射关系。基于文本的特性,文本分类主要由短文本分类和长文本分类这两类构成。短文本分类是指对话题或者评论这种字数偏少,句式结构有缺省的文本进行分类,其需要关注的特征为有明显情感倾向的词特征和句特征。长文本分类是指对文章或者新闻这种字数偏多,句式结构完整,上下文联系很大的文本进行分类,其需要关注的特征为语义关系特征和上下文联系信息特征。在短文本分类上,现有方案虽然能提取词特征,但是却无法同时提取词特征和句特征。在长文本分类上,现有方案虽然能尽可能的提取语义关系特征,但是却无法提取上下文联系信息特征。根据上述问题,本文的主要研究成果如下:针对短文本分类问题,本文侧重有明显情感倾向的词特征和句特征,通过词嵌入模型、卷积提取词和句特征、构建并行特征提取框架和注意力机制这四步,提出了基于注意力机制的并行稠密连接卷积神经网络——Text Desnet。该网络中的多尺度卷积特征提取模块解决了有明显情感倾向词特征提取的问题;密集连接卷积特征提取模块解决了有明显情感倾向句特征提取的问题;注意力机制模块解决了词特征与句特征贡献度因子不同的问题。最后,本文将Text Desnet与多种模型(CNN、Text CNN、Fast Text、DPCNN和Text Desnet-C)在三个短文本语料库(Game Multi Tweet、Sem Eval和SS-Tweet)上测试作比较。实验结果证明,Text Desnet对于短文本分类问题,其准确率平均提升1.1%。针对长文本分类问题,本文侧重语义关系特征和上下文联系信息特征,通过词嵌入模型、多张文本图的构建、消息传播机制和注意力机制这四步,提出了单词级别张量图卷积神经网络——Word Level GCN。该网络中的多张文本图的构建解决了提取语义关系特征和上下文联系信息特征的问题;注意力机制模块解决了语义关系特征与上下文联系信息特征贡献度因子不同的问题;为每个文本单独构建图,每个单词只和与它最近的前后个单词相连和参数全局共享解决了文本图过大内存消耗太多的问题。最后,本文将Word Level GCN与多种模型(CNN、Text CNN、Fast Text、DPCNN、Text GCN、Tensor GCN和Word Level GCN-G)在三个长文本语料库(AG News、R8和Yahoo!Answers)上测试作比较。实验结果证明,Word Level GCN对于长文本分类问题,其准确率平均提升1.4%。
其他文献
集成电路产业已经成为世界强国的国家战略,芯片制造的关键技术和设备被少数欧美发达国家垄断。特别在射频、微波芯片封装中,键合金丝的拱高、跨度等参数对微波传输特性的影响很大,而这些参数的自动检测设备目前还依赖进口,为了打破技术封锁,弥补相关领域的研究空缺,本文针对实现键合金丝拱高和跨度的微米级测量技术展开了研究,具体内容如下:首先,设计并搭建了键合金丝拱高和跨度的图像采集、处理和实验平台。采用嵌入式方案
学位
气体检测是预防各类安全事故发生的重要手段。在日常生活、工业生产中往往会产生大量可燃易爆、有毒有害的气体,若发生泄漏不能及时发现并采取相应措施,将对长期生活、工作其中人员的身体健康带来极大安全隐患。同时,此类气体若积累到一定浓度,极易发生爆炸事故并将带来灾难性的后果。多年以来,此类安全事故层出不穷。因此如何快速、准确实现对泄漏气体的检测,具有广泛的应用价值。本文提出了一种采用传感器阵列与模式识别算法
学位
基于深度学习的车辆重识别旨在利用车辆外观特征在大型图库中检索目标车辆,实现车辆追踪,是智慧交通系统的一项核心技术。随着人工智能和大数据技术的发展,该技术在嫌疑追踪、无人停车场管理、智慧物流和自动驾驶等领域具有广泛应用,尤其是在当车牌被遮挡、移除、破坏等情况下,该技术发挥了巨大作用。由于车辆图像是由不同的摄像机拍摄得到,拍摄时光照、视角、分辨率等条件各不相同,导致车辆重识别面临着类间差异小、类内差异
学位
目前,通信技术的相关应用已经广泛的服务于人们的生产生活,而无线系统的资源优化技术又是通信领域的研究重点。相较于传统的蜂窝系统,超密集网络拥有更丰富的基站资源,可以为用户终端提供更高质量的服务体验。然而,密集部署的基站不仅带来了严重的小区间干扰,而且容易导致基站出现空载或过载现象。此外,通信环境的参数瞬息万变使得传统功率分配算法难以在实时场景中应用推广。本文针对上述问题进行了研究,提出了超密集无线网
学位
随着网络技术的快速发展和图像获取设备的日益普及,丰富多彩的数字图像成为传递信息的重要媒介。虽然数字图像给人们生活带来便利,其背后也潜藏着安全隐患。因此,如何保护好数字图像的完整性和真实性,是数字图像取证领域将要面对的巨大挑战。尤其是近几年GAN在图像领域取得的巨大成功,其生成的能够以假乱真的高清图像更是引起了相关领域各位专家学者的高度关注。挖掘自然图像与GAN生成图像之间存在的差异进而精准高效地鉴
学位
终端直通(Device-to-Device,D2D)通信可以不通过基站转发,建立直接通信链路,实现用户的信息交互。D2D用户以复用模式工作,能有效减轻基站负荷,提升系统吞吐量,但同时也会产生同频干扰问题。此外,引入中继技术,可有效解决D2D对无法直接通信的难题。因此,本文针对同频干扰和中继选择问题,对D2D对的信道分配、中继选择和功率控制进行研究,主要内容包括:(1)针对信道分配中,多个D2D对复
学位
Deepfake伪造人脸对信息的可信度、可靠性和安全性构成了极大的威胁。不法分子利用人脸交换技术生成伪造图像和视频误导群众,造成了不良影响,甚至引发恐慌。为了抵制虚假信息的传播,Deepfake检测技术受到广泛关注。现有的视频检测方法为避免数据冗余、节约计算资源,大多是随机选取视频的多帧或部分段作为检测对象。然而,这种选择策略会降低检测对象的表征能力,性能也会受到限制。因此我们提出了一种用关键帧代
学位
由于中国不同地区气候的多样性,准确的气象监测有助于国家防灾减灾,其中,降雨和水汽监测在气候研究领域占有重要地位。目前,毫米波链路测量降雨和水汽成为新的监测技术,可以为气象监测提供高精度的数据。该研究利用搭建在中国南京市与河北香河县的E波段毫米波测试链路采集数据,通过气象要素与毫米波衰减的关系计算出降雨强度和水汽密度,然后将研究结果与实测值对比分析。主要研究内容包括:(1)分析了微波链路监测降雨和水
学位
在大数据时代,公司和机构已经注意到多维数据的巨大价值,并且极力地收集高维众包数据以做出数据驱动的决策。然而,这些多维数据往往包含着数据拥有者的敏感信息,如果数据拥有者直接分享自己的多维数据,则会引起隐私泄露的问题。近年来,本地差分隐私被发现在收集和使用数据拥有者的数据并保护其隐私方面有实用价值。在本地差分隐私方案中,数据拥有者在数据外包前会先对其进行扰动,然后将扰动后的数据发送给服务器。如此,服务
学位
随着互联网、传感器网络、数据通信技术的不断发展成熟,各行各业都产生了大量的数据,对于大数据挖掘技术的需求也越来越迫切。在众多应用场景中,数据都是陆续到来、数量无限且随时间变化的,学术界将这种数据形态定义为“数据流”,数据流挖掘技术因其较高的应用价值,在学术界掀起了广泛的研究热潮,本文研究的数据流分类就是其重要的分支。不同于静态数据集,动态变化的数据流中可能会伴随着概念漂移和新标签问题,严重影响了分
学位