基于深度学习的长文档分类方法研究

来源 :南京信息工程大学 | 被引量 : 0次 | 上传用户:bingfeng615404
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技的不断发展,互联网和数据库技术得到了飞速的提升。日常生活中,社会生活的各个领域每分每秒在源源不断的产生大量的数据和信息,比如大量的文本数据。学术、工业研究、科技公司等领域都对文本数据有着极大的需求量,这些科技领域处理的文本往往篇幅较长,包含更多的信息量,这使得长文本管理成为研究者的热门话题。文本分类是文本管理的基础任务,在信息检索、信息过滤、情感分类等方面都有着重要的应用。文本分类是指在某一确定的分类体系之下,依据文本包含的具体信息对文本进行自动分类的过程。深度学习中的文本分类方法是通过建立高效的神经网络模型,准确提取文本语义特征并作出类别的判断。为了保证语义提取的完整性,传统的分类方法通常是将文本整体编码作为网络的输入,然后使用卷积神经网络或者循环神经网络进行训练,这种方法在句子和短文本分类中已经取得了良好的效果。对于长文档,整体编码会导致模型输入维度过大,模型对文本整体计算复杂度较高;并且由于篇幅较长,网络无法完整关联文本上下文信息,导致特征提取不够全面,模型分类准确率不高。针对这个问题,本文提出了一种基于全局特征提取的长文分类模型。该模型首先将长文随机拆分成不同的部分,使用卷积神经网络提取各个部分的局部特征,然后利用长短期记忆网络关联各部分特征,降低网络输入维度的同时,尽可能多的保留全文整体的细节信息用作分类。在实际研究中,整体编码对硬件设备要求较高,为进一步节约资源,提高网络的运算效率,人类会选择性的选取长文的一部分作为输入,而忽略其他内容,利用输入数据的局部文本作为分类依据,这就要求提取的局部文本包含长文的重要信息,并且要求网络能在输入信息量不完备的情况下准确构建文本特征表示。针对这个问题,本文提出了一种基于局部特征提取的长文分类模型。提出了一种改进的硬注意力算法准确定位出长文内包含重要信息的文本段落,以此作为特征提取模型的输入;建立层次特征提取模型,从单词到句子再到段落逐步提取文本特征;将软注意力机制,分别应用于单词、句子和段落层级,使其能够在构建文档特征表示时对各个层级的重要的内容进行区分。本文收集了两个论文数据集,经过实验表明,所提出的两个模型能够高效准确地区分方向相似的长文文献。
其他文献
在自动泊车系统中,有许多关键问题亟待解决,如何快速、准确地检测和定位车辆周围带有停车位标识线的空停车位便是其中之一。传统的基于视觉的停车位检测方法具有检测精度不高
博物馆在国民教育中扮演着重要的角色,它通过开展多种多样的教育活动,能够将博物馆中特殊资源的教育作用发挥的淋漓尽致。现阶段,制约我国博物馆长远发展的首要矛盾为,教育观
本文对图像复原中的正则项设计进行了研究,其核心思路为对图像先验进行分析和建模,主要内容可以分为两部分。在第一部分内容中,本文指出许多基于“分析”的正则项都利用了边缘稀疏作为图像先验。然而,在边缘区域和纹理区域,边缘稀疏并不存在。这就导致基于边缘稀疏的正则项在这些区域的性能并不理想。这些正则项在去噪的同时,也会有平滑图像中边缘和纹理的倾向。也就是说,它们保护边缘和纹理的能力十分有限。在本文的第一部分
随着物联网时代的到来,移动设备的开放性无法保证核心软件的安全,传统的软件保护技术也无法应对当下层出不穷的软件威胁。面对嵌入式软件安全问题,可信执行环境(TEE)作为一种
当今,随着经济的繁荣发展,人们的出行和社会活动日益频繁,在火车站、汽车站、地铁、商城、公园等公共场所中经常会出现人群拥挤的现象。人群拥挤一方面会给人们的出行和活动
民生问题一直以来都是我们国家党和政府所高度重视的一个核心问题,而其中,就业乃民生之本。十八大报告指出,为了改善民生问题,要推动实现更高质量的就业。作为政府公共服务体
机器人技术、控制理论、计算机控制等多个领域技术的综合体是倒立摆系统。它的自身特性和优势可作为一个典型的控制工程领域的被控制对象研究的缩影,且便于检验控制理论或方法的方案可实施性。倒立摆系统的相关研究成果广泛应用于机器人控制技术、电动平衡车研究、火箭发射中的垂直度控制、卫星飞行中的姿态控制和机械手等工业生产工程。因此,倒立摆系统的研究具有着重要的意义和不可预估的工程应用价值。针对工程领域非线性系统的
文物碎片的分类和拼接是破损文物虚拟修复过程中的核心,也是智慧博物馆数据展示的前提。兵马俑碎片具有体积小、碎片个体相似度大、表面信息缺失、断裂面磨损严重等特点,导致
多电平有源电力滤波器作为改善电能质量的重要装置,具备精确的电流检测能力,高效的动态补偿性能,传统多电平拓扑在应用场合具有控制复杂、功率器件多以及在容错方面需要增加
随着互联网的发展以及智能手机的普及,人们获取及接触到的图像数据越来越多,图像数据有一个显著特点就是维数很高。我们在得到极大便利的同时,也面临着如何有效分析和处理这些庞大数据的难题。图像聚类技术不断应用在高维图像数据中,它将相似性高的图像数据聚成一簇,相似性低的图像聚到不同簇。近年来,非负矩阵分解(NMF)被证明是一种高效的降维方法,它被广泛应用在计算机视觉,模式识别和信息检索中。然而,NMF实际上