融合HowNet的深度学习文本分类方法研究

来源 :辽宁大学 | 被引量 : 0次 | 上传用户:BELINDA_FEN
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技的不断进步和发展,产生了越来越多的文本数据,对于文本数据的处理已经是大势所趋。近年来,文本数据分类技术迅速发展,面对海量新闻数据和舆情数据等其他文本数据的增多,文本分类方法也在不断创新。然而不同的文本数据在结构上存在很大差异,并且海量文本数据中会存在丢失和语义不完整的情况。文本数据具有语义表达不清楚、维度较高、数据内容稀疏的特点。传统的文本分类方法往往从词频方向考虑,而不考虑语义方面,使得分类准确度不足。因此,对于不同情况的文本数据信息要用不同的文本分类方法,所以文本分类一直是自然语言处理领域研究的热点问题之一。针对目前方法存在的不足,本文提出了融合How Net的深度学习文本分类方法(Deep Learning Text Classification Method Based on How Net,DL-TC-HN),首先通过深度学习中带有注意力机制的双向LSTM神经网络进行语义上分类,再将特征词稀疏的文本送入到知识库进行扩充,并且通过基于How Net语义相似度计算方法进行拼接,结合主题模型,最终通过分类器进行分类。本文的主要研究工作如下:(1)防止文本数据的维度高、计算量大。本文使用基于How Net语义相似度计算算法对特征词向量进行相似度计算。将文本通过Bert模型进行预处理,在向量维度上进行计算,通过考虑特征向量的空间结构和语义结构增加相似度计算的准确率,并且使计算过程中不满足空间结构阈值条件的数据剔除,来减少运行时间提高计算效率。通过斯坦福推理语料库数据集,基于How Net语义相似度计算算法从效率和计算精度等方面与多种经典算法相比,证明了本方法的有效性。(2)针对传统的文本分类不考虑语义影响,本文提出了使用深度学习中带有注意力的双向LSTM模型,使文本数据在语义层次上得到充分提取。通过训练得到神经网络每一层的参数,最终得到更准确的文本语义特征词向量。针对文本数据稀疏,得到的特征词不够全面,引用CN-DBpedia知识库,通过知识库的三元组得到实体与实体之间的关系,扩充特征关系。通过知识库自带阈值确定最终满足条件的实体关系,达到扩充语义的目的。基于以上过程,最终将结果送入到带有BTM主题模型的分类器中进行文本分类。该过程有效避免了计算过程中产生的偏差和模型结构不完整带来的误差,使得最终分类结果更准确。通过四个数据集,基于深度学习的文本分类方法从效率和计算精度等方面与多种经典算法相比,证明了本方法的有效性。
其他文献
在月球探测器精确着陆导航任务中,传统的基于惯性测量的导航方法由于其固有的漂移和误差特性,无法满足精确着陆任务的精度要求。为提高月球探测器着陆精度,本文提出一种基于陨石坑匹配的地形相对导航方法。该方法是通过探测器拍摄图像中陨石坑信息与所存储的月表陨石坑信息匹配来达到导航目的的一种导航方法。可以解决基于惯性导航方法长时间运动导致的累计误差问题。本文研究基于陨石坑匹配的地形相对导航方法,主要研究内容如下
学位
近年来,随着互联网技术的飞速发展,网络中时刻都会产生大量的时空数据,时空数据为同时具有时间维度、空间维度及其他属性得数据类型。时空数据在供应链、电子商务、物流等领域中具有广泛的应用。因此,在实际中保证时空数据的安全存储以及快速查询具有重要的意义。目前时空数据的主要存储方式多为集中式存储和分布式存储,但仍然存在数据不透明、且易被篡改等问题,同时容易形成数据孤岛,无法进行有效的数据共享。保障时空数据的
学位
随着信息技术的发展,区块链技术的应用领域越来越广泛,如金融、政务、数字货币、教育等。特别是在金融领域,对海量金融数据进行分类存储并找出具有重大潜在价值的事件,在推动信息技术融合、促进数字经济健康发展等方面具有广泛而深远的意义。金融时序数据具有规模大、场景复杂、类型多、易篡改、溯源困难等特征。因此,近些年,通过区块链技术对金融数据进行高效的存储和溯源引起了学术界的广泛研讨,也成为领域研究的重点和难点
学位
知识图谱嵌入任务由简单的翻译模型发展到如今基于各种复杂的神经网络方法,在模型性能大幅提高的同时,模型的参数也越来越多。以现如今性能最好的图神经网络模型为例,其训练的时间、占用的空间资源要数十倍于最经典的TransE翻译模型。对当前复杂的知识图谱嵌入模型进行优化,加快模型训练速度,减少模型占用显存,目前已经在知识图谱领域成为了一个新的热点问题。针对图神经网络预训练速度较慢,占用显存较高等问题,本文提
学位
数据增强作为自然语言处理任务中常用的技术一直受到了广泛的关注,尤其对于机器翻译这种需要大量训练数据的任务来说尤为重要。对于机器翻译领域中数据增强技术来说主要有两种方法,一种是反向翻译,另一种是词替换的方法,但由于词替换的方法所需资源更少,方法更为简单的特点,在某些低资源场景下相对来说更为合适。然而当前基于词替换的数据增强方法依旧存在一些不足之处:整体平均替换率较低,以及词与词之间相互独立进行替换而
学位
当今人工智能技术已经在社会生活的方方面面发挥着重要作用,但是现有的人工智能技术仍与人类的推理能力存在着很大的差距,而事件关系推理这一任务,通过让机器学习事件间隐含的逻辑关系,提高机器的认知能力,继而服务于下游任务。而如何让机器更好地学习到事件间隐含的关系,就是一项重要的课题。本研究通过引入外部事理常识知识,并结合事件联合推理技术实现时序和子事件关系推理。本研究首先探索了外部事理知识增强的时序关系推
学位
自然场景中的文本识别已经成为计算机视觉和模式识别领域的活跃研究领域。完整的识别过程包含场景文本检测和场景文本识别,即从图片中检测出文本实例,再用识别网络识别,本文只研究识别过程。本文以自然场景中低质量文本图像作为研究对象,针对不同的低质量文本图像,分别提出了三个模型来解决对应的问题。基于超分辨模块的场景文本识别模型。考虑到光学退化、拍摄时的抖动等原因,导致了字符形状的模糊,产生了低分辨率的文本图像
学位
超分辨率是计算机视觉中的一种经典技术。超分辨率技术指低分辨率的图像或者图像序列通过一系列方法,恢复出高分辨率图像。在很多领域例如监控、数字高清和医学影像等领域有很广泛的应用。超分辨率技术分为两种:单幅图像的超分辨率(SISR)和多帧视频/多图的超分辨率(Multi-frame Super Resolution)。SISR是一个逆问题,在重建高分辨率图像时,需要通过一个先验信息进行规范化约束。在以往
学位
无线Mesh网络(Wireless Mesh Network,WMN)是一种多跳网络,具有组网灵活、网络覆盖率高等特点。信道分配与路由协议的优化,均能提高网络性能,是WMN中两个至关重要的研究内容。在多接口多信道无线Mesh网络中,节点接口数量和信道数量通常是不等的,因此本文将解决在满足网络连通的情况下实现负载均衡,同时考虑信道切换过于频繁导致网络效率和吞吐量的下降问题。路由协议方面,由于传统路由
学位
现如今,各个领域中的传感器、信号捕捉器等每时每刻都在捕捉时间序列数据,时间序列数据呈爆炸式增长。随着数据量的不断增长,时序数据库应运而生。在时序数据库中,数据压缩是其中最重要的组件之一,直接关系到存储和查询的效率。然而现有的时序数据库压缩算法面临着很多问题,比如在压缩数据的压缩比上表现不够好,不能适应大规模数据存储需求;数据压缩方案的灵活性差,不能一直保持良好的压缩比,不同领域的数据和不同数据模式
学位