基于BERT的学术论文分类研究

来源 :中国石油大学(北京) | 被引量 : 0次 | 上传用户:liupingxiu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
学术论文由于其学术性、专业性和创造性,因此使用关键词检索做不到真正细粒度的区分,并且不同论文间的侧重点也并不相同,如何快速、准确地获取相应研究领域内最有价值的论文是一个十分重要的问题,因此针对学术论文的细粒度文本分类研究就显得十分有价值。文本分类方法一直是自然语言处理领域的重要研究内容,它是文本数据挖掘和文本信息检索等领域的基础任务。文本分类方法通过设计精巧的模型,让模型在学习海量复杂的文本数据后,能够充分理解文本的复杂含义,最后根据任务需求进行文本分类整理,从而做到让计算机能够代替人来对文本进行分类。文本分类任务根据任务需求不同,可分为文本主题分类和文本结构分类。目前,针对短文本的文本分类相关理论及技术已经较为成熟,但长文本由于句子长度较长、上下文相关性强,针对短文本分类的传统文本分类算法已经不能有效的对长文本进行分类。本文的主要研究内容是设计了一种基于双向编码的语义表示模型(BERT)的学术论文分类模型并对BERT模型的架构及编码方式进行修改。BERT模型因其庞大的参数量以及复杂的模型结构都严重限制了模型的计算效率和应用场景,且只使用BERT模型进行文本分类不能满足所有任务需求。本文在对BERT模型进行了细致的研究后,针对BERT模型进行文本分类任务提出了改进优化方法。本文的主要研究内容如下:首先根据BERT模型更为强大的特征表示能力,基于BERT与CRF(条件随机场)模型搭建了主题提取模块,代替传统的Bi LSTM(长短时记忆网络)-CRF模型进行主题提取;接着根据双向门控神经网络模型(Bi GRU)能够考虑上下文语义特征的特点,使用Bi GRU模型作为分类器,取代BERT模型根据softmax层进行分类的方法;之后根据学术论文数据集特点及任务需求,设计了文本长度的处理方法。最后为了提高模型保留位置信息的能力和模型性能效率,对模型进行编码方式修改以及在模型中引入知识蒸馏等优化方法。本文经过实验验证,证明了本文设计的基于BERT预训练模型的文本分类模型,对于学术论文起到了良好的分类效果。
其他文献
新冠疫情在全球爆发,公司和员工急需开阔视野,从全球智慧中寻找管理和应对良策。《经济学人》杂志在全球200多个国家发行,发行量逆行业下滑趋势而上,深受各国政商人士喜爱。此次翻译项目选取《经济学人》Bartleby商业专栏中的16篇文章,其属于英文企业管理软新闻类文本,共计12029词。一方面可为国内公司管理者和职员提供全球智慧,另一方面让译者欣赏到原英文作者亲和、凝练、幽默、深刻的文笔风格,提升自身
学位
本文为英汉翻译实践报告,源文本摘自朱莉·米歇尔·克林格所著《稀土寻踪:从地球至月球》一书中的第二章节,主要内容是从全球史观看中国稀土的发现、生产及应用。所选文本特点鲜明,涉及复杂长句及诸多被动语态。此外,原文理解有难度,而意识形态的干扰也给翻译实践带来了挑战。笔者在翻译过程中综合运用了谷歌、必应、YICAT、术语在线、CNKI翻译助手、Word Smith Tools、CLAWS4等辅助工具,以提
学位
由于地下介质的非完全弹性特征,地震子波沿着传播方向会发生振幅和相位的变化,导致了地震记录的能量衰减、相位畸变和高频成分缺失。而品质因子Q作为表征地层吸收衰减的主要参数,提取准确的Q值具有重要意义。由于地震波从激发点到接收点的振幅和相位变化通常由与子波干涉和固有衰减两者相互耦合决定,现有的高分辨处理方法普遍忽略了这种耦合效应,导致从地震资料中估算的Q值是两者的综合响应,进而降低了地震高分辨率处理的精
学位
地震反演技术在地震勘探中占有举足轻重的地位。然而受限于地震数据的质量、正演物理模型的精度、地震子波未知等问题,传统的反演方法存在一定的不适定性。近年来,随着计算能力及深度学习算法的发展,越来越多的深度学习方法被应用在地球物理勘探领域,并体现出卓越的应用潜力。基于此,本文旨在结合传统反演方法与深度学习的优势,尝试解决传统地震反演方法中存在的问题。基于经典的自编码器这一网络架构,以双向门控循环神经网络
学位
由于随钻核磁共振测井仪器井下带宽有限、传输速率较慢,测井数据实时上传面临诸多挑战。基于以上问题,本文设计了适用于井下仪器的压缩解压缩算法,大大提升了数据传输效率,为随钻测井数据实时传输难题的解决提供了有效的方法。本文设计的数据压缩算法分为离散余弦变换模块,量化模块,扫描模块和熵编码模块;采用行列式分解的方法实现了适用于硬件实现的离散余弦变换运算,并利用流水线的设计思想保证了数据的实时传输,在扫描模
学位
过套管地层电阻率测井是一种高效实用的测量方法,可以提高原油的开采和探测技术,指导油田进一步调整和开发。本论文使用有限体积数值模拟方法来分析求解套管井及其周围地层电阻率,该方法的优点在于在全部目标区域内的离散方程存在积分守恒性,物理概念清晰。本论文对于有限体积方法中网格剖分、物理量的离散化和大型稀疏线性方程组的求解原理进行了详细介绍,其中对于大型稀疏矩阵采用Pardiso算法求解,该求解方法是在基于
学位
近年来,反射声波测井已越来越多地应用于探测远离井眼的地质构造。它主要利用阵列声波中的反射波相关信息,这极大地扩展了井孔声学的测量范围,其有效的探测距离可以达到十几米甚至几十米。传统的远探测声波测井主要采用频率较高的单极声源,随着理论和实践的加深,频率较低(2-5k Hz)的偶极声源开始广泛被使用。相比单极子,偶极声源的探测距离更远,同时具有一定的方位识别能力。本论文在结合国内外远探测相关研究的基础
学位
天然气水合物是一种清洁能源,在全球分布广泛,且储量巨大,有潜力成为未来主要使用的能源。通常利用BSR(Bottom Simulating Reflector,似海底反射界面)指示含水合物储层,但是水合物特性复杂,仅利用BSR识别水合物具有很大的不确定性,已有研究表明含水合物地层具有显著的速度频散和衰减特征,从而改变地震反射振幅,所以开展含水合物储层的岩石物理建模和频变AVO(Amplitude V
学位
移动边缘计算(Mobile Edge Computing,MEC)技术凭借其杰出的性能被广泛的应用于处理深度神经网络(Deep Neural Network,DNN)任务。本文结合了DNN任务的特性,设计了基于MEC的DNN任务拆分与卸载机制。该机制由单个服务器和多个移动设备组成,并且服务器端和移动设备均部署了训练好的DNN模型。首先,本文提出了以层为单位的DNN任务拆分策略,将移动设备的一个DN
学位
本翻译实践报告选自科技论文A Critical Review on the Production and Application of Graphene and Graphene-based Materials in Anti-corrosion Coatings中部分内容。原文讲述的是石墨烯和石墨烯基材料在防腐涂料中的生产和应用,涉及材料、化学、物理等交叉领域。所选文本系典型的科技类文本,用词严
学位