基于文本内容融合及深度学习的科技期刊网页信息提取方法的研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:jpy_2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
科技期刊是专业出版自然科学技术的期刊。科技期刊的信息抽取与收集是构建学术服务平台、深入开发利用知识资源的基础和大规模整合知识信息资源、提高整体资源综合利用价值和附加价值的有效途径。由于期刊覆盖的领域很广,网页设计也极为复杂,大部分论文网页都经DIV+CSS等Web技术进行渲染,很难大批量地直接从期刊网页中提取出期刊论文的信息数据。因此,如何大规模地自动识别并准确提取所需粒度的论文网页数据是本文的主要研究内容。传统的网页抽取技术主要基于DOM树结构,并且提取到的网页数据信息粒度很粗,不能对科技期刊这种结构复杂并对数据有特定需求的网页进行有效提取。近年来,不少学者将自然语言处理模型运用到网页信息提取当中,并在简单网页中获得一定的提取效果。但是随着新生网页技术的运用和网页复杂度的增加,自然语言处理(NLP)的应用逐渐变得不那么得心应手,原因主要是:(1)NLP处理对于结构复杂网页的分块操作要求比较苛刻,传统的网页分割技术无法获取到NLP模型所需要的输入数据粒度,严重影响了 NLP的识别效果;(2)目前在网页提取技术中运用的NLP模型多为简单的文本分类模型,在面对语法结构相同但语义不同的数据时难以准确分类,比如科技期刊论文网页中的参考文献和相似文献。本文以对信息粒度有明确需求的科技期刊网页作为研究对象,提出了一种可控粒度的基于文本内容融合和深度学习的期刊网页信息的提取方法。该方法分两个阶段:第一阶段:针对传统网页分块算法无法根据语义对科技期刊论文网页进行细粒度分块的问题,提出了基于文本内容融合的网页分块算法。首先根据论文网页中相同类别信息之间的强关联性,定义一系列启发式规则和文本间相似度的计算方法。然后将浏览器渲染之后的网页进行解析并重构DOM树,并获取网页元文本和元文本在网页上所对应的元文本属性信息。根据这些信息和定义的启发式规则,将相似的元文本进行融合,从而达到信息聚合和对页面进行分块的效果,并得到所需粒度的文本信息块。实验证明,该算法在不同数据集上的分块准确率均比VIPS高出很多。第二阶段:针对现有的文本分类模型对不同语境下的相似或相同的文本无法区分的问题,提出了一种新的基于深度学习的网页信息分类模型。新模型使用BERT将第一阶段获取的文本信息块包含的文本进行更具有长远意义的表达,并选取更有效地特征进行量化和特征增强,然后通过双向长短时记忆神经网络(Bi-directional Long Short Term Memory,BiLSTM)学习页面级的上下文关系,从而实现准确分类,最终实现对网页信息的提取。最后,实验显示新模型在各数据集上的F1值均在92%以上,最高达到了 98%以上,比其他基线模型都要高,同时在混合数据集上的F1值也远高于其他基线模型。
其他文献
在传统舌诊的过程中,诊断结果容易受到医师经验的影响,并且还存在着交叉感染的风险。为此,本文设计了一种基于FPGA的智能舌诊系统,该系统将传统舌诊与现代图像处理技术相结合,通过摄像头采集舌体图像,并由FPGA上实现的算法处理模块对舌体的颜色特征以及性状特征进行识别,并将诊断结果显示在显示屏上。凭借着FPGA高度并行化运算的优势,大大提高了系统的运行速度,并且该系统能耗更低、体积更小,更加便于系统的部
学位
随着卷积神经网络的发展,深度学习方法被广泛应用于医学影像分析和处理任务中。这些深度模型往往具有庞大的参数规模,普通医院与诊所难以配备相匹配的高性能显卡,使得在学术界中性能优异的深度学习模型难以部署到医院的设备上,无法为医生提供实时高效的辅助诊断结果。因此,如何在保证模型性能的前提下尽可能压缩模型,成为近些年深度学习领域关注的热点问题。结构化剪枝作为一种主流的模型压缩方法,因其压缩得到的模型有结构稀
学位
随着国民经济的不断增长,中国机动车保有量逐年提升。交通参与车辆的增多,导致交通事故频发、交通拥堵率提高,带来了环境污染、能源浪费等诸多问题。为解决此类问题,智能交通网联化的研究成为了近几年来的研究热点。实现智能汽车网联化的主要方式,是车载嵌入式固件通过自身通讯模组与平台或其他车辆进行通信,通讯模组可以通过4/5G或V2X等通信手段实现与外界的交互。V2X作为车辆间专用的短程快速通信手段,其效率与可
学位
表面缺陷检测是指对物体图像中的表面缺陷进行检测与定位,能够辅助剔除工业生产过程中的残次品,对于工业产品质量监控有着至关重要的作用。表面缺陷检测算法通常需要在无任何缺陷先验信息的情况下,对真实世界中的缺陷样本进行检测,但这会导致算法在缺陷区域的重建误差小,对缺陷区域定位效果差以及在实际应用中由于模型参数量庞大检测速度慢等问题。为解决以上问题,本文提出基于自监督学习范式的基于缺陷修正的表面缺陷检测算法
学位
在质量分布不均匀的情况下,电机转子的旋转将在旋转轴上施加一个交变的离心力,会加速转轴的磨损导致机器使用寿命缩短,并产生噪音、振动等现象恶化工作环境。因此,研究转子不平衡问题并找到合适的解决方法具有重要意义。目前,国内的动平衡机基本都是针对中大型转子,并且大多采用去重的方法进行动平衡;少数针对小型转子的平衡机也都是采用测试与校正分离的方法,精度低、效率低,无法满足中小型企业的需求。因此,急需研发一款
学位
随着科学技术的发展以及自动化程度的不断提高,仪器仪表行业也迎来了飞速发展的黄金时期,各种新型仪器研制成功,仪器的功能也日益丰富。然而,仪器行业发展的同时也给人们的使用增加了一些困难,人们需要了解更多的功能特性并从中选取适合相应场景的仪器。在人工智能与深度学习技术蓬勃发展的背景下,问答系统逐渐成为自然语言理解领域最热门的研究方向之一,将问答系统与仪器领域相结合从而提高人机交互效率成为发展趋势。然而目
学位
随着现代社会无线通信技术的飞速发展,电磁频谱资源如何高效的进行数字模块监测和处理越发重要,无论在军用还是民用领域频谱资源监测和处理都是不可或缺。专用模块的频谱处理实现方式而言,无论采用计算机、通用频谱芯片、FPGA内嵌算法模块都会存在功耗、速度、精度、资源利用率等问题。为了实现智能网络集成系统的实时性、小型化的研发要求,本文基于频谱感知平台,提出一种频谱处理模块的ASIC芯片解决方案。本文设计并实
学位
随着无人机智能化技术的不断发展,无人机以其高智能性、成本低、适应能力强、易操作等特点受到越来越多的关注。在一些应用环境中,利用无人机的高机动性和部署方便等优点,将微型基站搭载在无人机上作为临时信号收发系统,可以对信号缺失的地面目标提供通信支援服务。但是由于单架无人机覆盖范围和功率有限,需要通过多无人机协同覆盖的方式,来提供对较大范围内更多用户的实时通信支持服务。本文研究利用多无人机协同覆盖对地面未
学位
在过去几年,游戏行业在国内迅速发展壮大,中国已经是世界上最大的游戏市场。随着游戏用户规模增长速度放缓,游戏人口红利趋于饱和,我国的游戏市场正由增量市场逐步向存量市场过渡。国内游戏存量市场竞争越来越激烈,在游戏日常运营中,相同化、粗粒度、全覆盖的传统运营策略无法实现对不同类型玩家的精准营销,导致玩家流失。游戏开发商需要结合海量玩家游戏日志,敏锐分析用户需求,提出不同的玩家滞留策略,进而实现对不同玩家
学位
近年来,我国周边区域争端不断,而制信息权在作战中有着极为重要的地位,为保证作战中的信息优势,迫切地需要在获取战场态势时更加隐蔽、高效、准确。多站无源定位作用距离远、定位精度高、定位速度快、隐蔽性强,因此得到了广泛的应用。现今的电磁环境中,往往存在大量辐射源,无源定位系统要实现高精度的时差定位,首先需要对接收到的多个辐射源信号相互交错的脉冲序列进行分选与配对。本文针对多站无源时差定位系统,重点研究了
学位