基于深度学习的领域术语抽取方法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:jianjiantao456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,科技期刊中存在大量学术论文领域术语缺失的问题,导致科研学者及相关从业人员无法准确定位领域前沿学术热点、溯源技术发展脉络,严重影响学术的传播与交流。领域术语的识别抽取可以看作是对文本的序列标注,目前,多数研究者均以类似命名实体识别的方法去研究,但由于领域标注样本的缺乏以及应用场景下数据的复杂性,传统模型的精准率、召回率均无法很好地满足期刊实际应用中对特定领域术语抽取的需求。因此,本文提出了一种基于语义特征与词性规则相结合的领域术语抽取模型。针对传统模型语义理解的局限性与抽取结果中边界误标问题,采用了融合全局特征与局部特征的语义特征获取方法,并通过词性组合规则校正识别结果,实现了特定领域术语的精准、全面抽取,提高了领域术语识别的效果,提升了科技期刊学术传播的精准度,缩短科研人员发现学术内容周期,促进学术交流,助力科技创新。本文的研究内容主要包括以下两个方面:(1)针对传统术语识别算法无法获取更深层次的语义理解与远程监督所形成语料质量不高以及漏标注问题,提出了基于BERT的领域术语识别模型。利用BERT提取文本隐形全局语义特征,获得丰富的含有上下文语义信息特征的字向量,对比传统算法提高了术语抽取的整体性能;基于语料质量与漏标问题,提出了融合领域术语词典的分词优化数据增强方法。通过已有部分领域术语词典的指导,提高了训练数据的质量,减少分词过程的误分、错分导致的术语漏标问题,从而使得模型学习到更多的领域特征,有效提高了模型的学习与识别效果。经过实验对比分析,优化后的模型整体性能提升近17%,验证了融合领域术语词典的有效性。(2)针对语料中冗余信息的干扰以及识别结果中误标与术语边界缺失问题,提出了基于局部特征的领域术语识别模型。通过引入卷积神经网络CNN,增加模型对局部重点特征的关注度,避免了过多不相关信息的干扰,提高了模型的召回率;增加基于统计的词性规则校正模块。通过分析领域术语内部词性的组合特征,采用术语词性组合规则对模型识别的结果进行校验与修正,提高了模型识别的准确率,经实验分析,模型准确率提升5%,证明了领域术语抽取中添加规则校正模块的有效性。综合分析本文所提出算法的实验结果,在遥感领域数据中,通过与Bi LSTM_CRF传统算法对比,验证了新算法的有效性。新算法在精准率、召回率与F1值都有了较大的提升,其中,精准率提升4.6%,F1值提升了20.6%,特别是召回率提升了26.2%。经验证,基于语义特征与词性规则相结合的领域术语抽取模型能够很好地满足期刊的实际应用要求,证明了本文所提出的算法是一种有效的领域术语抽取算法。本文提出的算法已经应用于“科技期刊增值服务”产品中,服务于100余家期刊社与数百万科研学者,助力期刊学术精准推送与传播。
其他文献
近年来,随着人工智能快速发展,深度学习技术已经在许多领域发挥出巨大的作用。目前TensorFlow框架作为最主流神经网络框架之一,根据实际应用或再训练场景的改变,部署神经网络模型需要重新构建和训练模型,并且部署过程十分耗时。为了解决这一问题,微软联合多家公司推出了开放神经网络交换格式(Open Neural Network Exchange,ONNX),采用统一的标准保存深度学习模型。将Tenso
学位
随着后摩尔时代的到来,在超大规模集成电路设计阶段验证已经逐渐成为困扰各大芯片设计人员的关键问题,虽然可以使用软件仿真、硬件加速仿真等验证方法来加速验证流程,但是随着集成电路设计规模逐渐增大,原先的验证方法在时间成本上已经无法满足当前快速设计迭代的需求,使用FPGA进行芯片设计原型验证已逐渐成为验证阶段主流。但随着设计的规模剧增,单片FPGA已无法满足超大型集成电路设计的验证需求,从而衍生出高密度F
学位
计算机技术发展催生的建筑信息模型(BIM)是建筑工程行业近年来最热门的发展方向,已在建筑设施的规划设计、建造运营等环节发挥重要作用。随着物联网技术的发展,主要采用C/S架构的传统BIM服务对客户端的硬件配置要求高,学习和使用成本高,难以应对新的需求,构建基于Web端的BIM展示系统成为BIM发展的新出路。然而,在Web端BIM数据加载缓慢且渲染帧率低下,是Web端BIM展示系统的瓶颈。本文聚焦于在
学位
随着党政机关的文印市场以及各种书刊出版市场的不断扩大,机关及企业部门对印刷品质量的精确度要求也在不断地提高。而在印刷品的生产过程中,受到生产条件的影响,印刷品经常会出现各种各样的问题:例如在电子文件的排版阶段,图像分辨率的调整从而造成的信息缺失;输出印刷机的印刷生产阶段的漏印,飞墨等,都有可能导致打印出来的文件与原始文件有一些或多或少的差异,这种差异会体现在图文版式,漏字错字等可能造成信息缺失和信
学位
随着互联网技术的发展,社交媒体平台已成为人们日常沟通交流、获取信息的重要渠道,由于网络的虚拟性与隐蔽性,一些非法用户借助于社交媒体平台发布和传播负面言论,其中不乏充斥着色情、赌博、暴恐等敏感信息,严重影响着正常用户的网络社交体验,也影响着社会的稳定和长治久安。敏感文本通常以短文本形式出现,这些文本特征稀疏、包含的可用信息少、语法句式多变。其次,为了规避自动化匹配检测,这类文本中的敏感词还经常以其音
学位
在信息世界中,很多数据都可以用序列的形式表示,而检测数据间的相似性一直是工程领域中一个重要的研究课题,所以如何计算两个或多个序列的相似性是极其有意义的。例如,在生物技术领域中,通过分析两个生物基因序列的相似性可以判断它们是否具有近亲关系;在图片搜索中,通过计算目标图片与搜索集中图片之间的相似性可以发现与目标最匹配的图片。然而,计算序列之间的相似性通常可以转化为求多个序列的最长公共子序列(MLCS)
学位
随着现代IC设计的规模越来越大,EDA工具的运行时间也越来越长,设计者不得不牺牲精度以换取速度,但是过低的精度会导致不必要的优化,因此通常需要在结果的精度和运行时间上做折衷。在时序分析当中同样也存在这种折衷。基于图的时序分析方法GBA(Graph-Based Timing Analysis)速度快,但精度低,而基于路径的时序分析方法PBA(Path-Based Timing Analysis)精度
学位
第三代半导体GaN因自身优异性能成为近些年研究热点,本文针对耗尽型GaN HEMT器件制备工艺中欧姆接触和栅槽SiN刻蚀工艺进行了实验优化研究,主要工作内容如下:(1)实验优化了GaN HEMT器件欧姆接触退火工艺中N2气体流量和退火温度梯度。研究发现,欧姆接触金属表面粗糙度与N2流量成正比,N2流量200 sccm更适合器件制备。同时,退火工艺中升温速率100℃/15 s更有利于形成低阻欧姆接触
学位
互联网社交平台已经成为人们进行沟通交流和信息传递的最主要渠道,每时每刻都会产生、传播海量的社交数据。如何更好地使用从这些社交文本数据中挖掘出有用的信息,从而辅助网络舆情监控、电子数据取证等重要的社会管理工作,逐渐成为自然语言处理领域的研究重点。命名实体识别是自然语言处理的重要研究方向,其识别效果将直接影响到下游信息抽取等任务。因此,对中文社交文本进行命名实体识别具有重要意义。在中文社交文本的命名实
学位
随着人脸识别行业的快速发展,人脸识别安全问题日益凸显,在人脸识别系统中收集及其处理得到的人脸图像泄露问题尤为突出。人脸图像泄露原因多种多样,涉及网络攻击、系统漏洞、内鬼窃取等多方面,人脸图像泄露难以避免。因此,对泄露的人脸图像进行溯源十分必要,不仅可以帮助公安机关取证,还可以帮助企业及时采取补救措施,降低人脸图像泄露对用户的影响。目前,数字水印技术是图像溯源的主流技术,相比于区块链等溯源技术,数字
学位