学术文本中的自动关键词技术研究

被引量 : 0次 | 上传用户:massmass
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息化及互联网的普及,用户获取信息及数据的方式已经从传统方法逐渐转向云端,一些领域的数据获取几乎完全依赖于在线数据库,其中最具代表性的是学术文本。截至目前,谷歌学术(Google Scholar)在线数据库已经收录了数亿篇学术文档。关键词(Keyphrase)是概括文本核心内容的重要标签的单词或短语,起到检索和引导阅读的功能。在大部分学术论文中,作者会提供自己标注的一组关键词。但是,仍有许多特殊的学术文本没有合适的关键词或仅有低质量的关键词,比如早期论文、科普类文章和科技新闻等。自动关键词技术使用计算机技术为这些文本标注高质量关键词,节约了人工二次标注所需的时间和人力成本,为学术数据库的信息检索提供了有效标签。自动关键词技术是用计算机技术从文本中自动提取一组代表性短语或单词作为关键词的技术,这一领域研究方向主要分为无监督的关键词抽取(Keyphrase Extraction)和有监督的序列到序列模型的关键词生成(Keyphrase Generation)。无监督的关键词抽模型小、结构简单且计算资源需求低,但无法获得原文中未出现的(缺席)关键词,而有监督的关键词生成模型计算资源需求高、模型参数多且训练数据量大,却可以生成缺席关键词且具有更好的准确率。在无监督的关键词抽取领域,基于图数据结构的模型受关注度较高,是当前无监督领域的主要研究方向。而关键词生成随着多样化的深度模型框架的发展,许多基于循环神经网络(Recurrent Neural Network,RNN)、生成式对抗网络(Generative Adversarial Networks,GAN)和Transformer等框架的模型被提出。本文提出了自动关键词技术仍存在三方面的问题,并给出了相应的优化解决方案。在无监督的关键词抽取领域,目前的模型普遍存在关键词重叠(Keyphrase Duplication)问题,即抽取的关键词频繁包含同一高分单词。对此,本文提出了一种基于三种特征融合的无监督关键词抽取模型来从建模角度缓解关键词重叠问题。另一方面,无监督抽取模型通常没有使用已抽取关键词之间的互信息(Mutual Information)。对此,本文提出了一种类自回归结构的优化器模型来优化当前模型的抽取结果,通过有效利用关键词之间的互信息来提高模型性能。在序列到序列模型的关键词生成领域,本文对缺席关键词特点进行了研究,提出了新的关键词分类和评估标准,对三种训练范式的性能和归纳偏置进行了经验性研究(Empirical Study)从而总结出了当前模型生成缺席关键词质量低的原因。结合对数据和模型的综合研究提出了一种可以高质量生成缺席关键词的联合模型。本研究在以下三方面有所贡献:1.提出了一种基于特征融合评分的无监督关键词抽取模型Triple Rank,它对关键词多样性、关键词覆盖度和位置信息三个特征分别建模评分并进行分级融合,能够有效降低关键词重叠问题。并且,它在推理过程中不进行图数据结构中的迭代,从而节约了推理时间。经过四个数据集并与基线模型进行对比,Triple Rank具有良好性能并可以缓解关键词重叠问题。2.提出了一种类自回归结构的无监督关键词抽取优化器C-Decay,它解决了关键词抽取过程中缺乏对已抽取关键词之间的互信息的利用的问题,可以大幅提高基于图数据结构的关键词抽取模型的性能。经过四个数据集和三个基线模型相结合的实验证明,C-Decay的优化效果明显。3.在统计的角度上探究了在学术文本数据集中的缺席关键词的特点,提出了一种新的缺席关键词的分类标准和评估方法,对三种广泛使用的训练范式进行了经验性研究。基于这些研究,发现了深度模型生成缺席关键词质量低的根本原因,并提出了一种可以生成高质量缺席关键词的联合模型。
其他文献
期刊
期刊
学位
报纸
期刊
TMG油田西土孜库区块位于哈萨克斯坦国南图尔盖盆地阿克赛凸起,白垩系地层不整合披覆于基底隆起之上。白垩系石英砾岩与基底变质泥板岩等多套不同性质的地层,阻碍了该区块的钻井提速。文章通过研究该区块岩性物理力学性质,分析常规PDC钻头失效机理,设计优选穿非均质砾岩夹层性能强,稳定性好,抗硬质基岩研磨能力强的三棱齿+HYPER圆锥齿个性化高效破岩PDC钻头。在西土孜库区块5口井应用,平均机械钻速13.87
期刊
为了探究金沙江中游支流栖息地状况,遴选重点保护修复对象,从河道物理生境参数、流域特征、污染风险参数3个层面选取14个指标,构建栖息地质量评价指标体系,借助ArcGIS、InVEST模型等工具进行指标计算,采用综合评价方法进行栖息地质量评价,并对评价结果进行实地踏查评估。结果显示,金沙江中游流域栖息地质量分层面来看,河道物理特征得分较高,而污染风险参数特征得分较低;栖息地质量综合评价得分范围为0.2
期刊
以碳达峰碳中和推动我国绿色发展,既是实现中华民族永续发展的内在要求,也是构建人类命运共同体的庄严承诺。但在迈向“双碳”目标的道路上,我国还面临任务重且时间紧、能源利用不甚合理、绿色低碳技术体系有待健全等一系列重大挑战。在路径选择上,碳减排是碳达峰、碳中和的主要路径,既要在能源的生产端加快推进智慧多元的新型能源体系建设,也要在能源的消费端加快推进绿色低碳的循环利用体系建设;“碳移除”则是实现碳中和目
期刊
水电梯级开发将改变河流水文情势和水环境,进而对鱼类带来不利影响。本文以金沙江攀枝花河段水电梯级开发为例,分析金沙、银江水电站建设对鱼类资源及重要生境的影响。研究结果表明,金沙、银江水电站建成后,将进一步加剧原有的阻隔影响,压迫鱼类的适宜生境,需采取梯级联合生态调度、生态流量保障、栖息地保护、增殖放流、过鱼设施等措施减缓不利影响。
会议
<正>广府办发〔2022〕29号各县(区)人民政府,市级各部门,广元经济技术开发区、市天然气综合利用工业园区、广元国际铁路港管委会:《广元市网络安全事件应急预案(试行)》已经市政府同意,现印发给你们,请结合实际认真贯彻落实。市委网信办印发的《广元市网络安全事件应急预案》(广委网办发〔2021〕2号)同时废止。
期刊