论文部分内容阅读
随着大数据时代的到来,科学研究的模式和方法也在不断创新和发展,数据驱动开始成为科研领域重要的研究范式。科技文献作为科研成果发布的重要形式,海量的信息、数据、知识隐藏于科技文献中,面对从大量科技文献中发现有用的信息、知识和数据的挑战,迫切需要自动化的工具和方法帮助人们从文献中快速、准确的获取真正需要的信息;同时,随着众多学科领域综合集成研究方法的应用,基于大量文献中数据和数值信息的综合集成研究不断深入。在地学领域,综合集成研究的开展愈演愈烈,急需一种方法将分散的数值信息自动化抽取出来,支持基于大量数值集成综合分析的科研活动。
本文首先对数值信息抽取的概念进行了界定,同时对国内外数值信息抽取研究现状进行了归纳总结,从国内外学者相关研究、数值信息抽取技术应用、现有数值信息抽取框架、数值信息抽取研究面临的挑战等方面进行了总结和分析,对基于规则和基于神经网络的抽取方法的应用进行了大致的描述。
本文调研了地学领域数值信息类型,并选择以沙漠学领域科技文献中的数值信息为目标,探索可以延伸到整个地学领域数值信息抽取的方法。在本研究中,主要针对沙漠学文献中研究区域中的空间信息和地质年代类数值信息作为抽取对象,这两类数值信息涵盖了地学领域众多分支学科中空间和时间信息的表达方式。在对象选择时,进行了大量的文献调研,对沙漠学时间和空间信息的表达规律和重要词表信息进行了归纳总结。
在抽取方法研究中,尝试了基于规则的空间数值信息抽取和基于神经网络BiLSTM-CRF和BERT-BiLSTM-CRF模型的方法,其中,基于规则的沙漠学研究区域空间信息抽取的F值为0.60,而基于BiLSTM-CRF神经网络模型的时间信息地质年代抽取的平均F值为0.53,基于BERT-BiLSTM-CRF神经网络模型的时间信息地质年代抽取的平均F值为0.59。从实验结果来看,BERT-BiLSTM-CRF模型效果较好,地学领域数值信息抽取还存在一定的难度,在召回率和精准率上仍有改进的空间。
本文首先对数值信息抽取的概念进行了界定,同时对国内外数值信息抽取研究现状进行了归纳总结,从国内外学者相关研究、数值信息抽取技术应用、现有数值信息抽取框架、数值信息抽取研究面临的挑战等方面进行了总结和分析,对基于规则和基于神经网络的抽取方法的应用进行了大致的描述。
本文调研了地学领域数值信息类型,并选择以沙漠学领域科技文献中的数值信息为目标,探索可以延伸到整个地学领域数值信息抽取的方法。在本研究中,主要针对沙漠学文献中研究区域中的空间信息和地质年代类数值信息作为抽取对象,这两类数值信息涵盖了地学领域众多分支学科中空间和时间信息的表达方式。在对象选择时,进行了大量的文献调研,对沙漠学时间和空间信息的表达规律和重要词表信息进行了归纳总结。
在抽取方法研究中,尝试了基于规则的空间数值信息抽取和基于神经网络BiLSTM-CRF和BERT-BiLSTM-CRF模型的方法,其中,基于规则的沙漠学研究区域空间信息抽取的F值为0.60,而基于BiLSTM-CRF神经网络模型的时间信息地质年代抽取的平均F值为0.53,基于BERT-BiLSTM-CRF神经网络模型的时间信息地质年代抽取的平均F值为0.59。从实验结果来看,BERT-BiLSTM-CRF模型效果较好,地学领域数值信息抽取还存在一定的难度,在召回率和精准率上仍有改进的空间。