面向学术图谱文本的任务数据语义知识标注方法研究

来源 :南昌大学 | 被引量 : 0次 | 上传用户:ynl007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
任务数据语义知识是任务驱动的遥感数据检索的基础,其由时间、空间、任务、遥感数据产品、方法与效果实体六个元素组成。学术图谱的文本中含有丰富多样的任务数据语义知识,对其进行标注是从文本中自动化获取任务数据语义知识的前提。因此如何设计面向学术图谱的任务数据语义知识文本的标记语言、制定其标注规范以及提高标注速率对获取大规模任务数据语义知识具有重要意义。本文以学术图谱中的文本作为数据源,构建了任务数据语义知识六种实体的本体模型,设计了任务数据语义知识文本标记语言,建立了任务数据语义知识文本标注规范,并利用深度主动学习的方法设计了半自动化标注算法,实现了任务数据语义知识的快速标注。本文的主要工作包括以下三个部分:(1)任务数据语义知识文本标记语言设计本文参考遥感领域相关知识,构建了任务数据语义知识组成实体的本体框架,通过对学术图谱文本结构与任务数据语义知识描述特征的分析,设计了任务数据语义知识文本标记语言。(2)任务数据语义知识文本标注规范针对任务数据语义知识文本描述多样、实体表达不一致的问题,根据任务数据语义知识命名实体的文本表达特征,对任务数据语义知识中组成实体制定了标注规范,形成了比较完整的标注体系。(3)基于深度主动学习的任务数据语义知识文本半自动化标注针对人工标注效率低的问题,本文利用深度主动学习的方法对任务数据语义知识文本进行半自动化标注。首先通过样本选择策略选择样本,然后利用BERT-NER模型进行标注,人工审核后将数据扩充到训练集中再次选择样本并再次标注,直到模型达到预期效果。最后实验验证了该方法的有效性。
其他文献
当前互联网用户快速增长,社交媒体已成为人们信息分享与信息获取的重要平台,从社交媒体平台中提取反应现实生活极具价值的热点事件,构建逻辑连贯的故事脉络,有助于我们迅速掌握舆论焦点,捋清事件的发展脉络和趋势。现有无监督事件探测方法大多数只是利用词频或者词共现特征,没有利用文本的语义特征,本文基于大规模社交网络数据生成Word2Vec模型获取文本语义特征,并提出融合文本语义和共现关系的Text-Graph
学位
近距离属性成像提供生物组织吸收率与散射率信息,广泛应用于皮肤病临床诊断、消化道早癌原位筛查和果蔬病害检测等领域。经典光学属性反演方法假定的光源为平行入射光,而近距离宽场结构光照明不满足该情形。本文基于朗伯体漫反射模型,引入目标表面形貌信息可提高光学属性反演精度。基于上述思路,研究基于三维形貌矫正的属性参数估计算法、系统搭建和单次曝光快速成像方法。首先,为了同时测量两种信息,设计了一套基于结构光的三
学位
随着6G通信感知一体化的深入研究及LED照明产业的蓬勃发展,以LED作为照明源和信号发射机的可见光通信(VLC)技术颇具应用前景。多色照明LED通过波分复用能提升传输速率,实现正常照明和高速通信的复用。本文选取多种照明参数对多色CSK调制星座点进行建模优化,并设计了通信照明一体化的多色VLC系统,旨在高速通信时能满足照明需求,主要研究内容如下:1、首先对LED照明混光方法及多色VLC调制技术进行综
学位
说话人识别是指利用说话人的语音特征识别说话人的身份。说话人识别可以广泛应用于司法鉴定、智能语音助手等领域,一直是语音信号处理方面的一个研究热点。本文提出了基于独立向量分析和并行卷积神经网络的语音特征融合算法来实现说话人识别。论文的主要研究工作如下:1.提出了一种基于独立向量分析的语音特征融合算法。首先,分别提取说话人的语音信号的时域特征和频域特征,将该说话人的时域特征和频域特征分别构成时域特征矩阵
学位
在当今社会中,5G技术以其高速率、低时延和大连接的特点成为了近几年来通信领域的新宠儿,但是从4G到5G的转换过程并不像前几代通信技术那样顺利。由于更新通信设备的高昂成本以及5G技术发展的一些限制,诞生了非独立组网的一些特殊的网络架构。随着通信技术的升级换代,通信安全也面临着更大的挑战。对于一些通信安防技术而言,获取终端的身份信息是必不可少的一个环节。因此,本文提出了一种5G非独立组网Option
学位
数字调幅广播(DRM)外辐射源雷达由于采用了第三方信号作为探测源,在实现目标探测时需要首先解决参考信号的提取问题。针对这一问题,为了使参考信号提取方法更简单高效、进而为该体制雷达信号处理提供一种新颖的智能化手段,本文利用深度神经网络强大的数据特征学习能力,研究基于学习DRM外辐射源雷达参考通道回波数据特征的参考信号提取方法。具体研究内容如下:(1)基于参考通道回波数据存在时间相关性特征,研究了两种
学位
随着数码相机、手机等成像设备的快速发展,数字图像已经成为传递信息的重要载体。然而伴随着图像编辑软件功能性和易用性的增强,篡改者可以轻松制作篡改图像,给司法取证、商业宣传、荣誉保护、新闻甄别等领域带来巨大担忧,因此篡改图像的取证研究具有非常重要的现实意义和应用价值。本文研究的是常见的篡改操作之一的拼接篡改。现阶段关于拼接篡改检测的研究方法主要分为基于手工提取特征的传统检测方法和基于深度学习的检测方法
学位
虚拟手术作为虚拟现实技术在临床医学中的一项典型应用,能够建立集视觉、触觉、听觉等多感知于一体的手术训练场景,对于转变传统医疗培训模式、提高医务人员业务水平具有重要价值。缝合是外科医生最需要训练的操作之一,也是虚拟手术环节中的重点与难点。然而,现有的虚拟手术缝合仿真系统难以准确表现出缝合线弯曲、扭转等结构特点,并且难以获得逼真的缝合交互效果,例如缝合线与软组织之间发生的缝合形变效果。为了解决上述问题
学位
复合量子系统通过不同的方式将两个或多个物理系统耦合在一起,同时利用各个子系统的优势,为探究系统物理特性或发现新的量子物理现象提供了平台。其中,复合自旋系统因其良好的集成性和操控性,可作为量子比特存储或操控量子信息,在量子信息处理方面有着重要的应用价值。金刚石氮空位中心(NV色心)在极大的温度范围内甚至是室温下都具有很长的相干时间,是实现量子计算和量子存储的优良载体。金刚石NV色心耦合的复合量子系统
学位
花木兰作为中国“巾帼英雄”的典型形象,得到了全世界人民的不同解读。本文以迪士尼电影《花木兰》为例,以文化差异角度、语言因素及心理因素角度来分析电影带来的跨文化传播障碍现象,并解释跨文化传播障碍的产生原因,最终得出相应的跨文化传播障碍应对策略。旨在引导文艺工作者及跨文化传播者培养正确的跨文化传播意识,将真正的中国好故事,传向青年、传向世界。
期刊