基于Senna-BiLSTM-CRF的测井实体抽取方法研究

来源 :计算机技术与发展 | 被引量 : 0次 | 上传用户:zhiyin1976
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
实体抽取是构建知识图谱极为重要的过程,实体抽取的质量将直接决定构建的知识图谱的质量.为了更好地构建测井领域知识图谱,该文对测井命名实体抽取的方法进行研究.针对在测井领域知识图谱构建过程中尚无公开数据集可用的情况,收集了部分测井领域相关的非结构化文本数据,并对其中的测井实体进行人工标注,构建了测井领域知识图谱命名实体抽取数据集.基于该数据集,提出使用Senna词向量-BiLSTM-CRF的方法对测井非结构文本数据中的命名实体进行抽取,降低数据标注的难度,提高训练效率.实验结果表明使用Senna词向量-BiLSTM-CRF的方法能够比较有效地完成对测井领域实体抽取的任务,该方法在构建的测井命名实体抽取数据集上的准确率达到了84.87%,召回率达到了81.62%,F1值达到了83.22%,优于对比的BiLSTM-CRF和词向量-BiLSTM-CRF.
其他文献
针对部分图像加密算法与明文无关,安全性差以及加密效率低的问题,设计一种基于分段线性混沌映射且与明文关联的图像加密算法.首先,将初始值和参数作为密钥,迭代分段线性混沌映射,产生混沌序列;其次,利用产生的混沌序列设计一个混沌密码发生器,产生与明文图像大小相同的4个随机矩阵,记作X、Y、R和W,运用X矩阵对明文做前向扩散,得到矩阵A,再运用R和W矩阵设计一种与明文关联的置乱方法对矩阵A进行置乱得到矩阵B,在置乱的过程中还进行了循环移位操作使加密效果更好;最后运用Y矩阵对矩阵B做后向扩散,得到呈现噪声样式和不再具
科技资源服务是云计算环境下数据服务领域的重要业务之一.但是,由于科技资源归属单位不同,条块分割,实现跨平台服务与共享存在很大障碍.为了解决资源空间分散、业务并发等问题,需要构建基于分布式虚拟化存储技术的科技资源服务业务虚拟化资源池,统一管理资源并提供可靠的数据访问和交互功能.针对这一应用背景,基于云计算理论,在软硬件虚拟化技术的基础上,该文提出了一种分布式虚拟化科技服务资源池多层次模型架构,该模型将资源池应用、汇聚、虚拟和物理层进行了统一描述;在此基础上,利用Pi演算这一描述移动并发系统的数学工具,对所构
随着气象业务技术体制的调整,对气象数据中心的连续稳定运行提出了更高要求,利用虚拟化、分布式、数据备份、业务容灾等多种先进技术,提高硬件资源利用率和软件资源复用率,增强业务系统抗风险能力.数据中心含众多服务器和异构计算资源,引入虚拟网络、虚拟存储、CBT变化数据跟踪等技术、方法,可有效确保系统运行可靠性.在气象监测预报预警支撑系统中,采用VMware的异构虚拟化特性将不同类型的存储进行集中统一管理,简化了系统复杂度,使用vMotion技术实现虚拟化平台的高可用性;数据存储系统采用RAID2.0+块虚拟化架构
网络功能虚拟化(network functions virtualization,NFV)改变了传统网络以及硬件网络设备的形态.许多NFV应用(如网络资源管理、网络安全防护)需要获取指定物理资源、虚拟资源和虚拟网络功能等NFV对象的状态信息,并加以分析和利用.如何根据应用需求灵活地获取NFV对象的状态信息,是NFV管理和编排的一项重要工作.在大型NFV环境中,由于NFV对象的数量急速增加、类型不断丰富,导致难以灵活高效地按需获取NFV对象的状态信息.对此,该文提出了一种信息获取需求与获取技术解耦(info
新冠疫情导致全球在线教育异军突起,如何打破时间、空间的限制实时监督学生的在线学习状态随时调整教学策略进而提高学习效率具有重要意义.基于2D与3D图像处理技术,提出了一种在线评估学习状态的方法,将学习者的学习状态分为无人、多人、用户未授权、分心以及疲劳五种.利用AdaBoost算法与ResNet模型实现人脸检测和识别,并加入质心跟踪算法提高人脸识别检测效率;利用RGB-D图像实时获取人脸三维模型,通过EPNP算法获取学习者头部姿态进而评估学习姿态;提取学习者眼睛和嘴巴的实时图像特征,获取学习者眼睛与嘴巴纵横
传统的矩阵分解算法对药品进行推荐时,由于存在数据稀疏性问题,导致推荐结果不准确.因此提出了一种融合药品语义的混合推荐算法(H-DS).首先利用药品的类别信息构建出药品的分类矩阵,从而计算出药品的类别关联度;然后预处理药品主治功能的描述文本,使用卷积神经网络进行训练,得到其对应的特征;最后用概率矩阵分解算法结合药品类别和功能两方面的语义信息来改进模型,修正矩阵分解的项目隐因子特征,从而实现了对药品的精准推荐.实验表明,在MAE和RMSE评价指标上,H-DS较传统的概率矩阵分解算法(PMF)误差降低了6% ~
随着高等教育的普及,学生人数的增多,高校科研室的事务管理越来越繁杂,虽然部分高校科研室设计开发了自己的科研室管理平台,但存在各科研室之间缺乏沟通、公共资源未能共享、缺乏科研室成员自学习网络教学资源等问题.因此,在深入分析高校科研室管理需求的基础上,设计了基于SSM(SpringMVC+Spring+Mybatis)框架的科研室管理系统.该系统包括首页、管理模块、项目研讨、学习乐园等四大功能模块,其中,在学习乐园模块提出基于虚拟教师的网络教学资源组织模型,实现网络教学资源科学有效的组织与管理.实践表明,科研
现有研究表明,域名生成算法(domain generation algorithm,DGA)已成为僵尸网络建立命令和控制服务通信的关键技术之一.由于利用DGA域名随机性的检测方法已趋于成熟,为逃避检测,DGA算法可能采用加密流量形式进行传输.针对基于域名随机性的检测模型缺乏对加密DGA流量的识别等问题,该文基于DoH(DNS-over-HTTPS)协议验证了DGA流量进行加密传输的可能性,分析了命令控制服务过程所产生的HTTP报文内容、HTTP流量及对应的TCP流量.因利用DoH协议进行传输的数据包中不再
固件作为一种固化在ROM中的特殊软件程序,主要负责加电自检,硬件设备初始化,引导操作系统等基础功能,运行级别和安全等级较高,亟需一种高效、可靠的UEFI模块安全检测方法.采用形式化方法对UEFI模块进行规约与验证,对于提高固件的安全性具有重要意义.基于现有的有限状态自动机和下推自动机基础,分别对UEFI模块中的安全漏洞属性和UEFI模块程序控制流进行形式化建模,利用模型检验对上述模型进行形式化验证.其中利用数据抽象思想将UEFI模块抽象为程序控制流且压缩其状态规模来缓解模型检验时的状态爆炸问题,并给出了相
高压输电线路中绝缘子自爆造成的缺损会严重危害输电线路的安全运行.针对无人机巡检过程中获取的图像光线明暗不定、背景复杂、小目标等因素导致的绝缘子检测难度大、自爆识别准确率低等问题,提出了一种基于串联Faster R-CNN网络的无人机图像中绝缘子检测和自爆识别的算法.该算法分为两个阶段,分别串联使用深度学习中具有强大目标检测能力的Faster R-CNN网络实现对无人机高压输电线路图像中绝缘子自爆的检测和识别.第一阶段使用Faster R-CNN网络检测出无人机高压输电线路图像中绝缘子,第二阶段使用Fast