电力设备知识图谱构建方法研究与实现

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:kathrynde
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着智能电网的发展,我国电力系统积累了大量有关电力设备检修和保养的文档,这些文档中蕴含着丰富的电力设备相关知识,但是目前这些知识并未得到充分利用。为了充分利用上述电力设备文档中的知识,可以使用知识抽取技术从文本中抽取结构化的知识,并构建电力设备领域知识图谱。知识抽取是知识图谱构建的关键步骤,为了提高知识抽取算法的准确率,本文研究了现有的知识抽取算法,并在现有研究的基础之上提出了命名实体识别和关系抽取算法,其主要研究内容如下。为了从电力设备文本中抽取命名实体,提出了一种基于字符对链接的实体识别算法TPNER,该方法基于字符对链接进行实体解码,并融入词汇信息以提高模型预测效果。通过MSRA、Weibo、CMeEE数据集的实验结果发现TPNER模型较现有模型分别提升0.1%、0.62%、8%左右,证明模型是有效的。为了抽取电力设备文本中的实体,通过电力设备相关文本和实际故障案例构建原始语料,并基于实体标注构建了电力设备实体识别数据集,最后使用上述实体识别算法在该数据集上进行实验。为了抽取电力设备文本中包含的实体关系三元组,对现有关系抽取算法CasRel进行优化,通过机器阅读理解优化向模型中输入更多先验知识,通过自注意力机制优化使模型从大量输入中提取关键信息。优化后的模型在百度信息抽取数据集上的实验结果较CasRel模型预测效果提升2.48%左右,充分证明了优化的有效性。为了抽取电力设备文本中的实体关系三元组,通过原始语料构建了电力设备关系抽取数据集,并使用上述优化后的关系抽取算法在该数据集上进行实验。设计并实现了电力设备知识图谱可视化系统,该系统主要包括知识图谱可视化、数据标注和知识图谱管理功能。通过知识图谱可视化功能,系统展示了本文构建的电力设备知识图谱;通过数据标注功能,系统可以对原始语料进行实体标注和关系标注,构建实体识别和关系抽取数据集;通过知识图谱管理功能,系统可以修改知识图谱中错误的实体关系三元组,并向知识图谱中添加新的实体关系三元组。
其他文献
在脑部CT血管造影成像(Computed Tomography Angiography,CTA)图像中对脑颈动脉供血区域进行分区,对于脑梗死和脑肿瘤等疾病的诊断和治疗非常重要。目前广泛使用人工对脑颈动脉供血区域进行分区的方法,存在对医生专业水平要求高且质量难以控制和效率低的问题。针对人工分区方法的缺点,提出一种全自动的基于CTA图像的脑颈动脉供血分区方法,先使用深度学习网络自动标记出脑颈动脉的不同
学位
随着大数据时代的到来,数据隐私保护问题逐渐成为各方关注重心。安全多方计算技术实现了数据的“可用不可见”,为这一问题提供了解决方案,其中秘密共享技术是其当前实用性最强的技术分支,而隐私保护机器学习是其最热点的研究方向。然而,秘密共享技术仍存在计算效率低下、扩展性不强等限制。最新的CryptGPU方案通过将计算迁移到GPU上提升了计算性能,但其主要关注线性计算的效率提升,而忽略了非线性计算的效率问题,
学位
数字水印作为信息隐藏技术的一个重要分支,在防泄漏溯源、信息防伪、版权保护等方面具有重要作用,得到了广泛的关注和研究。目前基于深度学习的数字水印技术逐渐成为主流,在许多性能指标上都远超传统方法。而Stegastamp模型作为深度学习数字水印模型中的佼佼者,其各方面性能,尤其是鲁棒性,处于领先水平。但是Stegastamp模型仍然存在以下不足:数字水印嵌入痕迹肉眼可见,图像失真严重,并且当数字水印受到
学位
睡眠是人类基本的生理活动,高质量的睡眠为白天高效率地工作、学习、生活提供保障。睡眠分期是评估睡眠质量的技术,同时也是诊断治疗各种睡眠障碍相关疾病的重要依据。传统的人工睡眠分期方法存在高耗时、劳动密集且主观性强的缺陷,随着信号处理技术、机器学习和深度学习方法的发展,睡眠分期任务逐渐向自动化过渡。虽然目前的睡眠分期研究已经在分期准确率、泛化能力等方面取得了不错的成果,但仍存在着睡眠信号数据不纯以及现有
学位
随着神经网络模型规模和复杂度的不断升级,计算开销和内存需求逐渐成为神经网络在资源受限设备上落地的桎梏,因此,模型压缩优化成为了学术界和工业界研究热点。但目前提出的模型压缩算法还存在着严重破坏网络精度、压缩效果不理想及压缩方式单一等问题。针对二值量化离散性导致了二值网络严重的信息丢失上问题,提出了基于残差单元及多阶段梯度近似的二值量化算法。在二值网络的前向传播阶段,基于残差单元的网络结构,将类似的s
学位
中文临床诊断术语实体链接是自然语言处理在医学领域的一个重要应用。在临床上,对于同一个标准术语,由于术语表达多样性以及医生个人书写习惯不同等因素,往往有很多不同的表述。临床术语实体链接就是为了给临床上各种不同的表述找到其在标准知识库中的标准术语。临床术语实体链接系统大体上包括候选术语生成、候选术语重排序和不可链接处理三个阶段。由于中文临床诊断术语数据量大、书写方法不统一等特点,导致中文临床诊断术语实
学位
知识图谱能够展示信息间的发展和联系,并对隐藏信息进行分析和挖掘,支持智能问答和高效信息检索等应用。制造业是工业的基础,数控技术是横贯现代制造业的关键技术,构建数控设备维护领域的知识图谱是迈向工业智能化坚实的一步。与百科图谱不同,构造面向数控设备维护领域的知识图谱存在着诸多问题,包括实体的多义性、存在复杂的非单一名词性实体类型以及图谱的稀疏性等问题。基于数控设备维护领域的数据特征以及对知识图谱构建的
学位
知识图谱是表示实体间结构化关系的三元组表达形式,引入时间信息后变更的四元组则组成了时序知识图谱。由于时序知识图谱具有语义丰富、动态更新、图结构完备等特性,时序知识图谱已成为推理认知和人工智能的热门研究方向,且广泛应用于推理的相关应用,如知识图谱补全、智能问答、推荐系统等。以往的知识图谱研究大多关注静态的知识图谱,忽略了随时间变化的动态特征,但是在实际应用中,很多结构化的知识只在特定的时间内有效。这
学位
近年来,动物疾病频发,动物疾病不仅危害动物的健康,也使人类的健康面临威胁,如人畜共患病、畜产品质量安全等,会对公共卫生安全产生较大影响。而动物福利从满足动物的基本生理、心理需要的角度出发,科学合理地饲养和对待动物,可以提高动物的健康水平,从源头上避免疾病频发。动物福利课程虽是一门新兴学科,但对整个高职动物医学专业人才培养体系不可或缺。首先介绍了高职动物医学专业人才培养目标、并对动物福利课程以及高职
期刊
“十四五”规划要求“提升产业链供应链现代化水平”,其中,绿色、韧性和数字化是最具时代特色的供应链现代化的内涵特征。在分析绿色供应链、韧性供应链和数字供应链基本内涵、共性和联系的基础上,按照系统性、整体性和协同性的原则将三者融合构建成一个有机整体,即绿色韧性数字“三元供应链”。界定提出绿色韧性数字“三元供应链”的基本框架,从范围、主体、结构及结果多个视角分析探讨“三元供应链”的内涵特征,并从宏观、中
期刊