非结构化数据的知识处理与图谱表示方法研究

被引量 : 0次 | 上传用户：eternaty

【摘要】

：

【作者】

：

赖冠宇

【机构】

：

西京学院

【发表日期】

：

2023年01期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在互联网技术的深度普及的时代,海量的数据时刻冲刷着用户浏览信息的眼球。如何从无序且规模庞大的多源数据中抓取精确、有用的知识,是当前互联网技术的主要研究方向。随着人工智能技术的发展,知识图谱应运而生。知识图谱能够把碎片化的实体通过关系联结起来,构建起一个结构化的语义知识库,从而使得现实世界中存在的知识更易于理解、查询、管理和应用。当前,知识图谱已经迅速在学术界和工业界普及,并在生物医学、金融风控、公共安全、灾害防治等领域取得了广泛的应用,并且各类通用百科类知识图谱、常识类知识图谱和垂直领域的知识图谱层出不穷,知识图谱技术也随着研究人员的持续深入探索不断完善。知识图谱技术的发展目前仍然存在问题与挑战。一方面,虽然现有的知识图谱中已经包含了大量的事实性知识,但是当前的知识图谱多数采用来源于结构化或半结构化的数据,忽略了非结构化数据中隐藏的大量有效知识,从而导致整个知识图谱仍然是非常稀疏,同时现有的通用知识图谱难以直接应用到特定领域的垂直行业当中。如何从形式各异的数据中抽取新的知识补全知识图谱亦或是重新搭建一个针对特定领域的行业知识图谱是当前需要解决的问题;另一方面,随着知识图谱的规模不断膨胀,传统知识图谱离散符号化的表示方法使得知识图谱检索效率低下且无法表达实体间的语义关联,也难以广泛应用于下游任务中。针对知识图谱数据稀疏的问题,主要涉及到知识图谱补全技术,而知识抽取技术和实体链接技术又是其中的主要研究内容,并且其结果将决定着知识图谱补全的最终质量;针对知识图谱表示问题,当前主流的解决方法为采用知识图谱嵌入式表示方法把知识图谱中的实体和关系编码成具体的向量数据,从而嵌入到稠密低维的向量空间中,连续性的嵌入式表示方式还可以有效的解决知识图谱的稀疏性问题。同时,稠密的低维向量表示方式更有利于大多数以特征向量形式作为输入的主流下游任务算法。因此本文的主要研究内容包括了如下几个方面:（1）本文设计一种基于BERT-wwm-ext的中文知识抽取方法。该方法独立地学习用于知识抽取和关系抽取的两个编码器。对于实体模型,引入跨度等级的概念,提取所有可能为实体的跨度,并通过激活函数判断每一个跨度的实体类型。对于关系模型,引入实体边界和实体类型概念并将其作为标识符加入到实体跨度前后,并输入到关系模型中,然后对所有的实体对进行关系分类。（2）本文设计一种基于多维特征融合的中文实体链接方法。针对实体链接的候选实体生成问题,该方法分别采用了四种方法生成候选实体,并验证了候选实体选取方法的有效性。针对实体链接的候选实体排序问题,本文把该问题当成为一个分类问题,并引入了中文预训练模型构建分类模型计算候选实体和实体指称项的相似度得分。（3）为了验证知识抽取和实体链接模型的可行型,同时为知识图谱表示技术研究提供有效图数据,本文针对维基中文百科提供的有效数据,凭借知识抽取和实体链接模型从非结构化的文本数据中获取结构化的知识,并应用知识存储技术搭建一个小型百科知识图谱。（4）在百科知识图谱构建的基础上,应对离散符号化的知识图谱表示方法存在的数据稀疏等问题,设计了一种语义信息与图神经网络知识图谱表示方法,该方法有效融合了知识图谱中实体、关系和三元组的语义信息,通过多次的迭代将三种不同的语义信息进行融合编码,并将其映射到实体上,实现知识图谱的嵌入表示。

其他文献

火电企业基于电力现货市场边际成本报价的分析预测及策略制定

＜正＞根据国家有关安排，山东省2021年将开展一至三个季度的电力现货市场不间断结算试运行。电力现货市场还原了电力的商品属性，反映出电力商品的时间、空间价值，更好地服务清洁能源的优先消纳，同时可确保电力供需平衡和电网的安全稳定运行，但对发电企业来说，电力现货市场带来了非常大的风险，其中电价风险是非常重要的一方面。针对这种情况，淄博公司紧紧围绕自身实际需求，创新工作体系，建立了一套基于边际成本报价的现

期刊

利用希沃白板打造初中生物学高效课堂——以“生物对环境的适应”为例

基于希沃白板5多媒体教学平台，利用“蒙层功能”“课堂活动”“学科工具”“移动授课”“班级优化大师”等交互性教学工具对初中生物学中的“生物对环境的适应”展开教学，激发学生的学习兴趣，提高课堂教学效率，落实初中生物学课程教学目标。

期刊

区域心电诊断中心的建设及发展趋势探讨

目的：通过对区域心电诊断中心的建设及实际使用效果的研究，探讨区域心电诊断中心对诊疗质量的影响及该中心未来发展的趋势。方法：依托区域卫生专网，将区域内心电图机通过有线/无线的方式接入RACAL数据库，以建立区域“心电云”，实现区域内心电图的远程诊断和会诊。结果：实现了区域内31家医院及172家卫生服务站心电图机的连接，心电数据全部存储在“心电云”中，年平均远程诊断6 000余人次，远程培训与指导30

期刊

某车型扭转梁安装支架轻量化方案对比分析

汽车轻量化设计是降低能耗、减少排放的最有效措施之一。对于汽车结构件在设计时需满足空间布置、强度刚度、疲劳寿命等要求外，重量越轻越好。扭转梁半独立悬架是汽车常用的悬架系统，其安装方式影响到整车结构布置和轻量化设计。本文通过对铸铁件、冲压钣金拼焊件、铸铝件3类扭转梁安装支架的轻量化方案分析研究，从性能、结构、材料、工艺和成本进行了对比分析，给出了对底盘悬架结构件轻量化和降本的方法和方向，以及对结构件轻

期刊

一体化压铸有助轻量化新能源产业链公司布局忙

报纸

基于轻量化、绿色化和模块化汽车前端框架开发探析

本文介绍前端框架轻量化和绿色化内涵，从材料、工艺、模块化三个方面采用针对汽车前端框架轻量化，绿色化和模块化三个维度开发进行讨论和论证，得出集成化前端框架在轻量化和全生命周期环境环境影响明显优于普通钢铁前端框架，应广泛推广应用。

期刊

硅烷浸渍防腐施工工艺在海港工程中的应用分析

硅烷浸渍法作为一种简单高效的混凝土防腐处理方式，施工工艺简单，工期基本可控，且混凝土表面经过硅烷浸渍处理后仍可开展各类涂料涂装作业，不影响涂料附着效果。结合某海港高桩码头泊位工程项目实际施工情况，分析在海洋环境下海港工程钢筋混凝土硅烷浸渍防腐施工工艺及施工效果，为其他海港工程防腐提供参考。

期刊

基于“互联网+”的分级诊疗信息平台建设探讨

目的：分级诊疗制度是我国推动优质医疗资源共享、优化资源配置的重要举措，利用信息化手段推进分级诊疗信息平台的建设和应用。方法：基于“互联网+医疗”技术开展分级诊疗信息平台的建设。通过完善检验、检查预约、床位预约、医疗信息共享、平台综合管理等功能应用加强各级医疗机构的紧密联动和分工协作。结果：实现了信息共享和线上预约、转诊，为患者提供了便捷的医疗服务，构建了区域分级诊疗新流程，有效助力新冠病毒感染疫情

期刊

胡岩青：推动汽车轻量化争当绿色领跑者

报纸

羊小反刍兽疫诊断与综合防治

现阶段养殖业规模不断扩大，但是羊养殖中常出现各种疾病，尤其是羊小反刍兽疫，给养殖户带来经济损失，需做好该病的诊疗工作。该文主要针对羊小反刍兽疫的诊断、治疗和防护措施入手，通过这种方式提出一定预防措施。

期刊

非结构化数据的知识处理与图谱表示方法研究

与本文相关的学术论文