Web语义数据抽取与知识融合的研究与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:zhangsanzong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的飞速发展,语义网作为Web 3.0的契机被广泛流传。语义网通过对万维网增添“元数据”,对互联网上的数据进行语义化和知识化,使得计算机可以理解各种各样的数据信息。越来越多的自然语言处理领域和计算机领域的专家研究分析语义和语义数据,以此来进行智能网络的构建。近些年出现了许多大型知识库,如Wikipedia,Freebas,YAGO,微软的Satori和谷歌的Knowledge Graph。然而这些还不能满足智能系统和语义网建设对网络中快速增加的实时数据的需求。为了从语义网中获取更全面准确的知识,设计一个高效的网页语义数据抽取方法和知识融合方法是必要的。通过对网页的深度分析发现,网页中存在着两种不同形式的数据:半结构化的结构信息和非结构化的文本信息。现有的语义数据的抽取方法分别针对其中一部分进行处理。借助自然语言处理技术和机器学习的思想,在各个标准数据集上取得了较好地效果。但仍有一些问题存在,尤其是在开放域的网页的复杂结构和复杂句上,出现了语义数据抽取的召回率和准确率偏低和生成知识库可用性低的缺点。本文针对抽取性能差的问题提出了一个新的网页语义数据抽取模式。它首先对网页数据进行获取和预处理,得到去噪的结构信息和正文信息。然后,一方面对网页结构信息与领域本体进行映射分析,得到初始的网页核本体,再通过对网页结构和语义的分析,对核本体进行学习扩展,得到结构信息中蕴含的语义数据。另一方面,设计了一个多阶语义关系抽取方法,借助数理逻辑上的多阶概念构建了自然语句中语义依存结构:多阶语义树来抽取非结构化文本中的语义数据。该方法通过分割和重组的方法自动的将自然语句构造成一个严格二叉多层语义依存结构,也就是多阶语义树。由此将自然语句中的语义数据转化为三元组形式,并且设计了由语义数据到实体关系的语义精化流程,得到统一、规范的实体关系。此外,为提高这些语义数据生成的知识库的可用性,本文设计了基于排序的实体链接和基于概念层次的知识扩展。通过歧义页面的特征词相似度计算,完成实体的消岐链接。借助概念依存网络的知识概念层次结构和外部知识库对知识进行泛化扩展。基于此对抽取的知识进行基于统计的融合,得到知识库。最后基于上述方法设计了一个知识抽取系统,实现了对网页语义数据的抽取、知识的链接,扩展和融合。并通过对维基百科页面的抽取实验验证了系统的功能。此外,在两标准数据集上对多阶语义抽取进行实验,在SENT500和KBP两个数据集上的实验结果的F1值分别达到83.8%和35.5%,超过了现有的方法。
其他文献
随着网站数量的剧增,网络编辑人才缺口量大。但高职院校培养的网络编辑人才质量远远滞后于企业需求,造成这种现象的原因是教学过程和工作过程脱节。以工作过程和教学过程对接的
对于通信建设工程一般投资比较大,使用周期比较长,对社会经济效益和社会效益影响比较大。在通信建设工程项目中,风险管理便成了工程项目管理的一项重点工作。因此很有必要加强对
随着社会经济的发展与进步,信息技术得到了广泛的应用,而信息系统项目管理则是反应信息产业水平的重要依据。本文主要对信息系统建设与发展中存在的风险因素与管理问题进行简单
电力生产直接影响着国家财产的安全,同时对于电力企业工作人员的安全和健康也是有着直接的影响,电力的安全生产是电力企业的根本效益所在。作为电力企业的基础,电力企业直接影响
出于国际集装箱单箱总质量大幅度增加,引起了一系列技术问题。本文对此作了有限元计算,结构分析和有关研究,并提出相应的我国国际集装箱公路运输车辆的模式及其组成。
期刊
目的分析HPV分型检测联合TCT对中老年女性宫颈病变的筛查价值。方法选择2015年1月至2017年12月来北京市朝阳区妇幼保健院就诊的4628名48~64岁年龄段的女性患者为研究对象,行H
培养创新人才是时代发展对高职教育改革创新提出的新要求。我国酒店市场上具有较高素质的创新型酒店管理人才供不应求,高职院校对酒店管理专业创新人才的培养任重道远。高职
近些年来,随着我国经济的飞速发展和相关政策的陆续放开,我国各行各业如同雨后春笋快速发展,其中气象台站的气象观测业务作为民生项目之一,为我国气象观测与分析提供了重要的