基于框架语义标注的Web信息抽取技术研究

来源 :太原理工大学 | 被引量 : 4次 | 上传用户:ayun2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的快速发展,web已经成为全球化的信息源,它为信息共享和资源共享提供了一个良好的平台。然而,用传统的搜索引擎人们很难迅速准确地找到所需要的信息。信息抽取技术正是在这样的前提背景下产生的,信息抽取是从网页(文本)中自动地抽取出有用的信息的一种技术,它是目前智能信息处理的一个重要研究课题。信息抽取系统在web上抽取的信息不仅可以直接提供给用户,还可以作为构建智能查询系统和数据挖掘系统的基础,有着广阔的应用前景。本文首先介绍了信息抽取系统的产生背景、发展历史,研究了信息抽取技术的研究现状,分析了当前几种重要的信息抽取工具和当前信息抽取工具的一些缺陷——缺乏语义或语义模型过于简单。然后针对这一不足之处,利用框架语义在语义信息标示方面的优势来解决信息抽取结果中语义信息缺失或语义信息过于简单这一问题,提出了一种信息抽取的方法——基于框架语义标注的信息抽取。本文通过构造一个基于框架语义标注的web图书信息抽取系统来说明基于框架语义标注的信息抽取技术的思想——将框架语义网络技术、领域本体知识和信息抽取技术相结合。对自由文本进行信息抽取时,首先进行框架语义标注,再根据标注结果结合领域本体知识生成抽取规则。该方法的特点在于在抽取过程中以框架语义标注作为构建信息抽取规则的基础,用统一的方法来指导信息抽取过程——以语义角色为核心构建信息模式,将信息模式的建立上升到语义角色一级,从而达到所抽取出信息的带有明确的语义信息。本系统对于实现基于语义的信息抽取研究具有重要的现实意义。不仅如此,它的体系结构和主要模块的设计思想,对于其他文档的信息抽取系统的设计和实现也具有较高的借鉴价值。
其他文献
目的 观察探讨新式无保护会阴接生法与传统保护会阴接生法的临床效果,同时分析无保护会阴接生法在南疆地区推广应用的可行性.方法 选取于我院产科住院拟经阴道分娩的初产妇30
起源于幼发拉底河和底格里斯河,以现代伊拉克和北叙利亚为中心的古西亚两河流域是人类文明的发祥地之一,从这一地区出土的数以万计的楔形文字文献是目前所知的世界上数量最多
网格就是一个集成的计算与资源环境,网格环境中,资源是分布在不同地理位置上的,由不同的组织或者个人拥有和操作,资源所有者对资源有绝对的权力,网格对其管理必须满足本地的管理策
本文提出了一种在含有带关节模型的数据库中检索三维形状的方法。首先,针对每一个形状都基于谱嵌入的方法求得其相应的谱嵌入表示,这里的谱嵌入是基于以近似测地距离为基础构
目的探讨流感样病例与气象因素、空气质量因素的相关关系,用时间序列分析法构建流感样病例预测模型,对流感预警预测技术进行有效探索。方法收集2014年至2017年呼和浩特市流感样病例监测资料及同期气象资料和空气质量因素资料,分析流感样病例与气象因素和空气质量因素的相关性,建立该地区流感样病例季节性自回归移动平均(seasonal autoregressive integrated moving aver
随着计算机网络的迅速发展,人们希望通过电子设备实现快速、远距离的交易,数字签名应运而生,并开始应用于现实社会中。数字签名已经在信息保密、身份认证、数据完整性、不可
后基因组时代的到来,生物信息学的研究重心日益从基因组测序工作转移到对已测序基因组的功能进行注释。传统的基于同源性的注释方法由于自身存在的缺陷在精确度方面已经不能满
随着网络技术的快速发展, XML类型的数据已成为当前一种主流的数据形式,并成为Internet中进行数据交换和表示事实上的标准。在实际生活中,数据的不确定性是普遍存在的,传统的确
随着计算机技术、通讯技术和网络技术的飞速发展,Internet应用的日益普及,电子文档的数量逐日剧增。为了更好地利用这类非结构化数据资源,人们迫切需要构建高效的文本检索、
近年来,随着网络和计算机技术的发展,信息交流变得更加的方便快捷。同时在当今社会,人们对工作效率的要求越来越高,希望能在最短的时间内将事情处理好。电话会议系统具备了方