【摘 要】
:
当今,随着互联网技术的飞速发展,电子形式的文档资源正以指数级的速度快速增长。面对如此庞大的电子信息,如何从海量的信息中抽取人们所需要的关键信息以及非结构化数据的结构化
论文部分内容阅读
当今,随着互联网技术的飞速发展,电子形式的文档资源正以指数级的速度快速增长。面对如此庞大的电子信息,如何从海量的信息中抽取人们所需要的关键信息以及非结构化数据的结构化等问题变得尤其突出,针对此问题本文提出了一种基于信息抽取的语义框架填充技术的研究课题,本课题具有非常重要的研究意义和使用价值。 本课题的研究工作主要分为以下几个部分: 1.深入研究了信息抽取中抽取规则问题,针对传统方法研究存在的缺点,本文给出了一种基于知网的文本关键信息抽取算法。依据知网对概念实体的描述,通过对“义原”相似度比较,完成了词语、句子的相似度比较,以此为基础,实现了文本关键信息的抽取。 2.针对传统信息抽取方法抽取结果表现的非结构化问题,本文结合语义框架,提出了一种基于关键信息进行语义框架填充模型。该方法能使知识运用语义框架来表示,将非结构化文本转化为结构化文本的表示形式。 3.对关键信息填充进行语义框架的语义槽匹配时,给出了一种基于相似度比较的语义槽匹配算法。通过对语义槽对应的特征词与对应关键句子的相似度比较,实现对关键信息的语义槽匹配填充。 4.本文给出了基于规则的推理算法,采用这种算法可以实现语义框架中对缺失的语义槽信息的挖掘。基于描述逻辑的推理方法在表达能力和执行效率上存在这很大的局限性,在推理过程中添加基于规则的推理机制可屏蔽所有可产生矛盾的推理规则、增加系统的表达能力,进而保证了推理的一致性。 最后,通过与传统信息抽取的方法,本文提出的方法的信息抽取效率较高。同时,也证明了课题的有效性,并为以后信息抽取领域更深入的研究奠定基础。
其他文献
随着Internet的飞速发展,IPv4的许多不足逐渐显露出来,诸如地址资源匾乏、路由表膨胀、缺乏对传输信息的加密和认证、缺乏QoS支持等。为了解决这些问题,IETF制定了新一代的IP
当前,随着Internet的迅速发展、手机的广泛普及以及两者之间业务的结合,电信业务量得到了惊人的增长。尤其短信业务已经成为我国电信运营商的一个主要业务。同时,电信运营商
近来,视频点播系统(VOD)在社会上受到了广泛的关注,并在技术上、理论上取得了长足的进步。对使用者进行计费与计费的管理作为视频点播不可或缺的一部分,在其发展中起到了重要的
本文对基于WEB GIS的水资源优化配置系统的实现进行了研究。文章提出了系统的总体建设目标、主要功能、模块结构划分以及系统得以实现的技术平台,建立了系统的总体框架。其中
随着各行业智能化、信息化的迅猛发展,嵌入式实时操作系统的采用也日益扩大。应用于产品质量检测领域的视觉传感器,主要利用基于嵌入式实时操作系统的图像检测,基于嵌入式实时操
在企业的经营管理中,牛产成本的控制和管理是非常重要的。物料清单(BOM)是成本篱理的基础,研究基于BOM的成本管理算法对于企业信息化有着重要意义。 在制造业中,分布最广泛的
随着社会的发展,交通问题日益突出,人们对智能交通系统投入了越来越多的关注,其中道路网模型作为智能交通系统的基础成为研究热点。目前,在大多数的研究中,道路网作为空间网
随着互联网的发展,WWW上信息的快速增长,WWW为人们提供了大量的信息,但也使得我们陷入一个矛盾,那就是一方面人们迫切地需要从Web上快速、有效地获取知识,另一方面是Web上信
构件化软件开发采用组装化的方式,大大提高了企业级应用软件的生产效率。本文以科研管理系统的研究开发为背景,采用面向构件的开发方法,将统一建模语言UML和体系结构描述语言
在嵌入式系统的研究早期,其关注重点主要集中在性能、可靠性和实时性等方面,近年来随着嵌入式系统的飞快发展,嵌入式系统的主频和集成度的提高,嵌入式设备尤其是移动嵌入式设