基于概念图和语义角色的多领域信息抽取系统研究

来源 :西北大学 | 被引量 : 0次 | 上传用户：whoamiwh

【摘要】

：

信息抽取作为在海量数据中,快速有效的寻找有价值信息的重要手段,是自然语言处理领域的热点课题。国外在上世纪末开始了相关方面的研究,发展到现在已经取得了很多成果。由于

【作者】

：

杨选选

【机构】

：

西北大学

【出处】

：

西北大学

【发表日期】

：

2010年期

【关键词】

：

信息抽取语义角色概念图相似度计算语义计算知网

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

信息抽取作为在海量数据中,快速有效的寻找有价值信息的重要手段,是自然语言处理领域的热点课题。国外在上世纪末开始了相关方面的研究,发展到现在已经取得了很多成果。由于中文信息自身的特点,目前的研究还处在探索阶段。现有的中文抽取方法基本上是基于统计的抽取方法,单纯的统计方法缺少对抽取信息语义的分析和使用,由于缺乏语义信息支持,使得在抽取信息点时失去了词与词之间的内在的语义联系,只是单纯依靠语法匹配来完成信息的抽取,这造成了抽取的准确率下降,抽取的信息质量不高。为了解决由于语义缺失造成的种种不足,本文利用语义角色分析和《知网》的语义资源,在前人研究的基础上提出并实现了一个基于语义信息的多领域抽取模型系统。本文提出的抽取模型以语义角色和概念图为基础,通过对待抽取语句进行语义角色标注后,再进行预处理,过滤掉虚词和叹词,为后面的处理减少不必要的计算,按照本文提出的算法,将句子的意思按照概念图的形式表示出来。然后将生成的概念图通过与图库中的领域概念图进行相似度计算,以此来判别信息的领域所属。抽取模板方面我们采用了分类自动生成的方法,其主要思想原型来自于Bootstrapping。抽取规则获取方面,我们将语义信息和抽取规则结合,通过使用语义角色获取抽取规则,以提高抽取的准确率。最后按照抽取规则匹配完成信息的抽取。其中领域场景的划分,模板的生成以及抽取规则的获取是本文研究的重点内容。文章的最后给出了系统的评测结果。纵向比较中,我们对同一领域的信息按照不同的方法进行了实验抽取,做了比对。此外,横向比较方面,我们针对领域场景的判别,以及跨领域抽取做了详细的实验检测,其中跨领域抽取实验中,亦采用了不同的抽取技术并做了详细的比对,实验结果表明,本文所提出的抽取方法是可行有效的,提高了信息抽取系统的准确率和召回率。

其他文献

基于P2P的语义Web服务发现的算法研究

构建基于面向服务体系架构(SOA)的应用是分布式计算的发展方向,分布式计算的主要源动力是实现资源共享。然而,面对数量庞大的服务群,如何快速准确的查找到用户所需要的服务,

学位

SOA语义Web本体P2P语义小世界

基于混合存储的嵌入式系统虚拟机调度算法研究

嵌入式智能终端软硬件的发展为虚拟化技术提供了新的发展平台——嵌入式终端虚拟化(Mobile Virtualization)。嵌入式终端虚拟化技术不仅可以节省软硬件成本,缩短软件开发周期

学位

嵌入式终端虚拟化非易失性存储器混合内存KVM虚拟化

基于NS2的无线传感器网络LEACH协议的改进仿真研究

无线传感器网络(Wireless Sensor Networks, WSN)在军事、农业、环境监测、医疗卫生、工业、智能交通、建筑物监测、空间探索等领域有着广阔的应用前景和巨大的应用价值,被认

学位

无线传感器网络网络寿命仿真分层路由协议LEACH

线性Mu演算子集的判定过程

时序逻辑在程序验证和人工智能的规划领域都起着至关重要的作用。作为最具代表性的时序逻辑之一，线性时序逻辑(Linear Temporal Logic，LTL)已被广泛应用于反应系统和并发系统的

学位

线性Mu演算子集目标前进范式图Kripke结构奇偶博弈递归算法

使用精英策略的多目标遗传算法的研究

经过二十多年的发展，多目标遗传算法由出现逐渐走向成熟。作为遗传算法的一个重要分支，它不仅在学术上得到广泛的研究，在工程应用领域也受到日益重视。它继承了遗传算法不需要搜

学位

多目标优化多目标遗传算法精英保留策略算子参数

ICMN中路由算法及其性能的研究

ICMN(Intermittently Connected Mobile Network)泛指端节点间的链路连接时断时续的网络。随着自组织概念的渗入,ICMN主要涉及具有自主组网能力的无线网络。这些网络中,节点

学位

ICMN网络路由算法干扰模型通断性

基于内容的视频拷贝检测算法的研究

基于内容的视频拷贝检测(Content-Based Video Copy Detection),简称视频拷贝检测(CBCD),是数字视频版权保护与内容管理的重要技术手段之一,逐渐引起国内外学者的关注。本文

学位

视频拷贝聚类关键帧提取环形分割

网络视频实时监控系统的设计与实现

随着计算机、网络、通信等多种技术的迅速发展,网络视频监控系统得到越来越广泛的应用,目前已渗透到教育、政府、娱乐场所、医院、酒店、运动场馆、城市治安等多种领域。但现

学位

实时监控视频监控流媒体摄像头管理

分形维数在皮革分类中的应用研究

我国是皮革工业大国,但是目前对皮革的分类仍然主要依靠熟练工人的目视辨别,必然很难保证产品的一致性和稳定性。随着电子技术和计算机技术的发展,采用数字图像处理技术将皮

学位

纹理分析技术皮革图像分类器分形维数神经网络

贵阳职业技术学院远程教育平台的设计与开发

基于信息技术电子通信网络的高速发展，使得通过各种通信媒体和网络来实现远程教育具备了可能性。远程教育平台以学生为中心，向学生提供专业知识、专业素养等全方位的支持。通过

学位

高等职业技术学院远程教育平台B/S模式PHP技术数据库系统

基于概念图和语义角色的多领域信息抽取系统研究

与本文相关的学术论文