基于概念图和语义角色的多领域信息抽取系统研究

来源 :西北大学 | 被引量 : 0次 | 上传用户:whoamiwh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息抽取作为在海量数据中,快速有效的寻找有价值信息的重要手段,是自然语言处理领域的热点课题。国外在上世纪末开始了相关方面的研究,发展到现在已经取得了很多成果。由于中文信息自身的特点,目前的研究还处在探索阶段。现有的中文抽取方法基本上是基于统计的抽取方法,单纯的统计方法缺少对抽取信息语义的分析和使用,由于缺乏语义信息支持,使得在抽取信息点时失去了词与词之间的内在的语义联系,只是单纯依靠语法匹配来完成信息的抽取,这造成了抽取的准确率下降,抽取的信息质量不高。为了解决由于语义缺失造成的种种不足,本文利用语义角色分析和《知网》的语义资源,在前人研究的基础上提出并实现了一个基于语义信息的多领域抽取模型系统。本文提出的抽取模型以语义角色和概念图为基础,通过对待抽取语句进行语义角色标注后,再进行预处理,过滤掉虚词和叹词,为后面的处理减少不必要的计算,按照本文提出的算法,将句子的意思按照概念图的形式表示出来。然后将生成的概念图通过与图库中的领域概念图进行相似度计算,以此来判别信息的领域所属。抽取模板方面我们采用了分类自动生成的方法,其主要思想原型来自于Bootstrapping。抽取规则获取方面,我们将语义信息和抽取规则结合,通过使用语义角色获取抽取规则,以提高抽取的准确率。最后按照抽取规则匹配完成信息的抽取。其中领域场景的划分,模板的生成以及抽取规则的获取是本文研究的重点内容。文章的最后给出了系统的评测结果。纵向比较中,我们对同一领域的信息按照不同的方法进行了实验抽取,做了比对。此外,横向比较方面,我们针对领域场景的判别,以及跨领域抽取做了详细的实验检测,其中跨领域抽取实验中,亦采用了不同的抽取技术并做了详细的比对,实验结果表明,本文所提出的抽取方法是可行有效的,提高了信息抽取系统的准确率和召回率。
其他文献
构建基于面向服务体系架构(SOA)的应用是分布式计算的发展方向,分布式计算的主要源动力是实现资源共享。然而,面对数量庞大的服务群,如何快速准确的查找到用户所需要的服务,
嵌入式智能终端软硬件的发展为虚拟化技术提供了新的发展平台——嵌入式终端虚拟化(Mobile Virtualization)。嵌入式终端虚拟化技术不仅可以节省软硬件成本,缩短软件开发周期
无线传感器网络(Wireless Sensor Networks, WSN)在军事、农业、环境监测、医疗卫生、工业、智能交通、建筑物监测、空间探索等领域有着广阔的应用前景和巨大的应用价值,被认
时序逻辑在程序验证和人工智能的规划领域都起着至关重要的作用。作为最具代表性的时序逻辑之一,线性时序逻辑(Linear Temporal Logic,LTL)已被广泛应用于反应系统和并发系统的
经过二十多年的发展,多目标遗传算法由出现逐渐走向成熟。作为遗传算法的一个重要分支,它不仅在学术上得到广泛的研究,在工程应用领域也受到日益重视。它继承了遗传算法不需要搜
ICMN(Intermittently Connected Mobile Network)泛指端节点间的链路连接时断时续的网络。随着自组织概念的渗入,ICMN主要涉及具有自主组网能力的无线网络。这些网络中,节点
基于内容的视频拷贝检测(Content-Based Video Copy Detection),简称视频拷贝检测(CBCD),是数字视频版权保护与内容管理的重要技术手段之一,逐渐引起国内外学者的关注。本文
随着计算机、网络、通信等多种技术的迅速发展,网络视频监控系统得到越来越广泛的应用,目前已渗透到教育、政府、娱乐场所、医院、酒店、运动场馆、城市治安等多种领域。但现
我国是皮革工业大国,但是目前对皮革的分类仍然主要依靠熟练工人的目视辨别,必然很难保证产品的一致性和稳定性。随着电子技术和计算机技术的发展,采用数字图像处理技术将皮
基于信息技术电子通信网络的高速发展,使得通过各种通信媒体和网络来实现远程教育具备了可能性。远程教育平台以学生为中心,向学生提供专业知识、专业素养等全方位的支持。通过