中文信息抽取(IE)中事件模板建立的研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:areschicken
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文以西班牙马德里事件作为实验对象,研究突发事件领域的文本信息特点,探索突发事件模板的自动获取。通过机器学习方法,建立了相关事件模板,用于表述信息各个侧面的特征。并运用匹配和抽取算法,对测试语料进行模式匹配与信息抽取。作者主要完成了以下研究工作: 一、以马德里311爆炸事件的500篇新闻语料作为训练语料,通过向量空间模型表示,以知网(HowNet)为知识库,通过句子聚类进行了事件的侧面抽取,并通过特征模糊向量进行侧面表示。 二、通过有限状态自动机(FA Finite Automata)与概率方法的结合,进行训练语料中特征句型模式的抽取,抽取的结果通过知网(HowNet)中的类别转换,生成泛型特征句型模式库。 三、以马德里311爆炸事件的314篇新闻语料作为测试语料,进行侧面匹配、句型模式对应、槽值填充工作。测试语料以向量空间模型表示后与各侧面的特征模糊向量相乘后比较得到该语料所属侧面。然后按照所提供的有限状态自动机(FA)进行候选句型抽取,对于未确定的候选句型利用特征句型模式库通过最大概率法进行筛选确定,最后对特征句型对应的槽提取槽值填充。
其他文献
基于构件装配技术开发的大规模分布式系统测试成本高、技术难点多,是当前的研究热点。本文结合传统的测试理论与方法,研究和探讨了动态测试过程中软件系统的表示模型、测试中的
随着计算机网络应用的普及和电子商务的发展,互联网已经成为了人们生活的一部分,由于网络的开放性,如何保障网络上信息交互的安全性,如何解决可信问题以及用户身份认证、授权
现代企业最有价值的信息往往是保存在数据库中的。企业非常关心怎样确保数据库的保密性、完整性和可用性。随着Internet的日益发展,数据库的网络化,使企业数据库所面临的威胁也
为了对Web服务资源进行有效的管理,Web服务社区的概念应运而生。Web服务社区被定义为具有相同功能特性和不同非功能特性的Web服务的集合。随着复杂业务流程和组件重用的日益
近年来,随着3D技术的飞速发展,3D视频必将代替2D视频,给人们带来绝无仅有的视觉盛宴。3D视频增加的景物深度信息,使得视觉的逼真感和现实感增强,喜爱人数众多,也因此,众多影视公司纷
软件Agent是近年来倍受人们关注的热点问题,其根本原因是学术界认为它是能够使软件取得重大突破的关键技术之一。针对软件Agent的反应性、自治性、自发性、可进化性、社会性
随着计算机网络技术及其相关技术的不断发展,Web作为强有力的通信渠道,比C/S应用表现出很多优越性,许多应用系统的开发由C/S应用转向了B/S体系结构。 但这种模式下的应用
最近十年,计算机图像分割在医学图像处理中起着越来越重要的作用。图像分割的目的在于帮助我们更好地理解感兴趣的对象边界特征,在疾病诊断和治疗、医学图像可视化以及计算机集
随着互联网和信息技术的飞速发展,电信运营商的用户群越来越大,网络规模和复杂程度与日俱增,对网络管理提出了更高的要求。 本文以黑龙江电信IP网管系统的设计与实现为例,
本文在分析企业信息化基本特征的基础上,对企业信息化的内涵和概念进行了界定,提出了企业信息化的评价方法和评价原则,最后给出了企业信息化的评价模型和指标体系.