事件时序关系识别的研究与实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:milksnake
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本研究课题来源于国家自然科学基金资助项目“典型事件过程建模的研究”。事件时序关系的研究目的是建立事件之间在时间上的先后顺序关系,事件时序关系的研究在文本分类、问答系统等自然语言处理领域有着越来越重要的作用。本文首先结合统计机器学习方法和计算语言学知识构造基于OTC语料库的英文事件时序关系识别模型;随后针对语料库存在的数据稀疏问题,利用时序推理来增加训练样本数目的方法予以缓解;将事件时序关系识别模型应用到更大规模的生语料库中,构造事件时序关系知识库是本研究的最终目的。本文的主要研究内容如下:(1)构建基于OTC语料库的事件时序关系识别模型。包括时序关系映射、语料纯文本信息的抽取和特征空间的选择。分类模型的平均性能达到60.15%的准确率。随后对分类模型特征空间中的各个特征进行分析,判断其对分类模型的影响。(2)用时序推理的方法缓解数据稀疏问题。针对OTC语料库存在的数据稀疏问题,本文运用时序推理增加训练样本数目的方法予以一定程度的缓解。时序推理的讨论重点在于时序推理时所需要的推理规则的构建和时序推理算法。扩展后的训练样本数目是OTC语料库训练样本数目的九倍。为测试训练样本数目增加对实验结果的影响,本研究从扩展后的训练样本中按照OTC语料库中各种时序关系的分布比例抽取12124条数据样本进行实验,识别模型的平均性能为67.57%的准确率。(3)尝试使用Wiki语料作为基础数据集构建事件时序关系知识库。本文将对原始Wiki语料进行加工整理,使其符合Evita处理规范。该整理加工过程分为三个阶段进行:单篇Wiki文章的提取,单篇Wiki文章的无用信息过滤,单篇Wiki文章的规范化输出。(4)构建事件时序关系知识库。经过加工整理后的Wiki语料经过事件识别、单文档事件时序关系链的构建、事件受事者识别、事件相似度计算、单文档事件时序关系链的合并等步骤,最终生成多个有向图。有向图的顶点是事件,边是事件间的时序关系,每个有向图包含时间上关联的事件集合。
其他文献
由于传统的教学资源竹理系统对分布式异构知识的描述和获取具有一定的局限性,导致了学生选课的片面性、被动性和盲目性。为此,本文把本体和语义网等相关理念及其相关技术引入
随着计算机技术和通信技术的快速发展,电子文档的安全存储、安全处理、安全传输显得越来越重要。对电子文档保护的重要手段之一就是加密,将信息以密文的形式存储和传输,从而
人脸识别作为一种重要的生物识别技术,在很多领域有着广泛应用。目前国内外已经有了一些比较成熟的人脸识别技术,例如特征脸、本征脸、拉普拉斯脸等。然而人脸本身作为生物特征
在大数据时代,我们正步入一个由数据驱动的经济社会,是否能够高效地、及时地分析海量数据变成了一个产业成功与否的重要前提。在海量数据处理环境中有很多需要在流式数据上进
三维计算机模型在逆向工程、计算机辅助设计以及计算机图形学等领域得到了广泛的应用,为产品的快速开发创造了条件。近年来,数字测量设备的快速发展使得我们能够直接得到物体
现有的医学技术对于一些特殊疾病比如帕金森的诊断还不是十分准确。尝试找到一种新的行之有效的辅助医疗诊断的方法应用于具体医学病例,确保现有诊断的准确性,进而推广这种思
近年来,随着移动设备计算能力增强,无线通信技术,无线定位技术以及微型传感器普及,如何为移动用户提供最适合的个性化的信息服务(已经成为新兴的研究热点。传统的信息服务是
分类是机器学习的重要任务之一,传统的分类方法有一个默认的假设,就是数据集中各类别所包含的样本是均衡的,故传统的分类方法都是以提高数据集的总体准确率为目标的。但是在
随着城市化进程的加快,许多城市开始修建地铁。地铁中需要配置监控系统,用来监控地铁的运行环境。由于监控系统集成越来越多的子系统,其依赖的网络规模逐渐增大,网络管理也逐
在计算机领域中,软件的发展相对滞后于硬件的更新是一个长期存在的问题。而当人们迈入多处理器、多核心时代时,该问题变得更加严峻。特别是在多核的模拟器方面,虽然各大厂家