论文部分内容阅读
本研究课题来源于国家自然科学基金资助项目“典型事件过程建模的研究”。事件时序关系的研究目的是建立事件之间在时间上的先后顺序关系,事件时序关系的研究在文本分类、问答系统等自然语言处理领域有着越来越重要的作用。本文首先结合统计机器学习方法和计算语言学知识构造基于OTC语料库的英文事件时序关系识别模型;随后针对语料库存在的数据稀疏问题,利用时序推理来增加训练样本数目的方法予以缓解;将事件时序关系识别模型应用到更大规模的生语料库中,构造事件时序关系知识库是本研究的最终目的。本文的主要研究内容如下:(1)构建基于OTC语料库的事件时序关系识别模型。包括时序关系映射、语料纯文本信息的抽取和特征空间的选择。分类模型的平均性能达到60.15%的准确率。随后对分类模型特征空间中的各个特征进行分析,判断其对分类模型的影响。(2)用时序推理的方法缓解数据稀疏问题。针对OTC语料库存在的数据稀疏问题,本文运用时序推理增加训练样本数目的方法予以一定程度的缓解。时序推理的讨论重点在于时序推理时所需要的推理规则的构建和时序推理算法。扩展后的训练样本数目是OTC语料库训练样本数目的九倍。为测试训练样本数目增加对实验结果的影响,本研究从扩展后的训练样本中按照OTC语料库中各种时序关系的分布比例抽取12124条数据样本进行实验,识别模型的平均性能为67.57%的准确率。(3)尝试使用Wiki语料作为基础数据集构建事件时序关系知识库。本文将对原始Wiki语料进行加工整理,使其符合Evita处理规范。该整理加工过程分为三个阶段进行:单篇Wiki文章的提取,单篇Wiki文章的无用信息过滤,单篇Wiki文章的规范化输出。(4)构建事件时序关系知识库。经过加工整理后的Wiki语料经过事件识别、单文档事件时序关系链的构建、事件受事者识别、事件相似度计算、单文档事件时序关系链的合并等步骤,最终生成多个有向图。有向图的顶点是事件,边是事件间的时序关系,每个有向图包含时间上关联的事件集合。