面向数据稀疏问题的英文事件抽取研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:yfyzp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
事件是一种描述特定人、物、事在特定时间和地点相互作用的客观事实。事件抽取旨在从非结构化的自由文本中抽取出事件信息,并以结构化的形式表示。结构化的事件信息包含触发词、事件类型、事件成员及其角色。现有的事件抽取方法往往受限于数据稀疏问题而导致性能不高,数据稀疏问题是指由于语料规模较小、类别分布不平衡等问题造成模型训练不充分,难以在测试集中正确抽取出在训练集中未出现或出现较少的事件信息。针对事件抽取存在的数据稀疏问题,本课题提出以下解决方法:利用框架语义知识优化事件抽取本课题引入框架语义知识以辅助解决事件抽取中存在的数据稀疏问题。该方法首先将框架语义知识库FrameNet中的框架类型作为泛化特征,在此基础上进行框架类型和事件类型的映射,然后结合框架类型识别模型和事件类型识别模型进行协作判定,以此优化事件抽取的召回率和F1值。基于主动学习方法的事件抽取方法针对现有的事件抽取语料规模较小且标注质量不高,本课题引入基于串行模型和基于联合模型的主动学习方法,旨在提高语料标注的效率和质量。在基于串行模型主动学习方法的查询函数中,首先倾向于选择触发词分类不确定度较大的样例进行标注,直到触发词分类的不确定度较稳定时,再逐渐加大事件成员分类的不确定度权重。基于联合模型的主动学习方法将事件抽取的两个子任务触发词分类和事件成员分类看作一个整体的序列标注任务,即在查询函数中不再区分触发词分类和事件成员分类两个子任务的不确定度,而只需要考虑一个整体序列标注任务的不确定度。统计与词典相结合的事件抽取方法现有的事件抽取方法往往忽视长文本的短语作为触发词的情况,并且没有考虑伪事件中否定词和不确定词的作用范围,具有较低的召回率。针对上述问题,本文提出一种统计和词典相结合的事件抽取方法,该方法首先将高置信度词典特征分别加入最大熵模型和条件随机场模型,然后融合两个模型的结果,以提高触发词分类的召回率和整体性能。此外,针对事件真伪性识别任务,本文进一步考察否定词或不确定词与触发词的物理位置距离和依存路径距离等特征,以提高事件真伪性识别的性能。
其他文献
护士排班问题是一个具有挑战性的题目,由于医疗机构和护理工作的特殊性,护士排班问题通常具有各种各样的约束条件。良好的排班方案有助于鼓舞团队的士气,营造良好的工作氛围,从而
为了解决现有Internet面临的高速交换、服务质量(Quality of Service, QoS)保障、网络安全和移动性方面的问题,四川省网络通信技术重点实验室提出了“单物理层用户数据交换平
随着互联网服务爆发式增长,用户对海量数据的需求加大,如何在动态网络环境中设计具有高可用性和高可靠性的分布式存储系统,已经成为热点问题。P2P技术的成熟推动了网络存储技
作为一种新型的群集智能算法,蚁群算法从20世纪90年代提出至今,被广泛应用于求解复杂的组合优化问题,如调度问题、TSP问题等,取得了比较好的效果。然而蚁群算法自身也存在着不足
SQL注入已成为数据库严重的威胁之一,目前主流的防御SQL注入的方式是采取预编译SQL以及基于特征库的过滤,但是这两种方式在实际的应用中缺乏部署的灵活性和识别的准确性。本
基因表达谱数据的分析研究对于生物学和生物信息学而言具有极其重要的意义,尤其是对基因功能与条件的关联研究尤为重要。传统的聚类方法是用相似性度量函数确定基因的相似程
随着互联网的发展,社交属性成为互联网应用中最基本的元素之一,社交网络在移动终端上也有很广阔的应用前景。社交网络服务(Social Networking Service,简称SNS)是一种综合的
高校中对程序设计类科目传统的评测方法一般都需要教师参与,具有耗时、耗力以及评测结果受主观因素影响较大等诸多弊端。如何改进传统的评测方法使得它能更加准确和高效已经
智能视频监控是计算机视觉领域一个新兴的应用方向和备受关注的前沿课题。在智能视频监控系统中,运动目标的识别和跟踪是研究的热门话题。目前,许多关于多目标跟踪的算法在实际
植物是自然界最重要的组成部分之一,与人类的生存与生活密切相关。所谓虚拟植物(Virtual Plant),就是利用计算机来模拟植物在三维空间中的生长发育过程,以可视化的方式来反映