句子级中文事件抽取关键技术研究

被引量 : 0次 | 上传用户:ztwpc2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息抽取任务随着互联网信息爆炸式的增长越来越凸显其重要性,而事件抽取又是信息抽取中至关重要的一个研究点。它旨在将无结构化文本中人们感兴趣的事件以及事件所涉及到的时间、地点、人物等元素准确地抽取出来并以结构化的形式存储下来,以供自动文摘、自动问答、信息检索、舆情监控、话题检测等自然语言处理上层技术的使用和用户方便的查看。事件抽取一般都需要预先指定事件类型,然后或基于机器学习方法,或基于模式匹配方法识别事件类型和事件元素。并且在以往的研究中,很少有学者在多种不同源的语料下测试方法的鲁棒性。因此,以往的事件抽取系统在领域自适应方面表现欠佳。本文在总结传统事件抽取系统的经验和不足基础上,提出了句子级中文事件抽取的几项关键技术研究思路,并在完全不同源的三种语料下测试均取得了不错的效果。1.提出了基于触发词聚类的事件类型体系自动构建方法。不仅成功地发现了ACE 2005预先定义好的33类事件类型,还在金融领域和音乐领域有着不错的表现,这说明该算法具有较强的鲁棒性和领域自适应性。2.融入外部词典资源解决ACE语料数据稀疏问题。本文提出了基于同义词词林自动扩展触发词的算法,该方法成功的融入了外部丰富的语义资源和背景知识,并在ACE 2005语料上取得很好的实验结果。3.提出模板泛化方法解决基于模式匹配的事件元素抽取召回率不高的问题。本文提出了基于BestMatch的模板泛化算法。对任意两个事件实例模板进行匹配,计算其匹配代价并泛化。经ACE 2005语料实验证明该方法一定程度上弥补了模式匹配召回率不高的问题。4.在事件元素抽取任务中,本文提出,用依存句法分析结果定位事件元素,用名词短语句法分析结果识别事件元素边界。这种方法很好的结合了两种句法分析器的优点:依存句法更加擅长于分析句法成分,给出事件元素核心词,而名词短语句法更擅长识别名词短语,给出完整的事件元素。
其他文献
<正>"两观三性"建筑理论体系是何镜堂院士领导的团队,在文化建筑的创作道路上不断摸索、总结出来的一套理论体系。"两观"是指和谐整体观;与可持续发展观;"三性"是指地域性、
财产类犯罪分为取得罪和毁坏罪,按我国刑法的规定及刑法学界的通说,“非法占有目的”是成立取得罪的一个构成要素,我国刑法所设置的财产类犯罪,有的规定了“以非法占有目的”
农村留守儿童是伴随着中国城市化进程出现的一个新型社会群体,针对这一群体,教育学、心理学、人类学、人口学、社会学等学科从各自的角度对其进行了大量研究,大多数学者认为
此研究探索中国中小学体制下的班级社会心理环境对于学生的适应性的关系。以江光荣和林孟平所编制的《我的班级》问卷测量班级环境,选择学生的学校适应(由Teacher-Child Rati
类石墨烯量子点是一类与石墨烯量子点具有相似结构和性质的新型量子点材料。该类量子点不仅保留了其二维结构材料的原有性能,同时还展现出一系列新的或者更为优越的物理化学
农民收入问题是解决“三农”问题的关键所在。农业是我国的主导产业,是国民经济可持续发展的根基与后盾。因此,保障农业的基础地位,促进农民增产增收已成为政府亟待解决的热
本文介绍了防灾功能评价的主要内容,并以北京市海淀公园为例,通过对其防灾能力的现状调查与分析评价,得出其在防灾避难时所存在的问题,旨在对现有的防灾公园设计提供借鉴,提
针对小型无人机功能日益复杂,迫切需要提高实时性与可靠性等现状,开发了一套基于VxWorks实时操作系统的小型无人机飞行控制软件,实现了无人机自主起飞、空中巡航和自主着陆等
纵观我国以往古村落的保护历程,大多为"自上而下"式的强迫式保护开发。在保护过程中因为村民参与度缺失带来许多负面影响,更无从谈起对古村落进行实质性保护。本文以广西桂林
曝气池是活性污泥水处理系统的重要构筑物,而且是水处理系统中能耗最高的部分,其运行效率很大程度上影响着污水的处理效果和运行中的能耗费用的高低。因此研究曝气池内流动特