中文事件抽取关键技术研究

被引量 : 0次 | 上传用户：zhouyulong456

【摘要】

：

信息抽取是从文本中自动获取信息的一种主要手段。针对自由文本的信息抽取一般包括实体及其关系的抽取。但真实世界不断发生变化,实体的关系和状态也随之发生变化。而事件反

【作者】

：

谭红叶

【发表日期】

：

2008年期

【关键词】

：

事件抽取事件检测和分类论元角色名实体识别可信度估计

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

信息抽取是从文本中自动获取信息的一种主要手段。针对自由文本的信息抽取一般包括实体及其关系的抽取。但真实世界不断发生变化,实体的关系和状态也随之发生变化。而事件反映了实体参与者之间的关系和状态的变化。因此要想捕捉到实体之间状态的变化,必须针对事件进行相关信息的抽取。目前事件的检测与识别(Event detection and recognition,VDR,又称事件抽取)已被ACE(Automatic content extraction)评测会议定义为一项基本任务。ACE2005将该项任务定义为:识别特定类型的事件,并进行相关信息的确定和抽取,主要的相关信息包括:事件的类型和子类型、事件论元角色等。根据这个定义,可将事件抽取的任务分成两大核心子任务:(1)事件的检测和类型识别;(2)事件论元角色的抽取。除此以外,由于绝大部分的论元角色都是实体,因此实体的识别也是事件抽取的一项基本任务。本文从事件的检测和类型识别,事件论元角色的识别,事件触发词的识别以及实体的识别几个方面对信息抽取进行了研究,最后还针对事件抽取探讨了可信度估计的方法。具体来讲,本文主要从以下几方面作了研究:(1)研究了扩展名实体的识别。尝试利用半监督学习方法获取模式来缓解缺少大规模的扩展名实体的标注语料的局限性。具体采用了Bootstrapping这种自训练方法来自动获取模式;在迭代过程中利用准确率较高的词典资源评价模式的可信度,进而通过模式的可信度来评价实例的可信度,从而避免了叠代过程中的错误放大问题。在此基础上,研究了模式的泛化方法,提出了软模式和特征向量两种模式泛化的形式,并通过联合概率、二元同现概率和相似度的计算实现了模糊匹配,有效地提升了模式的覆盖能力和系统的性能。(2)对事件的检测和分类,以及事件触发词的识别进行了相关研究。针对ACE语料中存在着规模小,类别不平衡等问题,尝试利用好的特征选择策略来克服一般分类器在小类别和难识别类别上性能不佳的弊端。提出了一种基于局部特征选择和正负特征相结合的特征选择策略,充分保证了分类器在每个类别(尤其是小类别和难识别类别)上的识别效果。除此以外,研究了在事件类别已知的情况下事件触发词的识别,提出充分利用正反例特征,和《同义词词林》、Hownet等语义词典扩展特征的基础上进行触发词的识别策略。(3)研究了事件论元角色的识别。为了充分利用词法、句法等不同层级的语言信息,提出利用多层级模式的方法来进行事件论元角色的识别。每一级模式都包含不同层级的语言信息,既充分利用了准确率高的浅层词法信息,也考虑到了更能反应语言意义的依存句法信息;同时在更深层次的模式中引入软匹配部分,使模式更灵活,实现了模式的模糊匹配。接着,又探讨了基于CRF模型的事件角色识别方法,同时在特征选择中,将模式及其相似度作为特征,不仅扩大了分类器中使用的特征范围,而且使用的特征更加细致和全面,获得了较好的事件角色识别效果。(4)探讨了事件抽取可信度估计的方法。针对事件抽取存在精确率不完美的问题,探讨了两种可信度估计方法,一种是利用源系统输出概率进行直接的可信度估计;另一种是独立的基于ME的可信度估计方法。并利用ROC方法对可信度估计进行了评价。结果表明,独立的可信度估计策略比直接利用源系统的输出进行可信度估计显示出了更好的估计能力,为系统的实际使用奠定了基础。

其他文献

新型节能照明系统智能控制器

本文介绍了一种对教室照明灯具进行有条件的控制灯光亮度(或直接点亮、熄灭)的智能控制器;该控制器以ATmega16为控制芯片,利用人体红外感应模块和光检测电路,采集周围光线条

期刊

教室照明ATmega16红外感应节约电能

印染废水处理厂的设计

环境污染和水体富氧化问题的尖锐化迫使越来越多的国家和地区制定严格的氮磷排放标准,这也使污水脱氮除磷技术一度成为污水处理领域的热点和难点。因此研究和开发高效、经济

学位

印染废水处理脱氮除磷设计

《唐律疏议》法律伦理思想研究

中国法律伦理思想的产生,有其特定的环境土壤和其特殊的发展规律,但作为世界法律思想史的一部分,中国法律伦理思想也包含着其普遍性规律即人类对人道、善良、正义、平等、秩

学位

唐律疏议法律伦理立法伦理司法伦理现代启示

大学生知识产权法律意识研究

我国在知识产权方面的工作已有较大的进展,但是我国知识产权意识还很薄弱。高校培养出的大学生是国家未来发展中科技人才的主要力量,而在新形势下对大学生进行的法制教育中应

学位

知识产权知识产权法律意识知识产权保护培养途径

有限套利的研究

现代金融理论是建立在有效市场假说(EMH)和资本资产定价模型(CAPM)两大基石之上,其模型和范式局限在“理性”的分析框架中,忽视了对投资者实际决策行为的分析。随着金融市场

学位

行为金融学有限套利封闭式基金折价R/S分析

对数控机床的几点思考

随着科学技术的快速发展,数控机床在我们生产生活中越来越普及,本文主要对数控机床的优缺点进行分析,同时对数控机床的种类进行介绍,最后对数控机床的发展趋势进行了展望。

期刊

数控机床控制技术

饮用水安全保障应急处理技术研究

<正>一、引言水是生命之源,与人的关系极为密切。随着我国经济高速发展,环境污染日益严重,威胁着人们的饮用水安全。不仅如此,一些传统的和非传统的安全问题,如藻类水华发生

期刊

饮用水安全炭疽杆菌应急处理技术纳滤膜生物战剂饮用水处理消毒剂高压脉冲放电等离子体技术核生化

报业改革关键在于创新发行模式

报纸发行模式的不断变化，往往能引起报业经营的变革。剖析我国报纸发行当前七种模式的优劣成败，可以从一个侧面把握住我国报业经营今后改革的向度。本文认为，我国报业经营改革的

期刊

报纸发行报业经营模式创新

基于政府部门人力资本投资理论的公务员收入探析

政府部门人力资本是体现在公务员身上,通过保健投资、教育投资、职业培训投资等方式开发形成并能为其带来永久收入的能力。政府部门人力资本投资必然要求得到回报,因而对公务

期刊

政府部门人力资本投资公务员收入

两柱掩护式放顶煤支架与围岩关系及适应性研究

随着综放技术的成熟与推广应用,综放工作面开始向着自动化、信息化的方向发展。两柱掩护式放顶煤支架正是依据这一发展要求而研创的液压支架新架型。该架型在实践中表现出了

学位

两柱掩护式放顶煤支架支架与围岩关系端面顶煤稳定性适应性支架工作阻力双区失稳

中文事件抽取关键技术研究

与本文相关的学术论文