中文事件抽取关键技术研究

被引量 : 7次 | 上传用户:lovelyhuanhuan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web2.0的兴起,互联网发展越发迅速,人们可以在互联网中更加便捷与快速地获取信息。但是随着互联网中信息爆炸式的增长,人们不得不面对海量的信息,如何从大量非结构化文本中提取出人们真正需要的信息成为亟待解决的问题,信息抽取技术应运而生。事件抽取是信息抽取中一个重要的研究方向,有助于帮助用户从文本中检测出所需要的事件,提取事件所涉及的人物、地点、时间等事件元素,并将提取出的信息以结构化形式保存下来。这些信息无论是供用户直接查看,还是供机器翻译、文本检索、自动文本摘要、趋势分析等多种领域使用,都具有重要意义。本文研究中文事件抽取技术,主要包括时间表达式识别、事件检测与分类和事件论元角色抽取等三个部分。论文的主要研究成果如下:(1)研究了时间表达式识别,提出一种基于词典特征优化和依存关系的中文时间表达式识别方法。首先,优化了传统时间词典特征,将时间词典分为时间词词典和时间单位词典,缓解了中文文本时间表达式长距离依赖的问题;其次,在优化后词典特征的基础上提取依存特征,挖掘时间表达式的结构信息;最后,综合时间表达式的基本特征、词典特征和依存特征,利用条件随机场模型实现时间表达式识别。在ACE2005中文语料和TempEval-2任务中文语料上进行实验,该方法相对于传统基于基本特征与词典特征的机器学习方法,提高了准确率和召回率。(2)研究了事件检测与分类,提出了一种基于依存句法分析与分类器融合的事件触发词抽取方法。该方法通过综合利用事件元素信息和依存句法分析信息,抽取触发词-实体描述对,提高触发词抽取的召回率;然后,将触发词-实体描述对抽取结果与单一触发词抽取结果相融合,以避免召回率提高所带来的准确率下降问题。在ACE2005中文语料上进行实验,该方法在事件检测与分类任务中,相对于传统单一触发词抽取方法,提高了准确率和召回率。(3)研究了事件论元角色抽取,针对传统基于机器学习的方法通常将句法分析信息转化为平面特征,并不能全面利用句法分析信息的问题,提出了一种基于卷积树核的事件论元角色抽取方法。首先,构造基本树结构,将句法分析信息转化为结构特征;其次,针对句法结构树包含较多冗余信息的问题,设计相应裁剪算法,优化树结构,减少卷积树核计算的时间复杂度;最后,构造复合核将平面特征与结构特征相结合,并训练支持向量机分类器完成事件论元角色抽取。在ACE2005中文语料上进行实验,该方法相对于传统的机器学习方法,提高了事件论元角色抽取性能。
其他文献
研究了频域内半空间饱和土中单桩在瑞利波作用下的动力响应。首先利用Muki的虚拟桩方法,将桩土共同作用问题分解为拓展的半空间饱和土和虚拟桩的叠加。拓展的半空间饱和土用Bi
【正】为强化节令食品安全监管,让消费者吃到放心月饼,上海市食药监部门从8月份起在全市范围组织开展了月饼专项监督检查。他们重点检查月饼生产企业生产过程控制、原辅料索
电动气压止血带广泛应用于骨科四肢手术中,在应用中出现的并发症也日益引起临床护理人员的关注。如何能在最大程度上发挥电动气压止血带的优势又尽量避免其并发症的发生,一直
幼儿园成本核算对提高幼儿园办学质量,规范幼儿园的收费制度,实现幼儿教育可持续发展具有积极的促进作用.成本核算指标体系是建立在幼儿园全过程的成本核算,因此研究幼儿园成
目的 探讨品管圈活动在提高外科护理文书书写合格率中的应用效果。方法 通过品管圈活动,对外科护理文书书写过程中存在的问题进行改进,并将改进前、后护理文书书写情况进行比
对福建省发展体育旅游产业的自然与人文资源优势,以及体育旅游产业与微营销融合发展的必要性进行了分析,并基于微营销特点,结合体育旅游产业实际,提出了福建省体育旅游产业微
工业机器人的诞生已经拥有五十多年的历史,随着科技与工业的持续发展,工业企业人的应用范围与应用领域不断拓展,这极大提升了工业生产的稳定性与可靠性。工业机器人具有很强
生物传感器由生物分子识别元件(酶、抗原/抗体、适体等)与各类物理、化学换能器组成,用于各种生命和化学物质的分析和检测。安培酶生物传感器集固定化酶和电化学传感器技术于
分析了低空雷达面临的主要问题,介绍了低空抗干扰技术以及战术措施。
流行语作为具有网络时代文化特征的民间表述,为当下社会记忆的形成提供了可资评议的"民本立场"和"主观细节"。借助网络的大量生成和广泛传播,流行语逐步固化其"意义空间"和"