中文时间表达式自动识别的研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:aiwen8431071
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
时间作为一种重要的语义载体,是我们生活中不可或缺的元素。通过时间信息,人们可以了解事件发生的经过,并可以根据时间信息的顺序整理事件,掌握事件发展的全过程。时间识别是自然语言处理的一项基本任务,它在机器翻译、事件检测与跟踪、舆情发现、自动问答系统、信息检索等领域有着重要的作用。本文首先简单介绍了中文时间表达式识别的研究现状与常用的研究方法,然后分别采用基于规则的方法、基于条件随机场模型的方法对中文时间表达式进行识别,并根据实验结果比较这两种方法各自的优点与存在的不足。在此基础上,提出一种统计与规则融合的时间表达式识别方法:首先,通过分析中文文本中时间词的词性、词性及上下文信息,采用条件随机场模型识别时间单元而非时间表达式整体,避免了中文时间表达式边界定位不准确的问题;之后,从训练语料中获取候选触发词,并设立评价函数对候选触发词进行打分,选出正确的时间触发词完善时间触发词库;最后根据时间触发词库与时间缀词库,制定规则对时间表达式边界进行定位。实验结果显示开式测试F1值达到97.32%。结合中文语言与时间表达方式的特点,本文将中文时间表达式分为七种类型,分别为:DATE类型、TIME类型、SET类型、DURATION类型、FUZZY类型、LUNAR类型、RELATIVE-TIME类型。在识别时间表达式的基础上,针对七种不同类型的特征制定相应的规则,确定时问表达式的类型。
其他文献
无线自组织网络的便利使得人们越来越关注了,但是正因为自组织网络便利的自组织性使得它比传统的有线网络以及基础建设的无线网络面临着更大的考验。其中,隐藏终端和暴露终端的
计算机仿真为这些问题的解决提供了可行性依据,它是一种可控制的、无破坏性的、耗费小的、并允许多次重复的试验手段,它高效、优质、低廉,是迄今为止最有效的并且经济的综合集成
目前,基于电场敏感原理的ECT二维图像重建只能反映某一时刻管截面的介质分布情况,不能反映两相流流型的变化趋势,因此在功能使用上受到诸多限制。为改变目前这一状况,本文提
基于数据流的时间序列异常数据挖掘可以用于交通领域的道路推荐、供水领域的管网监测以及证券、医疗、环保、电力等行业的检测和预报工作。这些领域产生的数据有着明显的时间
随着计算机硬件性能的不断提高和网络通讯技术的深入发展,对计算机的应用需求日益朝着高性能、大规模、多样性、多功能的方向发展,客观上要求将地理上分布的、异构的各种计算机
本文给出了开发装载加固三维辅助设计系统的方法。货物的装载加固是铁路运输组织工作的重要组成部分,在货物的整个运输过程中,装载是前提,加固是保证。这一工作的好坏直接关
本文针对在当前服务发现系统中服务匹配过程所存在的自学习能力较差的缺点,借助人工免疫系统中细胞变异、演化和二次响应等基本原理,通过模拟抗体—抗原之间的识别与响应机制
无线Mesh网络(WirelessMeshNetwork)简称WMN,是一种新型的无线通信网络。WMN具有自组织性和自愈的特点,是一种多跳的宽带无线网络结构,也是一种高容量、高速率的分布式网络。作
人脸检测作为人脸信息处理中的一项关键技术,近年来在模式识别与计算机视觉领域中已经成为一个十分活跃的研究方向,具有极高的学术研究价值和商业应用价值。随着智能化信息处
细分方法在高质量图形生成方面成为重要的工具,是计算机图形学和计算机辅助设计研究的热点之一。细分方法的基本思想是从粗糙的初始多边形网格出发,通过添加新的顶点,并与原