时间表达式识别与归一化研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:dick_ust
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在自然语言中,时间是一种重要的语义载体。人们通过了解一个事件的开始、发展和结束的时间信息,把握事件发展的全过程。时间信息识别在信息抽取、问答系统、摘要生成、话题跟踪和检测等领域中有着广泛应用。本文对时间信息识别的研究现状、研究方法等作了简要的介绍与分析,并简要介绍了TIMEX2标注规范,分别采用了基于规则的方法和和基于统计的方法对中文时间表达式进行识别,并对英文时间表达式的识别和归一化进行了探索。在基于规则方法的中文时间表达式识别中,根据时间表达式范围的句法标准,采用了基于依存句法分析的方法,然后通过将错误驱动方法融合到依存分析方法中,大大改进了实验结果,最终实验结果达到了76%以上。在基于统计方法的中文时间表达式识别中,依次使用了SVM、CRF方法以及改进CRF方法。这是首次将CRF方法应用到中文时间表达式识别中,选用了一系列有效特征,并对特征进行了扩展。用ACE标准评测工具对系统进行了评测,最终识别结果达到90%以上。评测结果表明:基于统计的方法优于基于规则的方法;在基于统计的方法中,CRF方法优于SVM方法;改进后的CRF方法在不影响时间表达式识别效果的情况下,提高了识别的效率。在英文时间表达式识别与归一化中,采用SVM方法对时间表达式进行识别及分类,然后使用规则对每一类时间表达式进行归一化。将统计方法引入时间表达式归一化中,其结果优于纯规则方法且减少了写规则的工作量。总之,本文对中文时间表达式的识别以及英文时间表达式识别与归一化进行了探索,取得了较好效果和有益结论。
其他文献
数据库知识发现(KDD)是当前涉及人工智能和数据库等学科的一门相当活跃的研究领域,序列模式发现是其中的一个重要研究方向。当前序列模式发现算法需要多次扫描数据库,挖掘所
随着互联网的广泛普及和网络服务的多元化,获取各类信息的方式已经逐渐从文字和图片过渡到音频和视频。VoIP(Voice over IP)是一项利用互联网进行语音通信的热门业务,通过对
随着集成电路设计和工艺技术的发展,嵌入式系统因为具有高性能、低功耗、便携式的优点,已经在移动通信、机顶盒、智能卡等信息终端中得到了广泛的应用。而作为嵌入式系统核心
随着工作流技术的快速发展,特别是对于大型企业,他们所持有的模型库通常含有海量的多样的模型。当今针对大规模工作流模型库的应用已经成为一个研究热点。其研究成果广泛地应
XML数据具有自描述性、可扩展性,既有内容也有结构信息,XML文档常见于Internet上存在的网页、商业文本、数字图书馆等,XML文档数量正呈指数级增长。如何有效地解决异构的XML
认知无线电网络用于解决频谱固定分配政策导致的无线频谱资源的浪费,它允许认知用户使用其物理范围内未占用的频谱资源(频谱空洞)从而提高无线频谱的利用率。传统认知无线电
基于数字图像处理技术的车牌识别系统主要是由图像预处理、车牌定位、字符分割和字符识别四大核心技术构成,它在智能交通领域中有着广泛的应用,同时也是计算机视觉、图像处理
P2P业务不断增加,造成了网络带宽的巨大消耗,甚至引起网络拥塞,降低其它业务的性能,成为杀手级宽带互联网应用。因此,实现P2P流量的有效识别已经成为亟待解决的问题。P2P应用使用
随着校园网规模的不断扩大,校园网管理者,既是网络设备管理者,需要对校园网内的网络设备进行管理和维护;又是网络接入服务者,需要为校园网用户提供接入服务;也是网络业务提供
虚拟人作为虚拟现实技术中一个重要研究分支,被广泛用于航天、航空、军事作战与训练、医学、教育等领域的虚拟仿真系统中,具有极其重要的作用。虚拟人运动控制算法理论基础要