面向文本的时间表达式识别与标准化方法研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:zuoluo1314
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本当中蕴含着大量的时间表达式,识别并利用文本中的时间表达式,对许多自然语言处理任务有所帮助,如自动问答、阅读理解等等。Time ML是针对文本中时间和事件的标注规范,在时间方面,它定义了时间表达式的定界与标准化值,让我们更科学地认识了时间表达式。本文根据Time ML中关于时间表达式的标注规范,利用手工与自动相结合的方式,对文本中时间表达式的识别与标准化进行了探究,主要工作和贡献如下:1.针对时间表达式识别,本文将其建模成模式匹配问题,并提出一种基于模式的方法TR。该方法首先手工构建了词例类型体系,接着利用词例类型抽象出时间表达式的模式,最后用生成的模式匹配可能的时间表达式。TR因其自动生成模式的特点而比一般规则方法需要更少的人工,同时具有很好的可解释性。在实验评测中,TR取得了较好的召回率,而精度却不甚理想。2.本文在TR的基础上提出了TR*方法。TR*在模式生成之后进行了模式选择,保留质量好的模式剔除质量差的模式。本文将模式选择问题建模成EBMC问题并使用一种贪心算法解决。在评测中,TR*取得了令人满意的结果。3.针对时间表达式标准化,本文提出了一种基于规则的方法TN。该方法主要通过人工设计时间函数来给词例分配标准化规则,再使用启发式算法将标准化规则组合成所需函数形式,最后依次执行。TN无需设计表达式层面的规则,同时更加灵活方便。在实验评测中,TN在各项指标上都取得了不错的结果。
其他文献
在生存数据分析中,人们常常需要同时处理生存数据和纵向数据,而分析这两类数据的常用方法是同时对生存数据和纵向数据分别建立模型,即构成众所周知的联合模型。目前,已有很多方法可对联合模型作推断,包括:频率方法和贝叶斯方法。但这些方法大都假设数据是完全观测的。然而,在许多实际应用中,人们常常遇见纵向数据或生存数据中的响应变量或协变量存在缺失的情况,因此,一些作者对有缺失数据的正态随机误差的联合模型,讨论了
眼睛是人类从外界获得信息的主要渠道,通过人眼的形态和特征来确定视线方向越来越成为计算机视觉相关研究的热点。视线追踪是一种利用人类眼部的运动情况来估计视线方向的技
随着全新连接时代的来临,涌现了许多无线新体验,他们的实现都依赖于高带宽频谱的超高速传输方式。同时,日常生活中各种大型小型公共区域需要布设高速通信网络。以及以智能制
螺旋波是一种常见的时空有序斑图,它产生于远离平衡态的各种系统中,是一类不需要波源就能够自维持的非线性波。神经元网络中出现螺旋波通常与某些神经疾病有关,例如癫痫发作
格子Boltzmann方法是近些年发展的一种流体系统建模和分析的介观研究手段,相比于有限体积等研究手段,这种方法处理问题简单,不需要复杂的网格划分和多次插值,精度和效率得到
本文研究了带时滞的四元数值的细胞神经网络和带有变时滞的克里夫德值上的惯性Cohen-Grossberg神经网络的反周期解的存在性及全局指数稳定性.通过运用重合度延拓定理,得到了带时滞的四元数值的细胞神经网络和带变时滞的克里夫德值上的惯性Cohen-Grossberg神经网络的反周期解的存在性;并通过构造Lyapunov函数的方法,得到带时滞的四元数值的细胞神经网络和带变时滞的克里夫德值上的惯性Co
我国进入新时代,高校的思想政治教育话语表达显现出社会主义核心价值观的价值引领更加深入人心、中国特色社会主义文化自信更加坚定、灵活生动又贴近生活的时代特色愈加彰显
随着时代的快速发展,提高国民经济的同时,我国职业病却保持在一个久居不下的地位中,并且导致疾病发生的原因越来越多。疾病的产生在威胁劳动者身体健康的同时还造成了巨大的
随着经济与社会的发展,农村劳动力进城务工,将子女留在农村由祖父母或其他亲戚长辈代为监管。由于农村留守儿童长期得不到父母的关爱与正确引导,长期以往,他们内心产生不同程
34CrNiMo6高强度低合金钢具有强度高、韧性好、淬透性好等优良的综合机械性能,广泛应用于航空航天、车辆、船舶等工业领域。经淬火和调质后的高强度、高硬度,使其成为典型的难加工材料,切削过程中由于材料变形抗力大,塑性流动和摩擦产生的热量高,刀具耐用度低,严重制约着其应用和产品质量的提高。近年来随着制造往精密、超精密、小型化方向发展,34CrNiMo6介观尺度切削加工基础工艺数据的缺乏,限制了其在相