中文时间表达式识别研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户:jingjing17_
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息处理技术的飞速发展,命名实体识别技术越来越多的受到人们的关注。本文所研究的时间表达式识别,就是命名实体识别领域一项基础而重要的任务。时间表达式在自然语言处理领域有着非常广泛的应用。在主题检测与跟踪任务中,可以用时间来定位事件发生的先后顺序;在自动问答系统中,可以用来回答和时间相关的问题,如“多久,何时”;在机器翻译任务中,时间顺序的定位可以让译文更加通顺易读;甚至在网页结构分析方面,也有研究利用时间表达式特征提高网页分析精度。时间表达式识别技术主要分为两类:基于机器学习的序列标注方法和基于规则的方法。本文分别对这两类方法进行了深入而细致的研究。对于序列标注方法,本文介绍了目前主流的有监督学习模型:条件最大熵和条件随机场,并且分别使用两种模型实现了完整的中文时间表达式识别系统。实验结果显示,虽然序列标注方法在命名实体识别领域占据主流地位,但是对于时间表达式识别任务,基于条件最大熵模型构建的系统F-score达到79.1%,基于条件随机场模型构建的系统F-score达到79.5%,两者都无法很有效的完成时间表达式识别任务。目前,时间表达式识别领域,最为广泛使用的仍然是经典的基于规则的方法,本文也针对基于规则的方法进行了深入的探索。首先,构建人工规则库;然后,为了提高召回率,解决人工消耗问题,设计了基于训练语料自动学习规则的时间表达式识别算法,这样做充分利用了训练语料中大量的已标注信息;接着,为了提高正确率,本文又结合错误驱动思想进行规则剪枝,削减了规则自动学习过程所带来的“噪声”;最终,为了进一步提高系统整体识别性能,提出“时间基元”概念,并将自然语言处理领域中的分词技术应用到“时间基元”规则的构建中来,实验结果显示,该算法显著的提高了时间表达式识别的整体性能。“自动构建时间基元规则库”算法是本文的主要创新工作,它是一种基于正则文法的时间表达式识别算法:它基于“时间基元”进行规则构建,提高了时间表达式识别的召回率;同时使用基于错误驱动思想的规则剪枝算法,提高了识别的正确率,两者搭配有效提高了系统整体性能。在ACE07中文语料上的实验结果显著超过了现有水平,F-score达到89.8%。此外,本文提出的算法具有很好的通用性和扩展性,它可以有效利用训练语料自动构建特定领域高精度的规则库,进而完成实体识别任务。最终,结合上述研究成果,实现了完整的基于“自动构建时间基元规则库”算法的中文时间表达式识别系统。
其他文献
随着信息技术的迅猛发展,许多商业企业都实现信息化管理。但同时,企业积累的数据也越来越多,并且呈增量发展趋势。面对海量的数据,企业却不能从中提取出潜在的、有价值的信息
在面对巨大的市场压力和企业竞争的情况下,国内外各大企业都不断的通过建立信息系统和应用流程来提高生产效率和管理水平。随着信息技术的飞速发展,原先在企业内部建立的遗留系
学位
移动自组织网(Mobile Ad Hoc Network, MANET)是一组带有无线通信收发装置的移动节点组成的一个临时多跳的网络,网络中的节点既是主机又是路由器。MANET网络这种无中心、自组
汽车侧翻已经成为危及人类交通安全、造成伤害最大的交通事故类型之一。近几年的国内外的交通事故数据表明,汽车侧翻事故是仅次于正面碰撞的高发性交通事故。一个侧翻事故导
传统的网关设备,作为网络中的一个节点,主要用于连接两个使用不同通信协议的网络。然而,如今随着网络安全问题的增多,使用网关设备为其所在的内部网络提供安全网络安全防护也
随着数字电视的推广,基于交互式数字电视应用的开发越来越受到开发商的重视。数字电视中间件的发展使得交互式数字电视应用开发的技术已经不再成为应用开发的瓶颈,从而使得交互
一直以来自然灾害都是人类所要面对的巨大挑战,比如近些年来地震灾害在我国造成的不可估量的损失。国家大力提倡防震减灾、加强自然灾害预防性公共事务建设、提高公众的防灾
数据是企业的生命线,对于高度依赖信息的企业,各种灾难都有可能导致企业信息系统的瘫痪。如何尽量降低灾难给企业带来的负面影响并保证业务的连续性运营是需要高度重视的问题
随着互联网技术和多媒体技术的高速发展,数字信息的传输变得越来越方便。与此同时,由于数字信息很容易取得并传播,使得网络上充斥着未授权而被篡改或复制的信息。因此,为了遏
随着全社会的信息化进程的不断加速,当代学校教育也不能不受到这种“信息爆炸”的影响,教学资源再也不像先前那样单调和受制于教师个体知识视野的局限,呈现出海量增长和形态