中文时间规范化方法研究

来源 :山西大学 | 被引量 : 7次 | 上传用户:gudujian123456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在自然语言中,特别是在新闻事件中,人们比较关心的是事件的内容,而在一个事件中,时间是一个关键的因素,现在网络上充斥着大量的新闻信息,当人们需要了解发生了什么事,什么时候发生,以及它们之间存在怎样的联系,才发现这要花费大把的时间。因此,时间和事件的推理引起了自然语言处理的新的兴趣,在自然语言处理方面具有非常重要的意义,包括命名实体识别和自然语言理解等。时间信息在自然语言处理领域也有很广泛的应用,包括文本理解,信息抽取、信息检索、问答系统、主题发现和跟踪、文本摘要和数据挖掘到机器翻译等。因此本文以时间信息处理领域中一个重要方面——时间规范化作为研究目标。本文的研究重点是新闻文本中的时间规范化,其任务是将新闻中的时间信息定位到时间轴上,并用一种标准的格式表示出来。时间规范化任务,是识别事件-时间的映射关系,识别事件的时序关系的基础。1.确定需要规范化的时间类型。本文参考ACE时间标注规范,对中文时间信息重新进行了定义和分类,对需要规范化的时间进行了确定和总结。2.提取时间识别模式。根据新闻语料中时间表达式的构成特点,我们总结了提取时间表达式的几条模式:包括发表时间的模式,报道时间的模式以及句子中所有需要规范化的时间类型的模式。然后利用模式匹配的方法从语料中识别出需要规范化的时间。3.基于语料模块化的时间规范化。把文本分割为关系紧密的小的模块,本文以一篇报道为处理模块,结合参考时间和模块内时间的属性,对识别到的时间求值,并转换为标准的时间格式。如“今天”转换为“xxxx/xx/xx”的形式,“三天”转换为“P3D”的形式等等。实验结果表明,本文使用的模块化的时间规范化方法是行之有效的,对新闻中时间信息的识别时间规范化的任务都达到了较好的效果。最后,本文以实验中的错误结果为例,详细分析了错误原因,并对一些问题提出了解决的思路。在今后的工作中,我们将就目前的研究方法做出一些改进,为推动时间信息处理的深入发展做出努力。
其他文献
随着计算机网络和企业信息化的不断发展,网络的安全访问控制越来越重要。访问控制是通过某种途径显示的准许或者限制访问能力和范围的一种方法,在当前的企业环境中,它是解决
目前高校已经构建了很多信息系统,这些系统往往是异构的,彼此之间联系比较少,而实际使用中我们经常要访问多个信息系统,这就需要在不同系统之间来回切换,反复的输入用户名、
本文介绍了全新的Rla(RichInternetApplication)技术,并且与其他web应用程序的对比。RIA提供了桌面软件友好的UI与Web应用的快速和方便部署,而且对音视频通信的支持也是非常
随着社会的发展,国际化趋势已经渗入到社会的各个领域,软件行业也不例外。近年来很多软件公司想要获取更丰厚的利润、开拓更广阔的市场,本国市场已经满足不了其需求,于是纷纷开拓
学位
本课题是基于武汉市交通安全教育基地建设中的软件系统项目展开的,解决适合其所需的视频处理功能模块中视频编码压缩、视频转换编码等问题。   交通安全问题一直是各个国家
学位
随着互联网技术的飞速发展,基于Internet的应用服务种类越来越多,以网络为中心的信息服务和应用服务受到各行各业的重视。在以信息家电、智能家居、智能小区及中央空调的发展为
学位
20世纪科学技术的飞速发展促进了地理学研究的飞跃。随着计算机技术的不断进步与地理信息系统的迅速发展,人们对空间数据信息处理的要求逐步提高。而地理信息系统技术是空间信
学位
插件式体系结构是一种很灵活的体系结构,插件能够动态地插入到系统之中,并且可以被自由删除和替换,从而可以实现系统功能的动态加载。随着GIS应用的深入,不断外延的应用需求
遗传算法(Genetic Algorithm)是模拟达尔文生物进化论的自然选择和遗传学的生物进化过程的计算机计算模型,是一种通过模拟自然进化过程搜索最优解的方法。在本质上,遗传算法是
学位
在现今的WEB应用开发中,MVC架构已经是设计开发系统的主流架构。而随着对此体系架构的进一步研究,数据持久层的提出有着深远的意义。数据持久层的建立可以有效地解决系统开发中