中文时间短语的自动识别

来源 :北京师范大学 | 被引量 : 0次 | 上传用户:hanzedong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
时间短语的自动识别对自然语言处理的基础技术和应用技术都具有重要意义。本文初步研究了现代汉语文本中时间短语的自动识别,主要研究内容包括以下四个方面:   (1)时间短语表现形式的区分。在参考TIMEX2规范对时间短语的分类及对标注语料进行分析的基础上,笔者将时间短语的表现形式划分为10类:揭示型、隐含型、指示型、集合型、联合型、非限定型、文化型、事件型、时段型和范围型。其中,事件型常常以小句形式出现在语言中,以事件为锚点,有时缺乏明显的前后边界,识别难度最大。   (2)服务于时间短语识别的知识库的建立。笔者综合语体、领域等方面因素,搜集了5天《北京晚报》的新闻语料以及近百篇散文语料,构建了一个小规模语料库。标注的范围包括时间短语类别、结构方式、构成部件以及特定的上下文信息。在此基础上,运用C#中Xpath相关的类对语料库中的知识实现自动抽取,建立起了识别软件所需要的知识资源:时间短语模式库、构成部件库、辅助词库、伪时间短语库和时问短语类别辨析库。   (3)时间短语识别程序的设计。程序包括预处理、数据切分、部件识别、模式检索、歧义分析五个主要模块。程序假设包含激活时间信息的小句S是一条完整的时间短语,数据切分模块以是否包含固定形式f为标准,将S分割为粗颗粒度数据段;进入部件识别环节后,程序通过查询构成部件库,对非f数据段中的构成部件进行剥离,最终建立起对应于S的时间短语结构模式集M;模式检索模块采用加权最大匹配法,依赖模式库中的知识,对M中的候选模式进行切分和筛选,最后确定S中所包含的时间短语的模式。部分时间短语的真伪以及表现形式需要结合上下文信息才能够判定。因此,伪时间短语库和时间短语类别辨析库中记录了特定时间短语词汇方面的前后搭配信息,为歧义分析模块服务。   (4)时间短语识别程序的测试。笔者选取的测试语料包括175篇新闻语料及部分文艺语料,通过将手工标注结果与程序自动抽取结构进行比较,计算时间短语识别的准确率、查全率、F值,测试结果基本令人满意。   与其他表现形式相比,事件型和文化型的测试指标偏低,主要原因是程序缺乏对文本语义层次的分析。如何提高事件型和文化型时间短语的准确率及查全率是笔者今后研究的方向。此外,构成部件库和模式库也需要进一步完善,以提高部件和模式的完备性、科学性。
其他文献
本文主要从以下五个部分对杨维祯竹枝词和《西湖竹枝集》进行研究:   第一部分:绪论。这里简要介绍了杨维祯竹枝词和《西湖竹枝集》的概况,概述当前的研究状况并指出可研
0引言目前,一种测量微差压的新型液体压力计广泛地应用于制药、食品、化工、环保、电力等领域,适用于洁净、空调、净化、通风、燃烧室等系统的微差压监测。该压力计与传统的
语言和文化关系密切,学习一种语言必须懂得与该语言相关的文化知识。现在随着各国交流的日益密切,“汉语热”风靡世界,这促使了对外汉语教学事业在我国发展的突飞猛进。在这一新
随着济南电视台发射机的更新和添加,对各类数据的采集和存储的要求也越来越大,为了对发射机的各类数据更好地进行管理,特设计了本系统。本文对系统的架构、组成、设计等进行
在长期的历史中,越南深受中国文化的影响。至今,在越南的社会生活中,汉文化的影响依然随处可见,庄子及其书对越南文化的影响亦是毫无疑问。根据史料记载及其他证据,可以肯定《庄子
研究了微波消解样品,试液用ICP-AES法同时测定样品中铅、镉、铬、砷的新方法。在选定的最佳条件下测铅、镉、铬、砷的检出限分别为0.0008、0.0007、0.0018、0.0012(μg·L~(-
存现句是汉语中的重要句式之一,常用于描写、解释中。繁多的种类和特殊的结构使存现句成为汉语作为第二语言学习中的难点,本文考察母语为韩语的学习者习得汉语存现句的情况。
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
1 IntroductionrnThe collapse angle of the fine blanking part is the collapse phenomenon caused by the plastic deformation of the material near the edge of the d