论文部分内容阅读
时间短语的自动识别对自然语言处理的基础技术和应用技术都具有重要意义。本文初步研究了现代汉语文本中时间短语的自动识别,主要研究内容包括以下四个方面:
(1)时间短语表现形式的区分。在参考TIMEX2规范对时间短语的分类及对标注语料进行分析的基础上,笔者将时间短语的表现形式划分为10类:揭示型、隐含型、指示型、集合型、联合型、非限定型、文化型、事件型、时段型和范围型。其中,事件型常常以小句形式出现在语言中,以事件为锚点,有时缺乏明显的前后边界,识别难度最大。
(2)服务于时间短语识别的知识库的建立。笔者综合语体、领域等方面因素,搜集了5天《北京晚报》的新闻语料以及近百篇散文语料,构建了一个小规模语料库。标注的范围包括时间短语类别、结构方式、构成部件以及特定的上下文信息。在此基础上,运用C#中Xpath相关的类对语料库中的知识实现自动抽取,建立起了识别软件所需要的知识资源:时间短语模式库、构成部件库、辅助词库、伪时间短语库和时问短语类别辨析库。
(3)时间短语识别程序的设计。程序包括预处理、数据切分、部件识别、模式检索、歧义分析五个主要模块。程序假设包含激活时间信息的小句S是一条完整的时间短语,数据切分模块以是否包含固定形式f为标准,将S分割为粗颗粒度数据段;进入部件识别环节后,程序通过查询构成部件库,对非f数据段中的构成部件进行剥离,最终建立起对应于S的时间短语结构模式集M;模式检索模块采用加权最大匹配法,依赖模式库中的知识,对M中的候选模式进行切分和筛选,最后确定S中所包含的时间短语的模式。部分时间短语的真伪以及表现形式需要结合上下文信息才能够判定。因此,伪时间短语库和时间短语类别辨析库中记录了特定时间短语词汇方面的前后搭配信息,为歧义分析模块服务。
(4)时间短语识别程序的测试。笔者选取的测试语料包括175篇新闻语料及部分文艺语料,通过将手工标注结果与程序自动抽取结构进行比较,计算时间短语识别的准确率、查全率、F值,测试结果基本令人满意。
与其他表现形式相比,事件型和文化型的测试指标偏低,主要原因是程序缺乏对文本语义层次的分析。如何提高事件型和文化型时间短语的准确率及查全率是笔者今后研究的方向。此外,构成部件库和模式库也需要进一步完善,以提高部件和模式的完备性、科学性。