论文部分内容阅读
时态信息广泛应用在自然语言处理、信息检索等领域,而时间关键词识别更是时态信息应用的关键,其直接影响到时态信息的使用。时间信息在文本或句中形式多样性、位置随意性以及边界不确定性等特点成为时间关键词识别任务中的难点。为了解决中文时间关键词的识别问题,通过分析文本语句结构并结合语法结构树提出短语划分方法,将文本转换成短语集从而确定短语边界;在此基础上提出短语向量化表示法,以此构建向量空间;最后,引入谱聚类的聚类思想,将识别问题转换为聚类问题。实验证明,运用该方法进行中文时态关键词识别具有较好的效果。