论文部分内容阅读
随着信息技术的发展,中文电子文本信息资源正以惊人的速度急剧增长。文本自动处理技术,通过自动组织海量文献信息资源,能够为用户提供简易有效的信息检索服务。关键词自动抽取是文本自动处理的基础和核心。汉语的特殊性加剧了中文文本关键词自动抽取的难度。本文提出了一种基于N-gram权重计算和关键词筛选算法的中文文本关键词自动抽取方法。该方法不依赖特定的数据集和中文分词技术,可以有效地抽取出任意单篇文本的关键词,而且通过参数调整,应用系统可以灵活地控制标引深度和标引专指度。实验表明,该方法简单、快速、断词错误率低,标引