论文部分内容阅读
自动标引就是指利用计算机自动给出能表达文本信息内容的主题词或关键词的过程。为了适应信息资源快速增长的需要,和解决传统人工标引的费用高昂、效率低下、一致性差等缺陷,自动标引的研究成为必然趋势且具有重大意义。根据标引词来源的不同,自动标引方法分为关键词自动抽取标引和自动赋词标引两种方法。目前国内外的研究主要集中于自动抽词标引,即利用计算机自动从文本信息中提取出可以表达文本核心内容的主题词成为标引词。本文在研究、分析和总结前人的自动抽词标引方法的基础上,选择文本信息计算机自动抽词作为标引词的技术进行了研究,并完成了以下工作:(1)阐述了自动标引技术的研究意义。它是检索系统的基础,以及自动摘要、自动分类、自动聚类、机器翻译等自然语言处理领域的技术前提。介绍了标引词、关键词、关键短语、主题词、术语和受控词等自动标引相关的概念,确立关键词、关键短语或主题词为自动标引主体。概要介绍了计算机自动标引技术的流程步骤,及每一步骤的处理要求和相应方法。最后简要描述了中文自动标引分词技术的几类方法原理。(2)针对英文自动标引系统中的抽取候选关键词这一过程进行研究,引入了核心单词集这一概念。在研究核心单词集和关键词集之间关系的基础上,结合n-gram法,提出了由核心单词定位潜在候选关键词,再根据核心单词前后拓展树生成侯选关键词这一算法思想。并与n-gram法生成候选关键词进行结果比较,将传统的n-gram法生成候选关键词集缩小到原来的2/7,并且没有增加计算复杂性。(3)针对中文信息的自动标引技术研究中TF-IDF统计加权法的不足,考虑到词语的其他统计信息(词性、位置信息和互信息)对候选关键词成为最终标引词的权重计算的影响,在TF-IDF算法的基础上增加这些统计信息,提出了改进的自动标引多特征融合方法及其计算公式。最后进行了数值实验,并就自动抽词标引实验准确率、召回率和综合指标F等技术参数进行了对比分析。结果表明,改进的自动标引多特征融合算法较已知TF-IDF统计加权法提高了查全率和查准率。