论文部分内容阅读
自动标引是文本信息预处理的基础和核心,摘要信息的自动标引仍是目前研究的热点.本文对自动标引的研究立足于档案文献这一专门领域.本文首次将基于词首最长匹配的词典分词法,结合基于段句分割符表及停用词表的切分标记分词法,运用于档案文献的摘要自动标引,提出并实现了"正向扫描(POSITIVESCANNER)+最大匹配(LONGEST_WORDMATCH)+最小推进(SHORTEST_WORDPUSH)"(简称PLS)的分词优化算法,最后设计了一个通用的档案信息标引系统.