论文部分内容阅读
设计了一种用于OA系统主题词提取算法,该算法包括单句聚类、抽取代表句、代表句分词和主题词提取几个步骤。采用层次凝聚法作为单句聚类算法,研究公文句子的特点,设计了代表句抽取算法,根据公文群体较为单一的特点,建立主题词词库以及主题词提取规则库,对机械分词法进行改进,设计了代表句的分词算法,实现了公文搜索主题词的自动生成。