论文部分内容阅读
为了使抽取的主题词更能反映领域文档的内容,提出一种基于本体的领域文档主题抽取方法。该方法利用领域文档的特点,使用领域本体对文档词汇集进行过滤,排除非领域高频词汇的干扰并降低文档词汇集维度,从而提高算法效率和抽取质量;利用同/近义词典对文档候选主题词及其权重进行合并,降低同/近义词对抽取结果的影响,使得结果更加全面准确。实验表明,该方法具有较高的正确率和召回率。