论文部分内容阅读
针对传统简单距离分类方法的特征选择未考虑到不同抽象层次上的词汇语义差异,提出了一种基于本体语义的简单向量距离分类方法,在本体库的支持下有效地将语言学知识融合到文本向量空间的表示中,进一步挖掘出特征项概念间的深层语义联系,用得到的语义特征向量作为最终的文本特征向量。同时定义了基于领域本体计算不同抽象层上的语义相似度,并将其应用到简单向量距离分类算法中。在数据集CWT20G上的实验表明:基于本体语义的简单距离分类算法对同义词、多义词、上下位词区分能力更强;并且分类准确率随着语义分析的深入逐步提高。