论文部分内容阅读
针对传统的支持向量机分类方法的特征选择未考虑到不同抽象层次上词汇的语义差异,提出了一种基于本体语义的支持向量机分类方法,在本体库的支持下有效地将语言学知识融合到文本向量空间的表示中,进一步挖掘出特征项概念间的深层语义联系,用得到的语义特征向量作为最终的文本特征向量。同时定义了基于领域本体计算不同抽象层上的语义权重,并将其应用到支持向量机分类算法中。在数据集CWT20G上的实验表明:OS_SVM(Ontology Semantic Support Vector Machine)算法对同义词、多义词、上下住词区分能力更强;并且分类准确率随着语义分析的深入逐步提高。