论文部分内容阅读
以单个词语作为文本分类特征的传统方法会丢失词语的语义信息和必要的词语关系信息.在充分考虑词语的词频、语义信息和主要词语间依赖关系的基础上,提出了融合的多角度的特征提取方法.该方法利用词频和停用词表进行特征词的静态选择,基于知网利用语义信息进一步精简特征词,融入共现词组体现词语搭配关系并提高重要词语的分类作用.基于VSM的文本分类实验证明,该特征提取方法全面可行且能有效提升分类效果.