论文部分内容阅读
针对中文文本分类中特征提取的语义缺失和低频词问题,提出一种基于LDA和SVM的中文文本分类算法,首先将LDA与卡方统计特征提取算法结合,根据计算结果得到Top k个指定数目的词项作为特征词,使用SVM进行分类,并与互信息、信息增益进行对比,结果分析显示与主题模型相结合的卡方统计特征提取方法有更高的分类精度。