论文部分内容阅读
利用信息增益函数对文档进行特征提取,根据特征在文档中出现的次数,将文档表示成为向量的形式.假设文档的特征之间是相互独立的,其特征和主题类别的联合概率分布为服从多项式分布.利用训练集中已标注的文档、学习特征和主题类别的联合概率分布参数,根据学习的结果,对测试集中未分类的文档进行分类.实验结果表明,分类具有较高的准确性.