论文部分内容阅读
针对话题分类文本训练集少、主题相似度大的特点,提出一种基于关联规则和粗糙集的话题特征提取方法。在向量空间模型的基础上,采用挖掘关联规则的方式生成规则集与文本主体,通过调节事务主体的最小支持度与最小置信度查找不同颗粒层次的话题,利用粗糙集理论对词语特征与关联特征进行属性约简。实验结果表明,该方法能提取文本集中描述的评论主题,具有较高的话题分类准确率。