文档频数相关论文
垃圾邮件过滤本质上是一个二类文本分类问题,特征选择是其一个重要的组成部分。针对垃圾邮件过滤问题的特殊性,基于“差分贡献”的......
停用词的处理是文本挖掘中一个关键的预处理步骤。该文结合现有停用词的处理技术,研究了基于统计的藏文停用词选取方法,通过实验分析......
结合文档频数DF(Document Frequency)和特征相似度FS(Feature Similarity)方法,提出一种新的无监督特征选择方法DFFS。该方法利用文档频......
特征提取作为网页分类中的一个必要步骤,起着重要作用.提取算法性能的优劣将直接影响到分类的质量.通过对几种提取方法的分析比较,......
本文在介绍文本分类的背景及传统基于向量空间模型特征选择不足之处的同时,提出了不同特征选择方法相结合的文本分类模型。该模型......
垃圾邮件过滤本质上是一个二类文本分类问题,特征选择是其一个重要的组成部分。针对垃圾邮件过滤问题的特殊性,基于“差分贡献”的思......
对文本分类技术进行研究,首先介绍文档频数特征词评价方法;然后提出一种词分布均衡度评价的特征词选取方法,最后分析基于词分布均......