论文部分内容阅读
不良文本过滤是当前的一个研究热点。通过对χ2统计量的具体分析,证明χ2统计量在2类文本特征项提取过程中特有的优势。提出正面文本阈值δ,并从理论上推断出该值的大小。在此基础上改进KNN算法,消除了KNN算法中N的不确定性,彻底实现了无参性,大幅减少了分类所用的时间。实验证明,该算法符合Web实时在线分类的要求。