论文部分内容阅读
摘要:该文主要探讨如何从技术上实现基于卡方统计检验的文本特征选择,文中提出采用开源的Lucene索引框架对文本分类语料库进行索引,设计了在特征值计算的过程中如何借助语料库索引快速获取卡方统计检验的相关参数,并使用java多线程技术从整体上优化每个分类下文本特征选择的计算效率。
全文查看链接
3.2 卡方统计中四个参数的计算
全文查看链接