论文部分内容阅读
结合文档频数DF(Document Frequency)和特征相似度FS(Feature Similarity)方法,提出一种新的无监督特征选择方法DFFS。该方法利用文档频数过滤掉90%的特征之后,再借助特征相似度移除尽可能多的冗余特征。采用K-均值方法,对比DFFS方法与其他3种常用特征选择方法(DF,TC,TS)的聚类性能。实验一:当特征数量由6000减少到1047时,DF方法的聚类性能急剧下降,而DFFS方法则有提高,甚至当特征数量进一步减少到350时,DFFS方法也没有下降。实验二:在保持10%