论文部分内容阅读
提出了一种用于排位特征变量的基于特征矩阵信息增益的无监督特征标注准则(IGc)及直接选择法(DS)、累积最大熵法(CEM)和最大信息增益法(IGM)3种新的特征过滤方法来降低聚类的复杂度.使用经典QCx,K-means聚类算法,在杆状病毒数据集(RSV)、混合血统白血病数据集(MLL)和急性白血病患者数据集(ALP)等3种不同的生物信息数据集上测试并对比了这些特征过滤方法和目前的偏差选择(vS)和基因修剃(GS)过滤方法对聚类结果的影响。试验结果表明,3种特征过滤方法在加速聚类过程及保持初始数据的聚类结构