论文部分内容阅读
聚类分析是一种非监督的机器学习方法。在数据集分布情况未知时,通常分析员会寻找一种合适的聚类算法将数据集人为地划分成若干类,从而揭示这些数据的真实分布。聚类分析是多元统计分析的方法之一,其基本原理是在无先验知识的情况下,按照物以类聚的原则分析模式矢量之间的距离及离散度,以样本的距离远近划分类别,相似的样本尽量归为一类,而不相似的样本分布在不同的类。采用这种分析方法可定量地确定研究对象之间的亲疏关系,从而达到对其合理分类分析等目的。NIC算法是基于最大化数据点与簇之间的互信息的聚类算法,它既不需要提供的数据的分布模式,也不需要提供集群内分布的参数模型。而是利用基于kNN熵估计量的方法来计算目标函数。然而,NIC算法假定待分析的样本中各维特征对分类的贡献是均匀的。事实上,由于构成数据集中特征数量的各维特征来自不同的传感器,存在量纲差异和精度及可靠性的不同。因此,每个特征对聚类的影响是不同的。为了考虑特征矢量中各维特征对聚类结果的不同贡献,本文提出一种基于特征加权的聚类算法,新算法利用特征加权技术ReliefF对特征进行加权变换,即给特征集中每一特征赋予一定的权重,并迭代更新权值,然后根据权值大小变化特征集,使得好的特征聚集同类样本,离散异类样本。特征加权后再对其进行聚类分析。算法中使用信息熵来反应特征项对聚类结果的重要程度。为验证所提出的基于ReliefF的NIC算法的合理性和有效性,本文进行了三组实验。涉及到了传统的NIC聚类算法和其他经典聚类算法。实验中将本文提出的加权NIC算法的与传统NIC算法、KMeans算法、DBSCAN算法的聚类效果进行了了对比。对比结果表明,加权NIC算法在精度,召回率和F测度上均优于传统的NIC算法和其他经典聚类算法。