论文部分内容阅读
聚类是数据挖掘领域的研究热点之一,但是聚类问题在现实应用中不能够得到很好的解决,原因在于聚类问题属于无指导环境下的研究。在传统的聚类算法中,各个特征通常被无差异地处理,即认为它们对聚类的贡献程度是相同的;然而,数据集内部噪音特征的存在,往往干扰了聚类结果。本文提出在无指导环境下的特征选择策略,用特征重要因子衡量特征对聚类结果的贡献程度并广义加权特征在聚类过程中的作用,通过迭代计算特征重要因子和重新聚类,最终达到稳态,从而实现优化聚类结果的目的。实验表明,采用广义加权方法的特征选择策略能够明显提高聚类结果的有效性。