采用ReliefF特征加权的NIC算法研究

来源 :郑州大学 | 被引量 : 0次 | 上传用户:johnwangjohn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是一种非监督的机器学习方法。在数据集分布情况未知时,通常分析员会寻找一种合适的聚类算法将数据集人为地划分成若干类,从而揭示这些数据的真实分布。聚类分析是多元统计分析的方法之一,其基本原理是在无先验知识的情况下,按照物以类聚的原则分析模式矢量之间的距离及离散度,以样本的距离远近划分类别,相似的样本尽量归为一类,而不相似的样本分布在不同的类。采用这种分析方法可定量地确定研究对象之间的亲疏关系,从而达到对其合理分类分析等目的。NIC算法是基于最大化数据点与簇之间的互信息的聚类算法,它既不需要提供的数据的分布模式,也不需要提供集群内分布的参数模型。而是利用基于kNN熵估计量的方法来计算目标函数。然而,NIC算法假定待分析的样本中各维特征对分类的贡献是均匀的。事实上,由于构成数据集中特征数量的各维特征来自不同的传感器,存在量纲差异和精度及可靠性的不同。因此,每个特征对聚类的影响是不同的。为了考虑特征矢量中各维特征对聚类结果的不同贡献,本文提出一种基于特征加权的聚类算法,新算法利用特征加权技术ReliefF对特征进行加权变换,即给特征集中每一特征赋予一定的权重,并迭代更新权值,然后根据权值大小变化特征集,使得好的特征聚集同类样本,离散异类样本。特征加权后再对其进行聚类分析。算法中使用信息熵来反应特征项对聚类结果的重要程度。为验证所提出的基于ReliefF的NIC算法的合理性和有效性,本文进行了三组实验。涉及到了传统的NIC聚类算法和其他经典聚类算法。实验中将本文提出的加权NIC算法的与传统NIC算法、KMeans算法、DBSCAN算法的聚类效果进行了了对比。对比结果表明,加权NIC算法在精度,召回率和F测度上均优于传统的NIC算法和其他经典聚类算法。
其他文献
云计算给社会带来了许多变化,社会生活被不断地数字化。如何处理海量的数据成为了一个令人关注的话题。Hadoop是一个分布式计算软件框架,其包含分布式存储和MapReduce计算,能
强化学习是一类无需先验知识的机器学习方法,以Agent与环境不断的交互为主要特征,以寻找能带来最大期望累积折扣奖赏的策略为目标。强化学习中环境可能具有大状态空间甚至连续
高维多目标优化问题是现实社会中普遍存在的一种实际优化问题。相对于普通两到三个目标的多目标优化问题,高维多目标优化问题的最明显特征是目标个数较多,一般大于三个。而且,随
学术影响力评估是指针对文献、学者、期刊和科研机构等评估对象,评估其在学术领域的影响。学术影响力评估可以分类为以下四类问题:(1)文献价值评估问题及预测问题;(2)作者影响
基因转录调控是整个基因表达调控体系的一个重要方面,是基因遗传信息传递和表达的枢纽,也是基因表达调控机制发挥作用的重要环节。识别转录因子结合位点是理解基因转录调控机
学位
异构无线网络融合是未来网络的一个重要发展趋势。在异构无线网络环境下,用户可以充分利用不同无线网络的技术优势,获得"Always Best Connection, ABC"。但是这些不同类型无
双层规划是一类具有两层递阶结构的系统优化问题,在数学规划领域得到蓬勃发展,成为运筹学一个分支,目前已成功应用于诸多领域中,如经济学、管理学、金融学、工程应用等。同时
时间序列数据广泛地存在于生产生活的各个方面,其反映了事物不易直接观察的内部状态。与传统分类有所不同,时间序列分类过程中各个属性之间都是有次序关系的,因此时间序列分类问
当前信息时代,伴随着信息的极大丰富,人们如何有效选择信息成为急需解决的问题。在这样的背景下,推荐系统因其高效性和智能性,而倍受学术界和工业界关注。传统的推荐算法虽然有不