【摘 要】
:
随着科技的不断发展,数据挖掘成为当下帮助用户从大量的数据中提取出有效信息的重要手段,与此同时,作为数据挖掘中重要分支的聚类分析也越来越受到各方面的关注。K-中心点算法是聚类分析中具有代表性的算法之一,克服了K-均值算法对于孤立点较为敏感的缺点,具有较强的鲁棒性,但是K-中心点算法仍在某些方面存在缺陷,例如,算法中的相似性度量大多采用距离的度量方式,这种方式均假设数据对象及属性之间是独立同分布的,但
论文部分内容阅读
随着科技的不断发展,数据挖掘成为当下帮助用户从大量的数据中提取出有效信息的重要手段,与此同时,作为数据挖掘中重要分支的聚类分析也越来越受到各方面的关注。K-中心点算法是聚类分析中具有代表性的算法之一,克服了K-均值算法对于孤立点较为敏感的缺点,具有较强的鲁棒性,但是K-中心点算法仍在某些方面存在缺陷,例如,算法中的相似性度量大多采用距离的度量方式,这种方式均假设数据对象及属性之间是独立同分布的,但实际情况中,数据对象及属性之间是非独立同分布的,因此,K-中心点算法的相似性度量方式有待改进;除此之外,K-中心点算法本身时间复杂度较大,初始中心点的选取对算法而言尤为重要。为提高算法的聚类效果与运行效率,本文对此进行了如下改进:针对K-中心点算法的度量方式为假设数据对象及属性之间是独立同分布的缺点,本文引入了无监督学习中的名义耦合相似性计算方法,用非独立同分布计算公式对传统欧氏距离计算相似度方法进行了替换,同时,由于此公式主要计算依据为属性值的频率,但数值型数据对于频率并不敏感,因此,针对数值型数据,本文在引入公式之前,将数值型数据按属性列根据欧氏距离进行聚类与替换,设计了NI-PAM算法,使聚类效果更佳。针对NI-PAM算法初始中心点采用随机选取方式的缺陷,本文利用邻域半径来优化初始中心点的选择,根据数据对象之间的非独立同分布相似度,建立相似度矩阵,遍历矩阵,统计每一个数据对象在邻域半径内所包含其他数据对象的数量,将包含量最多的对象选为第一个初始点,然后在相似度矩阵中将此对象邻域半径内包含对象互相之间的相似度均归零,重新遍历矩阵,依次类推,直到选出k个中心点,优化后的算法提高了NI-PAM算法的运算效率。在以上改进中,提高了算法的正确率,并通过优化初始中心点提高了NI-PAM算法的运行时间,但由于引入公式的计算较为复杂,时间效率还有待提高,因此,本文重新引入了数值型数据耦合相似性计算公式,并对皮尔森相关性系数替换为了斯皮尔曼等级相关系数,设计了N-NI-PAM算法,实验证明,算法的正确率也得到了很大提高,并且运行时间大大减少。改进后的算法在UCI数据集上进行了验证,实验验证表明,NI-PAM算法与N-NI-PAM算法正确率较之欧氏距离下的K-中心点算法均得到了很大提高,且N-NI-PAM算法具有较好的运算效率。
其他文献
<正>目前我国农作物秸秆能源化利用仍处在发展的初始阶段,不同技术的研发深度和产业化发展不平衡。秸秆固体成型燃料、秸秆压块饲料等技术正日渐成熟,处于推广应用的试点示范
研究了大豆分离蛋白在熏煮香肠加工时,对产品的得率和质构特性的影响。随大豆分离蛋白添加量的增加,熏煮香肠的得率也增加。大豆分离蛋白添加量在2%~3%时,产品的硬度、内聚性
近年来,随着我国经济社会快速发展,来华留学生越来越多,其教育规模日益扩大,在此背景下,必须提高教育层次及质量,通过借鉴一些国外留学生先进的教育经验,找出适合来华留学生的教育方
世界粮食组织最近发表报告说,在众多的工业化国家中,美国的贫穷儿童比率最高,其次是澳大利亚。美国18岁以下的贫穷人口比率为22%,12岁以下面对饥饿的儿童人数为1300万,比率高
<正> 复殖类吸虫的生活史通常要经过虫卵、毛蚴、胞蚴、雷蚴、尾蚴及囊蚴几个阶段。随大便排出的虫卵有的是单细胞的,有的卵内已含有成熟的胚胎(毛蚴)。有的虫卵在子宫内孵化
红薯这种“土生土长”的中国玩意,也开始受到美国人的追捧了。据报道,现在红薯成了很多美国人的宠儿——烤红薯干、红薯片、炸红薯片卖得火热,原因就是,红薯含有大量的膳食纤维、
目的:针对食管癌患者实际状况,构建适合我国食管癌患者的症状评估量表,为食管癌患者症状评估提供科学依据;将该量表应用于临床,探讨食管癌术后患者化疗前(T1),化疗三个周期后(T2),化疗六个周期后(T3)三个时间节点,症状群发生的频率、强度及构成的变化规律,为临床工作人员进行科学的症状管理提供依据。方法:本研究分为两部分,第一部分为食管癌患者症状评估量表的构建,通过文献研究结合对食管癌患者、临床医护
英国学校道德教育根据学生的心理发展特征进行设计,注重加强学生的道德认知和激发,循序渐进、由表及里,全力训练学生的道德能力.教育的方法主要有文化传递法、关心体谅法、社
模块式教学是以实例技术为中心组织技术教学的教学方法,对处于改革中的职业教育有着极大的指导意义。模块式教学遵循"实用为主,够用为度"的原则,将《汽车自动变速器原理与检修
针对目标高速运动引起宽带雷达回波间包络平移使得距离扩展目标的检测率降低的问题,提出了一种距离扩展目标回波序列的慢时间谱积累(STSI)检测器.采用频率-慢时间模型描述距离