聚类分析中K-means算法的改进及应用研究

来源 :山东科技大学 | 被引量 : 0次 | 上传用户:hanshuang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析在数据挖掘领域具有广泛而重要的应用,其中K-means算法是聚类分析中最经典有效的算法之一。但K-means算法受聚类簇数目、初始聚类中心位置和样本对象特征的影响,可能使聚类结果产生较大误差。为了获得更加准确的聚类结果,本文从样本对象特征和初始聚类中心选取入手,研究了 K-means算法的改进问题。通过引入信息熵和局部方差来刻画样本对象特征的权重,并将其应用于欧氏距离的计算中,同时,在初始聚类中心的选取方面,本文借助了样本对象密度和最远距离来选取初始聚类中心,通过数值实验验证了改进算法的有效性。此外,利用本文给出的改进算法,研究了航空客户细分问题,为企业做出精准的营销策略提供知识支撑。主要具体工作如下:1.针对样本对象特征在聚类过程中重要程度不同的问题,本文提出了特征加权的K-means算法。首先根据信息熵计算样本对象特征权重,利用加权的欧氏距离代替标准欧氏距离划分初始聚类簇,然后再利用聚类簇内样本对象特征局部方差加权的欧氏距离划分迭代过程中的簇。最后在UCI数据集上进行数值实验,验证了改进的算法能够提高聚类结果的正确率。2.针对初始聚类中心对孤立点的敏感性和选择的随机性问题,设置了最小邻域点数,将样本对象划分为核心点和孤立点,选取核心点中密度较大且相距较远的样本对象作为初始聚类中心,并结合特征加权的欧式距离,提出了优化初始聚类中心的特征加权K-means算法。最后在UCI数据集进行数值实验,验证了改进的算法能够得到稳定且准确的聚类结果。3.将改进的K-means算法运用到航空公司客户数据的研究中,通过聚类分析得到了 5个具有现实意义的客户类别,并通过深入分析每个客户群体的特征,评价客户价值,提出了针对不同价值客户的个性化的营销建议。本文的最后,对符号数据和文本数据等其它类型数据的聚类分析问题,以及无需设定参数的初始聚类中心的选择方法,提出了进一步研究的课题。
其他文献
汉代乡里社会研究是乡村社会史研究的一个重要分支,有其自身的独特性和研究价值。通过对汉代乡里制度、乡里结构以及乡里社会组织的自我调节、控制、发展和完善等深入分析,归纳和总结出其运行机制和内在逻辑所在,这不仅有利于拓宽中国乡村社会史研究的领域,而且有利于加深对基层乡村社会问题的认识。本文以汉代乡里社会为中心,结合相关研究成果,运用历史社会学、结构功能主义、社会冲突功能论等理论视角,从三个方面综合探讨了
目的:血栓性血小板减少性紫癜(thrombotic thrombocytopenic purpura,TTP)是一种临床罕见的危急重症,未经及时治疗死亡率超过90%,本文旨在通过对10年单中心49例确诊TTP患者的临床表现、实验检查、治疗方案、结果等进行分析及讨论,探讨TTP的临床特征,帮助临床医生能更加准确的作出诊断,减低早期误诊率,分析可以用于判断预后的危险因素,对比不同治疗方案的疗效差异,从
乳腺发育和功能性分化受乳腺上皮细胞与其细胞外基质环境相互作用的调节。细胞通过细胞膜表面整联蛋白家族黏附受体从细胞外基质接收信号。整联蛋白协助细胞通过响应激素和生长因子刺激来感知其所处的生长发育环境。基底膜主要组成成分—层粘连蛋白支持催乳素(prolactin,PRL)激活JAK2-STAT5信号通路,有利于乳蛋白基因(例如β-酪蛋白编码基因CSN2)的转录。β1亚基参与形成的多种β1型整联蛋白异二
全球股价崩盘事件如2008年次贷金融危机以及2015年中国A股千股跌停等,动摇了资本市场投资者的信心,进而给实体经济发展带来了巨大冲击。频发的股市整体暴跌现象更凸显了研究中国背景下股价崩盘因素的重要性。本文将理论与实证相结合,首先从内部治理、外部治理、制度环境三个方面探讨了股价崩盘风险的影响因素,并分析了客户集中度对企业存在的风险效应与治理效应。随后,本文对客户集中度以及股价崩盘风险的概念进行界定
绿色发展是构建我国现代化经济体系的必然要求。十八大以来,我国大力推进生态文明建设,持续进行污染防治,不断壮大绿色环保产业,加强生态系统保护修复。《全国生态保护“十三五”规划纲要》强调,大力推进生态文明建设,要加强政府、企业、公众生态保护培训,强化企业保护生态的主体责任,这充分表明企业保护环境的重要性。员工作为企业的活动主体,其亲环境行为是企业环保实践的基础,直接影响企业环保绩效的高低。员工实施有利
目的本实验从脑-肠轴的两端入手,观察电针“印堂”和“大肠俞”穴对IBS-D模型大鼠肠道症状与情绪的影响,结合其对多巴胺D2受体表达的影响以及对VPL、ACC神经元放电影响,探讨不同主治的穴位对IBS的效应差异及作用机制,促进对穴位效应特异性机制的认知。方法随机将64只新生wistar大鼠分为空白对照组、模型对照组、印堂组和大肠俞组,联合方法造模,大鼠9周龄时予对应穴位电针干预,隔日1次,共5次。使
生活中经常伴随着恶劣天气的影响,雨天场景下会大大降低拍摄图像和视频的质量,影响人们的观察以及计算机视觉系统进行检测与识别的性能。因此,研究图像的去雨算法具有重要的应用价值。依据处理的数据类型,去雨算法的研究分为视频去雨和单幅图像去雨两种类型。去雨的关键是使雨去得干净,同时又能尽量减少其他细节信息的损失。论文对视频和单幅图像去雨算法进行了系统总结,并重点针对单幅图像的去雨问题进行研究。论文的主要工作
在全球经济数字化飞速发展的当下,跨越国境的个人信息流动也愈发频繁。个人信息跨境流动所承载着的经济利益与信息安全、主体隐私权、国家安全等问题不断凸显,越来越多的国家开始重视对个人信息跨境流动进行立法与监管保护。但是,由于价值追求的不同,美国提倡“数据自由化”的价值以追求数字经济产业的发展,欧盟加强“数据本地化”来强调保护信息主体的权利。两种价值存在着对立的利益,故而两种价值引导下的规则也有所不同。在
目的:通过回顾既往病例,观察中医温阳益气法对亚低温治疗重型颅脑损伤后出现寒痰阻肺证肺炎的临床疗效。方法:本研究为回顾性研究,选取中医温阳益气法应用于亚低温治疗重型颅脑损伤后出现寒痰阻肺证肺炎病例70例,均符合纳入标准及排除标准,根据是否应用中医温阳益气法代表方参附汤,将选取的70例病例分为观察组、对照组,两组组内各有35例,两组均给予重型颅脑损伤西医综合基础治疗,入院后或术后立即予以亚低温治疗72
解决好退役士兵就业问题事关社会稳定,事关强军大业,是我们党一以贯之的优良传统。为此,习近平总书记多次指示要解决好退役士兵就业问题。文章采用行动研究法、访谈法和文献研究法,通过对一个退役士兵的个案工作介入,帮助案主解决就业问题,同时摸索社会工作介入退役士兵就业问题的经验。文章提出,造成退役士兵就业问题的原因包括:择业心理预期不合理、存在非理性信念、职业技能缺乏、学历偏低、政策知晓度低以及交际圈局限。