【摘 要】
:
随着“大数据”一词的频繁出现,数据挖掘也成了一个热点名词,它代表着将大而杂的数据转换成信息的一个综合过程,聚类分析是它的重要研究方向之一。聚类算法是聚类分析的重要工具,而聚类数目往往是决定聚类算法性能的关键,鉴于大部分聚类算法需要预先给定类别数的现状,因此确定最佳聚类数是我们更好地进行数据挖掘重要一步。由于研究问题的日益复杂化,越来越多的混合属性数据成为了处理对象,然而针对混合数据的聚类研究却没有
论文部分内容阅读
随着“大数据”一词的频繁出现,数据挖掘也成了一个热点名词,它代表着将大而杂的数据转换成信息的一个综合过程,聚类分析是它的重要研究方向之一。聚类算法是聚类分析的重要工具,而聚类数目往往是决定聚类算法性能的关键,鉴于大部分聚类算法需要预先给定类别数的现状,因此确定最佳聚类数是我们更好地进行数据挖掘重要一步。由于研究问题的日益复杂化,越来越多的混合属性数据成为了处理对象,然而针对混合数据的聚类研究却没有得到很好的发展,所以针对混合数据的聚类有效性研究并以此来确定最佳聚类数在当今时代具有针对性和适用性。本文在大数据背景下,分析了混合属性数据的聚类有效性问题的重要性,进而对聚类有效性问题进行深入研究;之后针对现有的聚类算法的缺点进行改进以提高算法的效能,最后结合D-S证据理论提出针对混合属性数据提出DSKP算法,并总结该算法的优越性和特点,提出聚类有效性未来的可能发展方向。在改进聚类算法方面,做了如下几个方面的创新工作:(1)基于数据属性的特征确定初始聚类中心以降低初始聚类中心选择的随机性,同时针对大型数据提出进行简单随机抽样的处理方式,以达到降低异常值对聚类结果的影响和提高算法运行效率的目的。(2)基于混合数据主成分法提出改进分类型数据权重~?的方法,根据混合数据主成分分析法可以将多变量数据综合为几个综合因子的原理,利用R软件的AFDM函数将去噪音后的混合属性数据集做主成分处理,根据分类型数据占综合因子的比例来确定分类型数据的权重。(3)依据D-S证据理论在判定不确定因素的优势,将改进后的聚类算法结合传统版和进化版的D-S证据理论,提出两种版本的DSKP算法,并通过实例验证其在解决混合数据的聚类有效性问题的优越性和普适性。
其他文献
本文介绍了日本设计大师原研哉的作品情况,以设计中人文情怀为研究重点,以设计作品为理论依据,深入分析了梅田医院的导向设计中的人文情怀的设计理念,揭示人性化理念当下的特
<正>"随文练笔"在当今小学语文阅读课堂中很常见,它是一种言语实践活动,融读、写为一体,以其篇幅短、耗时少而深受老师们的青睐。但同时,也出现了一些低效,甚至偏离课堂教学
<正>新研究表明,食用辣椒,番茄,以及其他茄科属蔬菜可以降低罹患帕金森症的风险。华盛顿大学的科学家发现,经常食用茄科属蔬菜,特别是辣椒,可以有效降低帕金森症患病风险。研
<正>颅脑损伤使颅腔的封闭状态遭到破坏,有脑脊液自体表溢出时称脑脊液漏。除颅底骨折发生的脑脊液耳鼻漏外,脑脊液漏是神经外科术后最常见的并发症,经久不愈,易导致颅内感染
由于信息技术对教育的挑战,信息技术应用于课堂教学,使得传统的教学设计无法适应新的要求,信息化教学设计应运而生,随之信息化教学设计成为了研究的热点。信息化教学设计强调以学
本研究探讨将小组成绩分工法(STAD)应用于高中英语词汇教学中并证明其能提高学生英语词汇的学习能力和兴趣。目前,高中英语词汇教学仍未突破传统模式,存在“教师讲解多,学生思考
<正>寒冬腊月,朔风阵阵,大江南北又飘散着缕缕腊肉的香味,惹人一品为快。腊肉,是将经过腌制的咸肉,在烘房中经火烘或烟熏而成的肉制品,其历史悠久,《易经》载:"晞于阳而炀于
人力资源绩效考核是企业人力资源管理的关键部分,然而现在企业的人力资源考核制度还存在着一些问题,对企业的绩效考核进行改进有利于有效的提高企业人员的工作效率和工作质量
<正>如果从2004年9月2日经国家质检总局和国家标准委批准发布的《乘用车燃料消耗量限值》算起,我国开始有制度、有标准地控制汽车的燃料消耗量已经有10年时间,同时,这十年也
稳定二氧化氯消毒剂是世界卫生组织确定的最佳消毒剂之一,我区也有大量生产,但是它一直不被人们所认识,在医疗卫生方面应用甚少。本文主要介绍我们近期将其应用到饮食和理发