【摘 要】
:
目前已有的聚类算法大部分局限于处理连续属性或是分类属性的数据,然而在实际应用中,许多数据集是由连续属性数据和分类属性数据共同组成的,仅适用于单种数据类型的聚类算法
论文部分内容阅读
目前已有的聚类算法大部分局限于处理连续属性或是分类属性的数据,然而在实际应用中,许多数据集是由连续属性数据和分类属性数据共同组成的,仅适用于单种数据类型的聚类算法就不能满足需求。因此,对混合了分类属性数据和连续属性数据的聚类算法的研究,具有重要的理论意义和实际价值。本文的主要研究工作包括以下几个方面:(1)首先介绍无监督离散化算法和k-ANMI聚类算法,然后提出基于一种无监督离散化的混合数据聚类算法,在UCI数据集上的实验结果表明,提出的无监督离散化的混合数据聚类算法聚类混合类型数据是非常有效的。(2)有监督离散化算法CAIM的介绍,然后提出基于有监督离散化的混合数据聚类算法,在UCI混合数据集上的实验结果表明,提出的算法优于k-prototypes算法,UCI连续数据集上的实验证明,提出的基于有监督离散化的连续数据聚类算法对比k-means算法具有更好聚类效果。(3)介绍基于质谱技术的蛋白质鉴定以及蛋白质推断问题,然后提出如何应用本文的聚类算法解决蛋白质推断问题,并给出解决方案,通过真实的蛋白质数据验证算法在蛋白质推断应用中的可行性和有效性。
其他文献
五十年前,由美、苏、英签署了举世闻名的《雅尔塔协定》。认真剖析协定内容,不难发现,三大国是以损害中国领土和主权为代价,以换取苏联参加远东对日作战的
正确分析优抚安置对象的民生需求,不仅是做好优抚安置工作的迫切需要,而且也是促进社会和谐稳定的重要议题。实证研究的结果表明:第一,优抚安置对象的基本生活水平较低,各类
西部大开发、建设中国—东盟自由贸易区和云南实施“三大发展战略”,给云南边境民族地区高职教育发展带来了前所未有的机遇。本文对云南边境民族地区高职教育存在的问题进行
鲁迅独特的死亡意识是其得以韧的战斗的精神潜能的动源。鲁迅死亡意识的形成经历了萌芽期与发展期,由自身童年深刻的感性体验延伸至对个体生命死亡的关注。在《野草》和《朝
让孩子战胜恐惧,是每一个父母的愿望,而做为父母要了解孩子产生恐惧的原因,这样才能正确对待孩子的恐惧心理,采取相应的办法使孩子走出恐惧的泥潭。
东晋的宫廷音乐文化很不健全,宫廷娱乐音乐也不丰富,这与东晋朝廷在音乐文化构建中不积极吸收江南吴歌有很大关系。究其原因,一是中原士族优越的文化观念,二是南北语言的差异
通过分析沈从文小说中湘西方言的运用,解释这些词语在小说创作中所起到的作用,力图说明方言的运用使沈从文小说更富有感染力。
吉林省作为农业大省,农村地域广阔,东西部不同的生态资源、生活习惯、耕作特点、民族风格、历史文化,造就了吉林省农村成为旅游资源的富集区。因此,发展乡村旅游对丰富旅游产