基于集成学习初始化的k均值聚类算法研究

来源 :华南农业大学 | 被引量 : 0次 | 上传用户:edisonlin123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于信息技术的发展,海量数据涌现,数据挖掘已成为近年来计算机研究的重要领域。话题学习、分类、聚类、关联规则,模式学习等都属于数据挖掘的研究方向。其中,聚类分析是数据挖掘的研究热点,其目标在于多个将未知标签的对象按照一定规则分组,把它们划分为多个未知群集,在同一集群中的对象之间给予高度相似性,而一个集群中的对象与另一个集群中的对象之间存在很大差异。聚类分析主要分为基于层次聚类、基于分区聚类、基于网格聚类和基于密度聚类等。其中,k均值聚类算法属于基于分区聚类。由于k均值聚类算法原理简单、运算高效,其在各个领域的应用非常广泛。但是,对于传统的k均值算法,当算法随机选择初始簇中心点时,很容易选择到异常值点,或者选取的两个簇中心点的位置离得很近,影响最终聚类质量。对初始簇中心点选择的敏感性与不稳定性,是传统的k均值算法的一个主要缺点,也是提升k均值聚类性能的一个关键因素。本文提出一种全新的挑选初始簇中心的方法。该方法受聚类集成技术的启发,将多个弱聚类器组合成一个更好的聚类器。首先利用k均值聚类算法生成多个基聚类结果,然后使用集成聚类,比如EAC和HBGF等,将多个不稳定的基聚类成员融合成一个较好的预聚类成员,然后将该预聚类成员作用于k均值聚类算法的初始化,得到最终聚类结果。本文在实验中将预聚类结果和最终聚类结果的效果进行对比,以验明基于集成学习初始化的k均值算法性能优于普通的集成聚类算法。另外,本文也将所提出方法与其他几种选择k均值聚类算法簇中心的方法进行对比实验,验证在基于集成学习确定簇中心的方法下,k均值聚类算法更加稳健。在建立基于集成学习初始化的k均值聚类算法的基础上,本文进一步针对基聚类生成和基聚类集成的运算效率问题,研究其加速算法。为了提高运算效率,基于集成学习初始化的k均值聚类算法,提出基于降采样的加速初始化方法。具体地,首先将数据进行随机降采样预处理,进而在降采样的样本集上进行基于集成学习的初始化过程,快速得到一组簇类中心点,最后作用于k均值聚类算法中。在实验中,本文取不同的采样率,以对比加速化算法的运行时间和聚类效果。实验结果表明,随着采样率的降低,所提出聚类算法在时间耗费逐渐减轻的同时仍然保持较好的聚类性能,验证了所提出方法的算法加速效果。
其他文献
当前中国不孕不育症的发病率不断上升,导致这类生殖问题的因素众多,但本质上是由于生殖细胞生成异常与受精卵或胚胎发育异常所致。随着IPS诱导技术及体外培养技术的成熟,干细胞移植治疗这类疾病成为一种可能,但目前缺乏理想的大动物模型来评价干细胞移植的治疗效果。本团队前期利用Tet-on 3G可诱导表达慢病毒载体系统通过体细胞核移植的方法成功获得了一批p CW-m Stra8-Tet 3G-Flag-DTA
为探究不同栽培措施对杂草生长和水稻功能分子抑草作用的影响,以及水稻化感修饰物在不同作物中的应用。本研究以3个水稻材料(化感3号、百香占、N两优201组合)、稗草、玉米、大豆、以及水稻化感修饰物AB5046A为材料。在早晚季进行大田和盆栽实验,研究主要结果如下:(1)盆栽实验表明:淹水30d,深度为3cm时可促进稗草根茎叶生物量积累,但深度为7cm时可显著减少根茎叶生物量的积累。淹水30d,深度为8
GnRH是由下丘脑神经元分泌的一种激素,通过下丘脑-垂体-性腺轴对动物的繁殖起重要的调控作用。硫化氢(H2S)不仅是影响畜禽健康的一种环境因子,还是机体内一种重要的气体信号分子。研究表明,H2S对动物的呼吸、心血管、胃肠道、神经、肝脏和内分泌等器官系统的生理功能均具有重要的调控作用。迄今,环境中的H2S对动物下丘脑分泌Gn RH有何影响尚无报道,其作用机制也有待揭示。为了研究外源性H2S对小鼠下丘
产气荚膜梭菌是一种人兽共患病原菌,能引起人以及多种家禽家畜发病。鸡坏死性肠炎是由产气荚膜梭菌感染引起的肠道传染性疾病,它能导致肠道出血、坏死,病鸡体型消瘦、死亡,给全球家禽养殖业造成巨大经济损失,严重阻碍了养禽业的健康发展。随着抗生素的长期和不合理使用,细菌耐药性以及耐药谱正快速增强和扩展,抗生素类抗菌药物正面临前所未有的危机。本研究根据不同的表达菌,优化并合成裂解酶Cp51基因序列;Cp51基因
刚地弓形虫(Toxoplasma gondii,T.gondii)是一种具有脑嗜性的人畜共患寄生性原虫,与神经变性疾病有着紧密的联系,危害很大,其作用机制尚不清楚。速殖子能够穿过血脑屏障并且可以在脑组织中形成包囊,从而建立慢性感染,进而可以对机体的行为,记忆力以及辨别力等产生影响。目前尚无根治弓形虫的药物,所以进行体外实验研究弓形虫对宿主可能的损伤机制,提供新的研究思路,从而对弓形虫病预防以及治疗
本试验设计中采用了单因子进行随机分组,选择了二元杂断奶仔猪250头,并且要求在21日龄左右,仔猪健康且体重接近的。试验仔猪随机分为5个组,分别为无抗生素组A、抗生素组B、以及无抗抗生素日粮中分别添加500 g/t,1000g/t,2000 g/t的葡萄糖氧化酶(GOD)组C、D、E组。试验中每组设5个重复,每个重复10头猪。试验期为23~51日龄。在动物试验结束后对试验仔猪的生长性能,肠粘膜形态结
随着信息规模的爆炸性增长,推荐系统(RS)作为信息过滤的子系统可以帮助人们对信息进行分类并为其筛选可能感兴趣的内容。协同过滤(CF)作为RS中最有效的方法之一,在学术科研界和工业领域获得了十分广泛的研究和应用。在RS中,用户的反馈机制根据是否能够明确表示用户喜好可分为显式反馈和隐式反馈。大多数现有的CF推荐模型使用显式反馈和隐式反馈中的一种来分析用户的偏好和项目的特征,而不能同时利用二者的不同特性
国家为了让每一位学生都能公平地享受教育权利,一直都致力于保障教育公平,设立国家助学金资助贫困学生并努力改善助学体系。但是,目前的助学金资助对象的认定程序存在着诸多的问题。由于高校并没有直接接触学生的具体家庭背景,只能根据学生申请的书面材料进行判断。然而,有些学生利用社会关系通过开虚假贫困证明,夸大家庭的贫困程度等手段骗取助学金名额,导致部分真正的贫困生无法得到国家的资助。所以每年都有不少学校出现所
成纤维细胞生长因子受体1(Fibroblast growth factor receptor 1,FGFR1)是一种跨膜蛋白质,在与其配体FGFs结合后,可激活PLCγ,MAPK和PI3K-AKT等信号传导途径,并在细胞增殖、分化、存活和迁移过程中发挥重要作用。卵巢颗粒细胞的过度凋亡可能诱导卵泡闭锁,阻碍卵泡发育。研究发现FGFR1和p65参与调控卵巢颗粒细胞的增殖和凋亡,影响卵泡的生长发育。本研
性别控制技术在畜禽生产、育种等方面都能够发挥重要作用,其发展对畜牧业影响重大,但目前的主要性别控制技术,如流式分选精液技术、早期胚胎性别鉴定、体细胞克隆等虽然具有一定的性控效果,但也存在成本高、技术难度大等一系列的问题,无法广泛和大规模的应用于畜禽生产。因此,本实验根据已有的研究结果,采用CRISPR/Cas9系统靶向切割性染色体多拷贝序列,并使其在特定时期表达,从而减少某一性别的精子或胚胎数量从