【摘 要】
:
随着时代的进步和科技的发展,生活中需要处理的数据的数量、种类和表现形式都在急剧增长,如何从海量数据中提取有用的知识变得更加困难。在如此严峻的形式下,提高数据挖掘的
论文部分内容阅读
随着时代的进步和科技的发展,生活中需要处理的数据的数量、种类和表现形式都在急剧增长,如何从海量数据中提取有用的知识变得更加困难。在如此严峻的形式下,提高数据挖掘的能力变得刻不容缓。聚类方法一直是非常重要的数据挖掘方法,但传统的聚类算法大多是单视角聚类算法,处理单视角数据,单视角数据是大量的同种类的表现形式相同的数据,这与现实需求不相符。虽然单视角聚类算法可以分别对各个视角的数据分别进行聚类,最后通过集成的方法将各个聚类结果进行整合,但这种方法没有考虑视角之间的影响,结果会与真实结果有较大差别。因此传统的单视角聚类不适应于多视角数据。多视角数据时指同一个数据从不同的角度或领域出发会得到不同测量结果,而各个角度或领域的测量结果又可以单独用聚类算法进行分析。面对原有处理单视角的方法不适用于多视角数据处理的情况,在单视角聚类方法基础上研究多视角聚类方法,多视角聚类方法分别处理各个视角下的测量结果,在互补一致的原则下,建立视角间的联系和交互,成功解决单视角聚类的缺陷。但多视角聚类方法依然存在着一些问题需要解决。本文主要研究多视角聚类存在的一些问题,在传统多视角FCM聚类算法和传统多视角PCM聚类算法的基础上,提出基于熵和距离加权的多视角FCM聚类算法(EDWMVFCM)和加权多视角PCM聚类算法((MVW-PCM)。首先,针对多视角模糊C均值聚类算法中模糊指数物理意义不明确的问题,提出基于Harvard熵的异视角空间划分准则,因熵描述随机变量的不确定性的性质与模糊隶属度描述样本点归属的不确定性的性质相近,将熵理论引入到模糊聚类算法中,使目标函数取得最优解时,该视角下的Harvard熵取得最小值。其次,针对多视角模糊C均值聚类算法中默认属性相同的问题,提出基于粗糙集的距离加权策略,预处理中利用粗糙集算法为每一个属性设置一个权值,计算属性间距离时要考虑属性权值。最后,针对多视角模糊C均值聚类算法中默认视角相同的问题,提出具备多视角特征的自适应加权项,引入视角权重系数,并用信息熵表示,根据极大熵原理,使目标函数在取最优解时,凸显最具聚类效果的视角,降低聚类特性较差的视角对算法的干扰,从而提升多视角模糊C均值聚类的聚类效果。针对多视角PCM聚类算法中无差别默认视角权重一致的问题,提出视角间加权方法,对所有视角分配合理的权重且所有视角权重之和为1。针对多视角PCM聚类算法中各个属性权重默认相同的问题,提出视角内属性加权方法,赋予聚类质量较好的属性大的权重,聚类质量较差的属性小的权重。通过UCI数据库中数据集实验表明,该算法处理多视角数据时具有较好的聚类性能。
其他文献
目的:评估双气囊小肠镜(Double-balloon endoscopy,DBE)与多层螺旋CT(multidetector computed tomography,MDCT)对小肠肿瘤的诊断价值。方法:回顾性分析2010年1月至2016年12
近年来,颗粒物质由于其丰富的动力学行为和令人感兴趣的特性而引起了科学界的广泛关注。它们在被动减震设计,能量遏制,冲击防护以及重力驱动的致密颗粒流动靶中具有潜在的应
目的本研究旨在探究非小细胞肺癌(NSCLC)患者双时相18F-FDG PET/CT葡萄糖代谢改变与表皮生长因子受体(EGFR)突变的关系。方法本回顾性研究所收集的60例NSCLC患者在2013年8月
近些年来,我国经济条件迅速发展,居民生活条件不断提高,对环境质量的要求不断提高,但是我国对于目前空气质量有效的评价政策不健全,我国环境质量的治理迫在眉睫。目前主要的
众所周知,词汇教学贯穿于英语教学,一直被视为教学的重要部分。词汇作为语言的基础,是语言学习的基本材料。正如Wilkins(1972)曾说“没有语法,人们能表达的东西很少;但没有词汇,则什么都无法表达。”因此词汇教学是语言教学的重要部分。Nation(1990)将词汇分成接受性词汇和产出性词汇。但在初中阶段,初中生的产出性词汇远不如接受性词汇水平。词汇模因论是研究模因复制传播和模仿的一种新理论。最初
空间众包中的任务分配是指在满足给定的约束条件下,将空间众包平台上的多个任务分配给多个工人。为了简化算法设计,目前大多数任务分配方法都假设任务和工人是固定不变的。然
集成电路制造行业已经进入7nm技术节点,互连中的RC延迟、动态功耗与串扰噪声是影响器件性能的重要因素,工业界采用Cu/low-κ的互连结构成功降低这些影响。但是由于Cu在low-κ
党的十九大报告提出要实施乡村振兴战略,加快推进农业农村现代化。以习近平同志为核心的党中央高度重视乡村振兴战略,突出美丽乡村建设在推进乡村振兴过程中的重要作用。省委
目的本研究分析住院心房颤动(房颤)患者中高敏肌钙蛋白T(hs-c Tn T)升高的情况及其主要影响因素。方法回顾性收集2014年9月至2018年9月在我院住院治疗并检测过hs-c Tn T的非冠心病的房颤患者495例,年龄33-95岁,平均年龄为69岁,其中男性有269例(54.3%),女性有226例(45.7%),收集人口学资料、伴随疾病及危险因素、实验室指标、超声心动图结果,以表面健康人群第9
目的:本实验体外分离培养大鼠骨髓间充质干细胞,并用5-氮胞苷诱导骨髓间充质干细胞向心肌样细胞分化,为骨髓间充质干细胞移植治疗心肌纤维化提供良好的种子细胞。方法:(1)通过全骨髓贴壁培养法从wistar大鼠骨髓中分离骨髓间充质干细胞,在37℃5%CO_2培养箱内培养,当贴壁细胞接近大部分融合时反复传代扩增,在倒置显微镜下观察细胞情况,通过MTT法检测第2代骨髓间充质干细胞的吸光度值并绘制生长曲线,同