面向混合属性数据的自适应三支聚类算法的研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:wangcaihong121
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析作为一种有效的无监督数据挖掘方法,已经广泛地应用在教育、商业、农业等许多实际领域中。为了克服传统二支聚类算法不能够有效表示数据对象与类簇之间存在的不确定性关系,三支聚类算法应运而生。在三支聚类表示中,类簇用两个集合表示,其将数据空间划分为三个域,即:核心域中的数据对象确定属于该类簇,边缘域中的数据对象可能属于该类簇,琐碎域中的数据对象确定不属于该类簇。一方面,目前的三支决策方法研究中,往往需要通过合适的评价函数以及相应的阈值来获得三支结果。但是,阈值的设定往往没有科学且高效的方法。另外一方面,现实生活中存在着大量混合属性数据。因此,论文针对面向混合属性数据的自适应三支聚类算法进行了深入的研究。针对三支聚类阈值问题,论文提出了一种基于引力搜索的自适应三支聚类算法。受物理学中万有引力定律的启发,根据二支聚类结果中数据对象局部质量的分布,以万有引力公式作为评价函数,将初始聚类结果中未被聚类的数据对象,根据万有引力大小划分至其邻居类簇的核心域、边缘域或者琐碎域中。同时,在聚类的过程中,针对每一个未被聚类的数据对象,三支决策阈值能够自适应地调整。通过多组实验分析,保证聚类效果的同时,基于引力搜索的自适应三支聚类算法不仅能够有效保留二支类簇的形状信息,而且能够有效解决重叠聚类的问题。同时,为保证工作的完整性,论文提出了一种改进密度峰值聚类算法作为二支聚类算法,获得二支聚类结果并发现没有明确类簇归属的数据对象。针对混合属性数据相似性度量问题,论文提出了一种基于加权树结构的混合属性数据相似性度量方式,能够有效减少相似性度量过程中属性值信息的损失。针对分类属性以及有序属性,构建加权树结构,充分考虑了属性值语义、属性值个数以及属性值在数据集中出现的频率;针对数值属性,进行归一化处理。同时,结合基于引力搜索的自适应三支聚类算法,论文进一步提出了面向混合属性数据的自适应三支聚类算法。在真实数据集上进行的多组实验结果说明了新算法的合理性以及有效性。
其他文献
研究发现含有曼尼奇碱(β-氨基酮)结构的化合物,具有消炎镇痛、抗癌、抗精神病、抗高血压等多种生物活性,在医药领域有重要应用,在织物染料和聚合物化学等材料科学中也有重要应用。因此,曼尼奇碱的催化合成是有机化学研究热点之一。近年来,大量的质子酸和金属路易斯酸被用于曼尼奇反应(Mannich反应)的催化研究。值得注意的是,第四副族金属——钛和锆的四价盐都对曼尼奇反应有很好的催化作用。本课题组在前期研究K
斑布蚋(Simulium maculatum)是世界性分布的重要医学昆虫之一,该虫不但叮吸人、畜血液,还传播病毒及致病细菌,严重影响了新疆阿勒泰地区农业牧业生产及百姓生活。目前国内外
激光剥蚀电感耦合等离子体质谱(LA-ICP-MS)是一种原位微区分析技术,是地质领域样品分析的重要工具,能够快速准确地定量分析多种矿物矿石中的微量元素。然而,在现阶段质谱分析技术优化进展中,国际上将研究重点放在质谱干扰以及非质谱干扰上,采取一些专业的比值、精密度分析等手段,而国内研究主要涉及到一般应用以及联机应用等技术,存在着很多不足之处。质谱干扰(同质异位素干扰、多原子离子干扰、双电荷离子干扰)
南盘江盆地位于桂西、黔南及滇东交接部位,地处特提斯与滨太平洋构造交汇处。对于南盘江盆地晚古生代的大地构造性质及演化尚存在争议,而硅质岩的成因对理解盆地构造演化具有重要意义。因此,本文选择了南盘江盆地上古生界硅质岩为研究对象,并开展了相关的岩石学和地球化学研究,以探讨硅质岩成因和形成构造环境。南盘江盆地晚古生代硅质岩地球化学特征表明:盆地东部(六强和那洋)上泥盆统榴江组有较明显的Ce负异常(Ce/C
精氨酸作为一种功能性氨基酸,需要通过相应的转运载体进入细胞内,发挥其在鱼类的生长、免疫及肠道黏膜等方面的重要作用。鱼类肠道作为维持机体内环境稳定的一道重要屏障,对
近年来,随着中国积极推进中国文化“走出去”,汉译外及其研究越来越受到国内译界重视,诸多学者开始投身于中国文化典籍的外译以及当代的传统文化学术研究成果的外译和研究,并
本文主要研究一维及多维空间中带Neumann边界条件四阶发展型方程的局部间断有限元方法。四阶发展型方程作为一类重要的扩散方程,在工程中应用广泛,可以作为薄梁板、应变梯度弹性、相位差二元混合物等具体问题的数学模型。局部间断有限元方法是由间断有限元方法发展而来的一类可以高精度、高效率地解决高阶偏微分方程数值求解问题的有限元方法。然而在实际应用中,许多问题数学模型的边界条件并非是常见的周期边界条件。例如
背景帕金森病(Parkinson’s Disease,PD)是中老年第二大中枢神经系统退行性疾病,临床表现以运动症状为主,主要包括运动迟缓、静止性震颤、肌强直和姿势平衡障碍等。PD主要病
随着金融市场的发展,期权种类日益丰富,美式障碍期权由其价格低廉且交易灵活而在风险对冲领域极其活跃,故其定价问题一直广受研究者关注。但是和欧式障碍期权不同,欧式障碍期
近年来有限时间有界控制以其在实际工程应用中的实用性与有效性,引起研究者的关注.同时,在控制器与观测器的设计方面,满足单边Lipschitz和准单边Lipschitz条件的非线性系统,比传统的满足Lipschitz条件的系统具有更小的保守性.本文考虑单边Lipschitz和准单边Lipschitz的非线性系统的有限时间有界控制与观测器设计.本文分六章,各章的研究内容叙述如下:第一章为绪论,主要介绍有