【摘 要】
:
聚类分析旨在根据某种相似性度量将无序、混杂的数据进行划分聚集成不同的簇,是大数据时代下智能化分析不可分割的重要组成部分。然而高维数据的特殊性和维度灾难的出现,导致
论文部分内容阅读
聚类分析旨在根据某种相似性度量将无序、混杂的数据进行划分聚集成不同的簇,是大数据时代下智能化分析不可分割的重要组成部分。然而高维数据的特殊性和维度灾难的出现,导致传统聚类算法不再能高效地处理数据,因此本文对高维聚类展开研究。首先,阐述了高维数据的特点,并论述其对传统相似性度量造成的影响。针对这一问题,分析了各种高维数据的邻近度度量函数,讨论不同度量函数的作用和特点,利用不同维度的数据集进行k-means聚类对比,结合聚类结果得出最优距离度量函数。其次,阐述现存的几种基于降维的高维聚类技术,比较不同降维技术的优点和适用数据类型。最后根据以上研究本文提出了一种基于核主成分分析(KPCA)降维和改进高维距离(Gsimi)的基于密度的KGDBSCAN聚类算法及其应用。本文利用UCI数据库中不同维度的数据集来验证KGDBSCAN聚类算法的实际效果,并与传统的DBSCAN聚类算法进行比较。实验结果表明,在高维空间中,改进后的聚类算法在三种维度下的准确度都最高,有效地提高了聚类的质量和结果。同时将改进后的聚类算法应用到实际问题中,利用某广电网络运营公司收集的客户收视信息和电视产品数据进行聚类分析。首先将原始数据通过预处理计算形成用户观看频率和用户点播频率两个维度高达上百的数据表,通过KPCA技术对处理后的数据集降维,并对其运用Gsimi函数计算相似度并进行DBSCAN聚类,聚类形成四种不同类型的用户和两种不同类型的节目。然后对不同类型的用户和节目进行特征分析,对比总结不同类型用户的收看行为和收视偏好,最后结合聚类结果从历史行为、相似节目推荐、同类用户收看、综合推荐等角度给出个用户性化电视产品推荐方案示例,实验结果验证了改进后的高维聚类算法的有效性和可行性。
其他文献
乙炔是中国石油化工产业中一种很重要的基础化工原料。在该领域有着举足轻重的地位。近些年等离子裂解煤制乙炔技术逐渐代替电石法等高污染高消耗煤制乙炔技术。本文的研究对
周期特性在自然界与工程应用中广泛存在,自19世纪以来,学者们从未间断对其进行研究探索。作为一类同时具有周期特性和切换特性的混杂系统,周期分段系统由于能够细致描述周期
在我们构建和谐社会的过程中,企业承担着经济发展、社会和谐、和环境可持续发展等多重责任。特别是企业运营过程中的安全生产,这既是当今世界各国和中国全社会最为关心的问题
简笔画从原始社会开始就是人类日常沟通交流的方式之一,如今更是在智能手机、笔记本电脑、相机和平板等电子设备的发展、普及下,图像信息在人类日常交流中逐渐占据了重要地位
光场是计算摄影学领域中一个非常重要的主题。光场相机能捕获4D光场以实现真实的景深渲染,即重对焦。重对焦技术使摄影师在曝光后可以改变景深,从而当他们在选择要突出显示的
棉花(Gossypium spp.)是我国最主要的经济作物之一。棉花在我国国民经济中占有十分重要的地位。陆地棉(Gossypium hirsutum L.)是棉花种植面积最大栽培种,占整个棉花产量的95
定子作为发电机、电动机等基础电力设备的重要组成部分,线圈的质量对电机性能有直接影响,而定子质量与生产线机器设备的状态密切相关。通过线圈缺陷检测可以反应生产线机器设备的状态,在机器回溯时可以进行绕线设备故障诊断,从而校正绕线设备,降低不良品率。本文将机器视觉技术应用在线圈缺陷检测中,提出了基于深度学习的线圈缺陷检测算法,克服了人工检测和传统机器学习特征工程人为设计的缺点,实现主动学习并提取缺陷特征。
国家管辖范围外区域包括公海和“区域”,人类在该区域的活动日益增强,导致其海洋环境和生物多样性存在保护的紧迫性。以海洋环境和生物多样性为保护之客体对象的海洋保护区,在区域层面已付诸实践,包括地中海派格拉斯海洋保护区、南极海洋保护区和东北大西洋海洋保护区网络等。当前,国际上已经形成了全球性国际条约、区域性条约和国际组织决议等法律政策文件,为国家管辖范围以外区域的海洋保护区的建设和发展起着原则性的指导作
医学是一门与人类健康息息相关的学科,先进的医学技术有助于更好地改善人类生活质量。如今,中国日渐推进医学领域的对外交流与合作,医学翻译则成为了国内外医务人员沟通交际的重要桥梁。本翻译报告通过翻译英语医学书籍《类风湿性关节炎和骨关节炎临床试验》的第十章至第十一章,旨在较全面地为中国医务人员提供国外类风湿性关节炎和骨关节炎的治疗研究结果;同时从词句层面总结出一些医学英语的翻译方法,供相关领域的译者参考。