概率无向图模型近邻传播聚类算法的研究

来源 :广西大学 | 被引量 : 0次 | 上传用户:MAGICDHJ
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近邻传播聚类算法(Affinity Propagation,AP)是近年出现的一种新型无监督聚类算法,具有很好的普适性,但其在应用中存在以下不足:(1)在处理结构复杂、包含噪声、边缘数据点多的数据集时聚类精度不高;(2)AP算法将每个样本数据点成为候选聚类中心点的可能性均视为一致,不能有效地利用数据的先验知识加速聚类,导致算法的聚类效率低;(3)AP算法中的偏向参数ρ对聚类效果有影响较大,但其选取方法没有理论指导,需根据实验结果人为调整,导致AP自适应聚类能力下降;(4)传统AP算法所获簇的数目通常多于真实的簇数目,所得结果准确率将失去意义。针对上述四点,本文提出一种平均密度优化的概率无向图模型AP聚类算法,关键的改进措施如下:(1)针对AP算法对结构复杂数据识别能力不强的问题,引入支持向量机的组合核函数技术,将数据从低维的欧氏空间映射到高维的、非线性的Hilbert空间,提高算法对非线性、特征复杂度数据的识别能力。为降低噪声信息的干扰,利用高斯滤波算子对数据集进行平滑去噪,有助于进一步提高算法的聚类精度。对于偏向参数ρ的自动选取问题,提出使用概率无向图模型估计数据样本作为聚类中心的概率,将此概率作为聚类先验知识导入到AP算法的偏向参数ρ中,加速算法的聚类效率,再利用簇归并方法进一步提升算法的聚类精度。(2)对于边缘数据的判别问题,使用平均类密度优化策略识别并标记出边缘数据点,使之不参与AP算法的迭代,降低了边缘数据判别误差在AP迭代过程中的累积,加速了聚类中心点的出现,提高了聚类效率;在聚类后,根据边缘点到聚类中心的最短距离,划分出边缘数据的类别归属。在UCI数据集与人工合成数据集上的实验结果表明:所提算法的聚类效率和精度均优于相比较的同类算法。
其他文献
“最宝贵的资源是人才。放眼国际竞争,在如今和未来的市场环境中,所谓的竞争就是人才的竞争。对人才的培养,吸收以及用人得当在今后的工作中将是一项战略性任务。”党的十九
不锈钢复合板结合了不锈钢优良的耐腐蚀性能和碳钢较好的力学性能,广泛应用于海洋工程、石油化工、核电等领域。由于合金元素过度扩散,产生碳的扩散区和Cr、Ni的扩散区,影响复合板界面腐蚀性能和界面结合强度,容易出现晶间腐蚀裂纹和脱层断裂等现象。本文分别在不同轧制压下量、组坯真空度、界面中间层条件下设计制备了一系列热轧不锈钢复合板,系统研究了界面组织演变过程、合金元素扩散行为、协调变形行为及宏微观断口形貌
以马丁为首的功能语言学家于20世纪90年代提出的评价理论从词汇层面展开对人际意义的研究,为研究语篇中的评价资源提供了新方法。评价理论包含态度、介入和级差三个子系统。
应用克隆问题是整个Android生态圈正在面临的最主要的威胁之一,超过86%的Android恶意软件通过克隆正规应用程序的方式来进行伪装和发布。克隆应用不仅损害了正规应用开发者的
随着我国的解放军和武警部队正式放开使用智能手机的管制,智能手机进入军营和警营,手机泄密问题也正成为军队为之头痛的棘手问题之一。当前的武警官兵多以90后为主,他们喜欢
《初中思想品德课程标准》指出:“坚持正确价值观念的引导与学生独立思考、积极实践相统一是课程的基本原则。”教学情境设计,恰能赋予学生思考和实践的机会,符合课标的要求。它还可以帮助学生内化知识、提高学习效率,同时也能提升教师的理论素养,为其专业化发展奠基。教学情境设计已成为基础教育课程改革以来,新的教学理念所带来的必然选择。但教师在设计情境过程中依旧存在一些问题,导致教学效果不佳。本文围绕初中《道德与
长周期地震动因含有丰富的低频成分而易使自振周期较长的结构发生震害,且会导致长周期结构的位移响应时程具有明显区别于普通地震动的“大位移与长持时”特征,因此,研究长周
建国初期,吉林省的财政经济形势较为严峻。为了恢复与发展本地经济医治战争创伤,缓解解放战争和抗美援朝战争对财政造成的压力,吉林省委和省政府积极响应党中央和东北局的号召,在城市和农村展开了大规模的“增产节约运动”。吉林省节约检查委员会、吉林省抗美援朝分会以及主要负责工业生产的吉林省总工会和农村农业互助组等机构负责了运动相关事宜,对运动进行了有效的组织和领导。结合抗美援朝运动的爱国主义教育,初步构建了全
基于渤海装备石油机械厂员工绩效考核现状分析和问题分析的结果,利用目标管理法和关键绩效指标法(KPI)这两种绩效考核理论,本文设计出一套较为科学、合理、可行的员工绩效考
目前,可扩展标记语言XML已经成为了互联网上数据交换和数据处理的一种重要标准。为了更好的存储和管理XML数据,研究者们提出了很多XML编码方案,根据这些编码方案的特点可以将