一种面向分类属性数据的聚类融合算法研究

来源 :计算机应用研究 | 被引量 : 9次 | 上传用户：jinsongyou

【摘要】

：

为了解决单一聚类算法存在结果不准确和随机性大,且现有算法对分类数据聚类时将其转换成数值型会产生误差等问题,提出了一种面向分类属性数据的聚类融合算法。算法利用原有分类属性值的差异产生聚类成员,然后采用相似度方法进行划分,通过寻求目标函数最小的划分来简化聚类过程。算法在UCI数据集上进行了验证,结果表明算法的效率和精度都优于现有算法,说明算法的设计和更新策略是有效的。

【作者】

：

李桃迎陈燕张金松张琳

【机构】

：

大连海事大学交通运输管理学院

【出处】

：

计算机应用研究

【发表日期】

：

2011年05期

【关键词】

：

聚类融合分类属性数据数据挖掘相似度 clustering ensemble categorical data data mining similar

【基金项目】

：

国家自然科学基金资助项目（70801007 70940008）, 国家教育部博士点基金资助项目（200801510001）,国家教育部科学技术研究重点资助项目（209030）, 国家科技支撑计划资助项目（2009BAG13A03）, 中央高校基本科研业务费专项资金资助项目（2009QN085）

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

其他文献

无陷入插装方式的研究与设计

分析和比较了当前主流的性能分析工具,针对这些工具在嵌入式环境中进行性能分析的不足,提出并设计出一种无陷入插装方式性能分析模型。通过替换函数入口处的第一条指令并在转入模块内执行函数第一条指令实现快速无陷入统计方式,对函数执行时信息进行统计。实验表明,在存在大量递归调用和函数调用非常频繁的情况下,使用无陷入方式使性能分析的效率和准确性得到很大提升。

期刊

性能分析插装无陷入插装嵌入式代码插装嵌入式软件分析performance analysis instrumentation with no tra

一种结合MDA的高阶模型转换方法

模型转换是MDA的关键技术,也是MDA的研究热点。目前,不同的MDA开发平台都有一套相对独立的开发技术和转换框架,这使平台之间缺乏兼容性,模型转换代码重用困难。究其原因是缺少一种与具体转换语言相对应,且与平台无关的转换规则模型。为了解决以上问题,将高阶模型转换的思想与模型驱动软件开发相结合,提出了一种构造模型转换规则的高阶转换元模型,并以ATL语言为例展示了高阶转换元模型的使用方法;最后通过一个实

期刊

模型驱动架构高阶模型转换模型转换ATL元模型MDA（model driven architecture） higher-order model tra

基于QPSO的WSAN中执行器优化部署研究

为了提高WSAN的工作效率,在量子粒子群算法的基础上,提出一种WSAN中执行器节点的优化部署策略。该策略中多个粒子群在独立搜索解空间的同时,以一定的通信频率共享最优值。仿真结果表明,该部署策略可提高节点的实时覆盖率,并与最新的WSAN部署策略进行了对比。

期刊

无线传感器执行器网络量子粒子群优化实时覆盖节点优化部署粒子进化通信频率wireless sensor and actor networks（WSAN

一种基于主题词集的自动文摘方法

提出一种基于主题词集的文本自动文摘方法,用于自动提取文档文摘。该方法根据提取到的主题词集,由主题词权重进行加权计算各主题词所在的句子权重,从而得出主题词集对应的每个句子的总权重,再根据自动文摘比例选取句子权重较大的几个句子,最后按原文顺序输出文摘。实验在哈工大信息检索研究室单文档自动文摘语料库上进行,使用内部评测自动评估方法对获得的文摘进行评价,总体F值达到了66.07%。实验结果表明,该方法所获

期刊

自动文摘主题词集句子权重自然语言处理automatic summarization thematic term set sentence weigh

基于RANSAC和灰度一致性的PET瓶胚口缺陷检测

针对现代高速生产线上PET瓶胚口的缺陷检测问题,提出了一种基于RANSAC和灰度一致性的PET瓶胚口缺陷检测算法。算法利用RANSAC方法精确定位瓶胚口区域,然后利用瓶胚口区域内的灰度一致性进行缺陷检测。实验证明,该算法准确率高、速度快,对于640×480图像的检测速度为10 ms/帧,完全满足高速生产线的检测需求。

期刊

工业检测PET瓶胚口随机抽样一致性椭圆拟合灰度一致性industrial inspection mouth of PET preform RANS

基于功能相似性预测疾病基因

如何从连锁定位区域中的众多基因中有效选取疾病候选基因是疾病诊断治疗和预防的基础。基于基因功能注释信息,设计和实现了一种新的基于基因功能相似性的疾病基因预测工具DGP,分析候选基因和已知疾病基因的GO之间的相似性,对候选疾病基因进行打分排序。从OMIM数据库中提取一个包含1 045个已知疾病基因、涉及305种疾病的数据集来测试DGP的性能,其中56.7%的疾病基因在候选基因中排名前5%,68.5%的

期刊

候选基因基因本体相似性预测candidate gene gene ontology similarity prediction

基于背景像素突变检测的交通标志图像分割

为了提高交通标志图像处理过程的效果与效率,根据交通标志图像色彩饱和度空间的灰度直方图中包含的点灰度与区域灰度信息,提出了一种有效确定交通标志图像全局分割阈值的算法。首先分析了基于交通标志图像色彩饱和度空间灰度直方图的一种倒溯标准差的变化规律;然后在此基础上提出了如何选取全局图像分割阈值的方法,并采集了大量交通标志图像进行实验验证,同时,与另外两种在HIS空间下常用的图像分割方法的分割效果进行了对比

期刊

交通标志图像背景像素突变检测灰度直方图分割阈值traffic sign image background pixels mutation anal

协同过滤推荐中基于用户分类的邻居选择方法

为了提高推荐系统的推荐结果质量,找到目标用户恰当的邻居是协同过滤算法中非常关键的一个环节。网络中的用户可以分为专家型用户、可信用户与兴趣相似用户三个维度,由于不同类型的邻居对用户的影响及用户对不同邻居的依赖倾向的不同,因此利用岭回归分析估计用户对于这三类用户的主观倾向,即邻居选择权重,由此获得目标用户邻居集合,进而产生推荐,通过利用标准F1方法与传统推荐方法对比实验分析表明,推荐结果的质量显著提高

期刊

协同过滤邻居选择邻居权重用户分类岭回归K-MEANS聚类collaborative filtering neighbor selection n

复杂经济系统FCM划分最佳聚类数的确定

提出了一种复杂系统最佳聚类数的确定方法,首先检验系统的可聚性,然后给定合理的聚类数区间,最后在聚类数区间中搜寻得到最佳聚类数,其中搜寻依据为尽可能满足经典的聚类有效性指标。对X30及Ben-said数据检验及全国31个地区按科技水平分类的研究,表明了该方法的可行性和有效性。

期刊

模糊C-均值科技进步复杂经济系统最佳聚类数聚类有效性函数fuzzy C-means S＆T progress complex economic s

高度机动目标的异步多传感器偏差估计算法

异步多传感器偏差估计问题是数据融合系统中的常见问题。在已有算法中,由于忽略了伪量测方程中的加速度项,在高度机动目标条件下的偏差估计可能是有偏的,为此提出了一种针对

期刊

偏差估计异步多传感器机动目标bias estimation asynchronous multisensor maneuvering target

一种面向分类属性数据的聚类融合算法研究

与本文相关的学术论文