k-均值算法家族和子空间聚类

来源 :2005第一届中国分类技术与应用研讨会(CSCA) | 被引量 : 0次 | 上传用户:huijinbao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
k-均值是著名的聚类算法,被广泛应用在诸多领域.经过多年发展,原始的MacQueenk-均值算法已经衍生出多种变形,构成了k-均值算法家族.首先回顾k-均值家族重要成员:k-均值(k-means)、k-模(k-modes)、k-原型(k-prototypes)算法和它们的模糊版本,然后提出两个新成员--变量自动加权的k-均值算法,并讨论它们在子空间聚类中的应用.文本数据的实验结果表明,变量自动加权的k-均值算法在分类精度上优于传统的k-均值算法和二分式k-均值算法(bisectionk-means),并能通过权重值识别表达每个聚类簇意义的
其他文献
本文研究了EMP对GaAs器件毁伤作用的机理,介绍了GaAs器件在EMP情况下的毁伤阈值和毁伤机理,并用实验验证器件软损伤的可靠性.
本文运用Medici二维器件仿真软件改进了仿真电离辐射总剂量效应的二维数值法,仿真模拟了NMOSFET在不同总剂量下Ⅰ-Ⅴ转移特性曲线和阈值电压的变化以及器件结构尺寸对总剂量辐射效应的影响.仿真结果表明一定总剂量辐射条件下,NMOSFET较敏感的两个结构尺寸中,栅氧化层对器件的总剂量辐射效应的影响最大,沟道浓度对其没有影响.
本文对加强实验室间密封检验的比对工作进行了探讨,文章细述了密封检验需要注意的一些问题,以及通过实例分析说明了实验室间密封检验比对试验的重要性.
本文对航天发射场可靠性技术工程应用进行了研究。文章阐述了构造高可靠性系统,实现系统可靠性增长的原则与方法.为航天发射场的信息化建设与跨越式发展准备良好的硬件条件,为技术决策提供依据.
由于能源节约的重要性,在我国也有必要对超高效率电动机的发展和应用进行必要的探讨.本文研究,1.超高效率电动机的节能潜力和经济效益,2.超高效率电动机效率指标的确定,3.降低损耗、提高效率的途径。
阳泉煤业集团利用矿井煤层气作为城市煤气气源,已有30多年的历史,已累计供气66254万m3。介绍了阳泉矿区煤层气开发利用情况,存在的问题及今后发展前景。
分析了当前常用的汉语句子相似度计算方法及存在的问题,针对中文问句的特点,定义了问句的常规和特定语块,提出了一种基于语块的中文问句相似度计算方法,该方法以"知网"为基础,计算词语语义相似度,利用组块分析理论及HMM学习算法,识别问句常规语块,利用规则或学习方法提取问句特定语块,并分别计算两个问句中各问句语块之间的相似度,最终以语块相似度为基础实现问句相似度的计算.问句相似度计算方法对比实验结果说明,
Fourier-Mellin变换(FMT)通常用于基于内容的图像检索和数字图像水印.将FMT的应用扩展到图像配准,并提出基于FMT的改进的配准算法,以便对由平移、旋转和比例变换而产生的偏移图像进行调整.提出的算法能消除从笛卡尔坐标到对数极坐标的转换,避免在转换过程中所需的插值,同使用相关函数的传统方法相比获得了显著的改进.实验表明,该算法在白噪声存在的情况下能获得准确鲁棒的结果。
文本聚类是利用聚类技术对大量的文本数据进行分析,把内容相似的文本放在同一个集合.针对基于k-means特征加权算法用于文本子空间聚类的性能进行了一系列的实验研究与分析,并验证得出该算法具有可伸缩性与快速收敛性.文本子空间聚类算法的提出是针对文本数据的两大特点:高维与稀疏性.该算法基于传统的k-means聚类方法,将特征加权加入到k-means迭代的过程中.在聚类文本的同时,对文本集所包含的单词(特
问题分类是问答系统技术处理的基础与核心,它决定答案抽取的范围和方法,进而影响整个系统的性能.通过对比分析问题分类与文本分类的异同以及问句内部结构与问题类型之间的关系,提出了一种新的基于贝叶斯理论的问题分类计算模型.通过对比实验,证明在计算模型中增加特征项扩展可以有效地减小问句较短和标注语料库较小对统计结果的影响,而基于疑问词的2-gram组合,较好地利用了问句结构特征,提高了问题分类的精确度。