基于KD树子样的聚类初始化算法

来源 :计算机系统应用 | 被引量 : 0次 | 上传用户:gao1980623
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在处理大数据集聚类初始化问题时,随机子样法是一种重要的数据约简操作。对随机取样的过程、特征及缺陷进行了分析,提出一种基于KD树子样的聚类初始化方法。该方法利用KD树将样本空间以递归方式细分成多个子空间,并分别在各子空间中随机取样形成KD树子样,有效避免了随机子样分布有偏的不足,使得子样中好的聚类初始点也能很好的表达整个数据集的聚类结构。仿真结果表明,该方法选择的聚类初始点更加接近期望的聚类中心,能获得更高的聚类精度。
其他文献
集群技术为Web服务带来了新的解决方案,其核心思想是负载均衡策略。在分析已有方法的基础上,提出了一种基于内容分类的集群负载均衡算法。该算法通过对用户请求分类后均匀地
针对从Web页面获取信息的广泛需求,分析了从中提取信息的关键技术如URL地址、HTML页面和HtmlParse解析库;以从Google Map中获取企业黄页信息为例,根据从中自动提取数据的技术
针对现有的门限签密方案效率低不太实用的不足,以及基于身份的签密系统密钥托管问题,利用双线性对提出了一个新的基于身份的(t,n)门限签密方案。通过引入签密者秘密信息,实现了
XML数据越来越广泛地被用于信息交换与集成中,其数据质量问题引起了人们的关注.解决由数据质量引发的问题,实体识别技术非常关键.为了克服现有方法的不足,在海量XML数据上进行高效
为解决远程访问、监测并控制电能量数据采集终端的需求,提出了基于BOA和CGI技术构建Web服务器的思想。在论证整体设计方案的基础上,以中科院沈阳计算技术研究所研发的D2000H电
矿井瓦斯含量的预测模型是一个多变量、非线性的函数关系,预测模型建立的准确与否决定于各个影响因素之间的相互作用、相互耦合的特性。将神经网络与粒子群算法有机地结合起
以沙发产品设计过程为例,模块化构建面向客户的在线产品设计系统,真正体现以客户为中心的设计理念。该系统前端以RIA 作为展现层从而实现逼真的展示效果,以Flexlib 作为组件设计
为了很好地适应煤岩特性的变化、有效发挥采煤机截割电动机的能力,解决采煤机截割电动机运行时功率波动较大的问题,利用专家系统的理论和方法,建立了基于专家系统的采煤机截
在分析传统入侵检测系统不足的基础上,提出了基于Linux操作系统的DoS攻击检测和审计系统。网络安全检测模块通过统计的方法检测内网发起的DoS攻击行为,网络行为规范模块过滤
针对教育资源分布式共享系统中资源中心和用户任务之间的调度问题,建立该类问题的通用调度模型,讨论基于蚁群算法的任务调度机制,实现资源中心和用户任务问的优化匹配方案.仿真实