针对高维数据的动态网格子空间聚类算法HDGCLUS

来源 :小型微型计算机系统 | 被引量 : 0次 | 上传用户:lhongbo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前涌现出大量高维的基因表达数据、图像、文本数据,高维数据对传统的聚类分析方法提出挑战.CLIQUE是最早提出在子空间中搜索稠密簇的聚类算法,它综合了基于网格聚类和基于密度聚类的算法特点,从单一维度开始自底向上地搜索子空间中的簇.但由于算法复杂度与参数敏感度较高,同时它采用的固定网格划分、MDL剪枝等技术,容易破坏密集区域的边缘或者丢失一些有用信息,使得算法在处理高维数据时不能满足效率、准确率等方面的性能要求.本文基于CLIQUE提出了改进的HDGCLUS(High-Dimensional Genomic data subspace CLUStering)算法,HDGCLUS采用基于稀疏区域的动态网格划分技术,实现了网格的动态划分和稠密区域的动态合并,并加入了边界调整技术,减少了初始候选密集单元个数,避免了人工输入网格参数和边界数据信息的丢失,提高了聚类质量和算法效率.同时HDGCLUS采用静态剪枝和信息增量动态剪枝相结合的技术,进一步降低了算法复杂度,优化了算法性能,并在真实数据集上取得良好的实验效果.
其他文献
早在2010年,中山大学生命科学学院就与广东佛山的水产企业合作研究杂交鳜的繁育技术。据了解,杂交鳜由雌性翘嘴鳜与雄性斑鳜杂交而来。经过几年的推广试养证明,杂交鳜的养殖成活
《中共中央关于制定国民经济和社会发展第十一个五年规划的建议》(以下简称《建议》)中,明确提出了“坚持节约发展、清洁发展、安全发展,实现可持续发展”的重要指导原则。
通过对我国消防产品供需市场状况的分析 ,指出我国消防产品供需市场矛盾和主要矛盾的内容 ,提出了解决主要矛盾的基本思路与对策 Through the analysis of the market situa
目前,各省的科技中介机构网络平台都已启用,但仍处于摸索发展的初级阶段。由于缺乏合理的细分和科学的选择,市场定位不明确,造成了需求与供给不平衡、信息不对称等现象,以致网络平台多半形同虚设。因此有必要对我国的科技中介机构网络平台实施STP战略分析,借此找出症结所在。
半导体人乃至整个电子从业人员工作压力都很大。据南方都市报消息,7月18日,年仅26岁的华为员工张锐因工作压力太大,在进入华为60多天后自缢身亡。没有压力就不叫工作,压力,也
近几年来,我国经济发展步入新常态,各行业发展进入结构调整期.在供给侧结构改革的大背景下,各类水产饲料企业特别是中小型水产饲料企业如何生存与发展,是值得深思和考虑的问
期刊
中国IC设计由于起步较晚,在技术、经验积累上都呈弱势,所以在产品定位上大都采取替代策略。这样一可避免盲目开发,二可快速开发出产品,三可解决自己的生存问题。世界上任何一
│病原│   柱状嗜纤维菌(Cytophage columnaris)。   │临床症状│   被感染的病鱼缓游或静止于池塘下风处,体   色变黑。病鱼鳃盖骨的内表皮往往发炎充血,严重时中间部
为了克服免疫克隆算法搜索效率低、无法直接对进化经验学习等缺点,设计了环境变异免疫克隆算法,在普通免疫克隆算法中引入环境变异算子,通过环境变量积累进化过程中的经验,使算法具备了一定的学习能力;重新设计了代价函数,采用一种新颖的罚函数排序形式来处理由于约束条件造成的解集空间不连续问题,进而提高了算法的搜索效率及稳定性。通过对13个常用有约束优化问题测试函数的仿真实验,表明了环境变异免疫克隆算法在有约束
期刊