一种基于磁盘的大数据集快速异常检测算法

来源 :小型微型计算机系统 | 被引量 : 0次 | 上传用户:tnnd_5460
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
异常点检测是数据挖掘的一个重要研究方向,基于Cell的异常点检测算法生成的Cell(单元)数与维数成指数增长.当生成的单元数增多及数据量增大时,基于Cell的算法不能有效工作.分析发现这些单元中存在很多无用的空单元.本文采用CD-Tree结构对非空单元进行索引,并采用聚簇技术,将每个单元中的数据点存放在同一个磁盘页链中.实验表明,采用CD-Tree以及聚簇技术设计的异常点检测磁盘算法的效率,以及所能处理的数据集维数较原基于Cell的磁盘算法都有显著的提高.
其他文献
较之于常规气藏,煤层气藏最大的不同点便是煤层气以吸附、游离和溶解3种状态赋存于煤孔隙中,3种状态处于一个动平衡过程。煤层气井的排采是一个排水降压过程,其产出特征与常
目的:比较不同中医方法对胃肠外科术后肛门排气延迟患者的干预效果。方法:收集我院2014年4月2015年8月期间行胃肠外科手术的94例患者,术后均伴有肛门排气延迟(〉3d)症状。抽签随
綦齿传动是我国重型变速器生产的重要骨干企业,公司信息化建设始于20世纪80年代,公司各部门均运用信息化系统支撑工作的开展,信息化建设已经成为企业核心竞争力的重要组成部
目的:探索3.0T磁共振腰骶神经成像显示腰椎间盘突出位置与神经根压迫及临床体征的相关性,提高腰椎间盘突出疾病的诊断准确性,辨别判断有临床体征神经根突出位置及估量腰骶神经
近年来,党中央、国务院高度重视消费品质量提升工作,多次就消费品质量提升做出部署,明确提出要提升消费品品质,促进消费品工业增品种提品质创品牌,更好地满足群众消费升级需
《焊接方法与设备》是机械类专业非常重要的一门专业课程,传统教学模式培养出来的学生很难快速地适应就业岗位需要。以系统化的项目教学理念,在多媒体教学基础上,就《焊接方
骨肉瘤是最常见的原发于骨组织的恶性肿瘤,多见于青少年,具有局部侵犯和早期发生远处转移的特点。尽管采用最新的新辅助化疗+手术+术后化疗的治疗策略后患者的5年生存率能达
背景:瞳孔对光反射(Pupillary Light Reflex,PLR)指在光照条件改变时,由交感和副交感神经协同作用,瞳孔直径发生舒缩的现象。PLR因为其神经反射通路的特殊性,成为神经系统查
治里达表法是指在运用解表发汗时,当审查里气是否和畅。以《伤寒杂病论》桂枝去桂加茯苓白术汤、小青龙汤、五苓散为例,探讨水饮郁闭里气时,单纯解表发汗,则动摇里饮,而变证
中国与东南亚国家的交往历史源远流长,自古以来就是“海上丝绸之路”的重要枢纽。围绕我国“一带一路”建设的大战略,中国与东盟国家的经贸关系的重要性凸显,东盟国家是中国