【摘 要】
:
传统的基于距离的离群数据挖掘方法计算量大,挖掘效率和精度较低.本文利用大多数据集的聚类性特征,采用p权值和剪枝技术,给出一种基于距离的离群数据挖掘算法.该算法首先采用
论文部分内容阅读
传统的基于距离的离群数据挖掘方法计算量大,挖掘效率和精度较低.本文利用大多数据集的聚类性特征,采用p权值和剪枝技术,给出一种基于距离的离群数据挖掘算法.该算法首先采用基于三角不等式的剪枝技术,寻找出离群候选集,仅候选集驻内存;然后对候选集中的每个数据点,分两种情况:若近邻达不到k值,赋予一个相对较大权值,若达到k值,运用p权值方法,计算该数据对象与其k最近邻的距离和,和越大,则离群的可能性越大;将离群候选集中的每个数据点按权值大小排序,并确定是否为离群数据,从而较好地克服了离群检测中的掩盖和淹没现象;最后采用UCI数据,实验验证了该算法的有效性.
其他文献
宋伯胤(1921-2009),中国博物馆学家、国务院特殊津贴专家,1948年8月1日经北京大学教授向达先生推荐到国立中央博物院(筹备处)工作,不久就亲历了国立中央博物院文物运台的部分
为了检验船舶运动控制算法的有效性,设计一个基于船舶缩尺模型的运动控制系统:在船舶缩尺模型中安装下位机,构建控制执行机构,核心为两片单片机;岸边的上位机运行控制算法,通
鲁迅虽然在创作上几乎不接触戏剧,但对戏剧艺术却一直予以关注.鲁迅是中国现代较早正确而深入认识莎士比亚文艺思想的文学家.鲁迅对易卜生、萧伯纳勇于批判现实、改革社会的
随着可用Web服务数量的增多,同时出现了许多不同的服务提供者提供的功能相同但性能各异的服务,如何选取合适的Web服务成为主要的研究热点.Web服务运行的载体是服务器,运行的
中国维吾尔木卡姆是集音乐、舞蹈、演唱、文学和生活习俗于一体,以其优美的音乐结构和独具的艺术特色而闻名于世;是古代西域地区影响广泛的民间音乐艺术,是广大新疆维吾尔人
BlueOcean是基于对象存储技术的大规模分布式存储系统,本文详细描述了该系统中高并发客户端的设计与实现.该高并发客户端基于FUSE(用户态文件系统)框架进行开发,既保证了通用性,也
软件行为是在一定上下文环境中,由一系列的动作组成的.因此可以通过检测动作序列推测行为是否有害.为了能够准确推测和判断软件行为的安全性和可靠性,提出一种基于动作相关度的行
音乐高潮片段自动提取技术可以应用到音乐检索、音乐数据分析、音乐推荐、音乐试听等研究及实际应用当中,有助于协助用户快速选择合适的音乐.针对基于内容提取音乐高潮片段开销
陆游是南宋爱国诗人,是我国古代诗人中创作教量最丰富的一个,内容触及当时社会生活的许多方面,而爱国思想就象一根红线贯串在他的创作中.该论文从另一角度探析陆游诗词创作的
如何能量高效的进行top-k查询处理是无线传感器网络领域中的一个重要课题.节点设置过滤窗口可以避免与top-k查询无关的数据上传到汇聚节点或者基站,因而大大减少传感器网络的