【摘 要】
:
由于高维空间数据的稀疏性和维灾问题使得高维空间离群点的挖掘和分析始终是数据挖掘的难点之一,本文在现有高维空间离群点挖掘算法的基础上,提出了用数据直方图和FP增长(Frequ
论文部分内容阅读
由于高维空间数据的稀疏性和维灾问题使得高维空间离群点的挖掘和分析始终是数据挖掘的难点之一,本文在现有高维空间离群点挖掘算法的基础上,提出了用数据直方图和FP增长(FrequentPattern-Growth)相结合的方法挖掘出现离群点的维之间的关联规则,从而能更好地认识离群点和解释离群点之间的关系。到目前为止,人们对高维离群点的挖掘提出了许多方法,比如数据约减、投影变换、特征选取等,但是在这些方法中也存在着各种不足和问题,其中不仅存在计算复杂度比较大问题,而且对离群点的产生机制、离群点之间的关系缺乏深入的研究,为此本文在这两方面做了些工作,针对上述问题提出了基于直方图和FP增长的离群点关联规则挖掘的方法。该方法首先计算每一维上数据点的KNN(K-NearestNeighbors)距离,形成直方图,利用直方图判断在该维上哪些点是全局离群点,哪些点是局部离群点和边缘离群点,从而降低计算复杂度,然后用FP增长算法挖掘满足一定支持度和置信度的频繁出现离群点的维之间的关联规则,用于解释离群点之间的关系。利用本文提出的方法对合成数据和现实数据进行了详细的分析,实验表明该方法不仅提高了计算效率,而且挖掘出来的结果能够很好地解释离群点产生的原因,揭示离群点发生的规律,这些都表明该方法不仅有效,而且具有很强的现实意义。
其他文献
数据库是日常生产活动中重要的信息存储和检索工具,其设计一直随需求的变化而发展,系统架构从单机扩大为分布式集群,存储介质从磁盘转移到内存,数据组织从行式衍生出列式,而
随着网络技术以及多媒体技术的飞速发展,视频以其突出的优势深入地影响着社会生活,成为了传达信息的主要方式。目前,几乎各个国家对运动员体育赛事及平时训练的录像都给予了高度
长期以来,生产调度问题不仅是生产管理者关注的重点,同样也是组合优化领域的热点研究对象。多目标流水车间调度问题作为研究最为详尽的多机调度问题中的一个分支,有着广泛的应用。其任务是安排一组机器以特定的顺序加工一组工件,同时通常需要满足多个不同的约束条件。合理的加工工序和调度策略能够有效降低企业的生产成本,资本损耗以及管理开销。因此,高效求解多目标流水车间调度问题对于提高生产效率,合理配置生产资源,降低
随着计算机技术和网络技术的不断发展和普及,代表着先进的教学思想和教学方法的智能计算机辅助教学(Intelligence Computer-Assisted Instruction,ICAI)应运而生,它改变了传
网络通信科技的迅猛发展,为人们日常生活的信息沟通提供了越来越快捷的服务。无线传感网络在科学研究、环境监测、智能公交、医疗监护、智能家居、军事侦查和日常生活等领域
数据流聚类是从大量的、有噪声的、模糊的、随机的流数据中发现不相连的、具有相似属性的簇,并使簇中数据的相似性尽可能高,不同簇中的数据的相似性尽可能低,它是数据挖掘领域的
由于相同频率信号之间的干扰、有限的网络带宽资源、网络节点的移动性以及无线信道的不稳定性,无线网络的传输效率受到严重的影响。因此如何保证和提高无线网络的传输效率以
随着信息技术的成熟、移动设备的普及,学生的学习环境从现实的课堂环境转变为虚拟的网络环境。然而大多数在线学习只是简单的延续传统教学的老路,对于不同特点和水平的学生仍
随着工业自动化程度的提高,工业机器人成为近年来研究和应用的热点,而机器人的运动轨迹规划又是机器人控制系统的一项基本目标和任务,运动轨迹的连续性和平滑性,直接影响机器人的