论文部分内容阅读
近年来随着数据挖掘的迅速发展,各种聚类、分类等技术已广泛应用于各种领域,但其中参数设置带来的问题也越来越引起研究人员的注意。于是,免参数据挖掘思想应运而生。本文深入分析了参数设置对数据挖掘结果的各种影响,大量研究表明参数的设定是影响甚至导致数据挖掘结果出错的重要因素之一,因此在数据挖掘的各个环节实现免参是解决这些问题的一个途径。文章从相异度度量方法入手,在对Kolmogorov(描述)复杂理论研究的基础上,将其和免参数据挖掘思想相结合,提出了一种基于压缩的相异度度量方法SCDM(Symmetrical Compression-BasedDissimilarity Measure)。该方法采用压缩算法估计Kolmogorov复杂度,由于压缩算法本身的高效性,使得该方法也具有较高的效率。本文使用MATLAB仿真软件、标准压缩软件以及DNA序列专用的GenCompress压缩软件实现了SCDM的功能,在DNA序列和实时序列上做了大量实验,与带参的距离度量方法及欧氏距离的结果进行了比较,分析了SCDM方法的正确率。本文还将SCDM方法应用到了层次聚类算法中,实验结果表明,由于SCDM方法采用了压缩算法,所以对被比较对象要求不高,只要维数相近就不需要标准化,也允许少量数据点的丢失,再加上压缩算法本身的时间空间高效性,对高维数据的处理也比较容易,可以省去其它方法对高维数据进行降维处理这一步骤。而且SCDM方法不需要参数设定,因而不需要参数训练和选择,避免了参数设置不当对聚类结果的影响,很好地提高了算法的正确率。应用SCDM方法的层次聚类算法的聚类准确率也较高。