论文部分内容阅读
随着大数据时代的到来,挖掘海量数据背后蕴含的丰富有价值的知识变得更加迫切。分类作为数据挖掘的一个重要分析手段,已广泛应用于日常生活(如:电子商务、金融、生物、通讯、保险、医疗等)以及科学研究(如:图像、语音识别、自然语言处理、机器学习等)。分类作为一种有监督式学习,其实质是由已知类别标签的训练数据集,通过分析学习其分布特征,发现潜在的分类模型,以此对新数据进行类别预测。多尺度数据挖掘的目的是对数据进行多尺度层、全方面地分析学习,其核心在于尺度转换,实现一次学习多次利用。多尺度分类作为一个跨学科研究课题,其实质是将多尺度科学与分类相结合,多尺度、全方面地研究数据特征,从而得到不同层面的分类模型,进而研究尺度转换机制以及尺度转换引起的尺度效应问题。目前,已有不少研究将多尺度数据挖掘应用于一般数据集,如多尺度关联规则以及多尺度聚类。但是在一般数据集下,很少将多尺度数据挖掘应用于分类算法领域。分形理论作为非线性复杂科学研究中的重要工具和手段,引出的广义分形理论,开启了其在一般数据处理方法的应用前景。分形最显著的特征是自相似性,所强调的整体与局部的共性和个性的关系与多尺度分类理念异曲同工。因此,本文将分形理论作为宏观指导思想,为多尺度分类研究提供了新的思路和方法。论文以分形理论中自相似结构为基础,结合等级理论以及包含度理论,构造多尺度数据集模型;论述基准尺度选择、尺度转换机制以及尺度效应等相关知识,定义了尺度转换对象的概念,给出了多尺度分类的定义,论述了多尺度分类的实质,构造了多尺度分类挖掘系统结构;在此基础上,结合分形维数,提出基于豪斯多夫距离的相似性度量方法,进而提出基于分形理论的多尺度分类尺度上推算法;分析了分形插值的实质,给出了广义分形插值的概念,结合反距离加权理论,进而提出基于广义分形插值的多尺度分类尺度下推算法。本文以多尺度分类为研究核心,主要完成了以下工作:1)研究多尺度分类理论基础针对多尺度分类现存在的问题,从构造多尺度数据集、尺度转换以及多尺度分类体系三个方面研究完善多尺度分类理论基础。首先,以分形理论中自相似结构为基础,结合等级理论以及包含度理论,离散化数据特征,形成偏序结构,从而提出构造多尺度数据集模型的一般方法;其次,从尺度转换的类型、基准尺度选择、尺度转换对象、尺度转换机制以及尺度效应等方面分析多尺度分类挖掘的尺度转换问题;最后,给出了多尺度分类挖掘的定义与实质,分析了多尺度分类的任务。为后续多尺度分类算法研究提供了理论基础与方法。2)提出多尺度分类算法多尺度分类挖掘理论体系为尺度转换算法提供了指导思想。结合广义分形维数,提出了基于豪斯多夫距离的相似性度量方法,改进了构造相似矩阵方法,进而提出基于分形理论的多尺度分类尺度上推算法MSCSUA(Multi-Scale Classification Scaling-Up Algorithm);分析了分形插值的实质,给出了广义分形插值的概念,既要考虑已知样本的整体分布走势,又要考虑局部已知样本的固有特点,从不同层面衡量已知样本对待估样本点的贡献,结合反距离加权理论,进而提出基于广义分形插值的多尺度分类尺度下推算法MSCSDA(Multi-Scale Classification Scaling-Down Algorithm)。3)验证分析多尺度分类算法利用4组UCI公用基准数据集和1组真实数据集(H省部分人口)对多尺度分类算法进行实验验证分析。结果表明本文提出的多尺度分类思想以及MSCSUA、MSCSDA算法相比传统算法(KNN、Decision Tree、LIBSVM),准确率高,随着数据规模以及类别标签数量的增大,运行时间变化浮动小,证明算法稳定性更好,是可行有效的。