论文部分内容阅读
信息技术的迅猛发展正在引发一场以“大数据”为背景的数据革命。其中最核心问题是如何从数据中发现识别新颖的、有效的并能够指导决策的且易于理解的模式及规律。大数据被普遍接受和认同的4V特征包括,数据体量大(Volume)、源头及结构多(Variety)、产生速度快(Velocity)和价值总量高但价值密度低(Value)。本文在大数据背景下,对数据挖掘中的属性选择、分类和回归等问题进行了研究和探索。 本文总结整理了大数据的发展现状、特点及趋势。讨论了大数据背景下的诸多研究问题以及这些问题同数据挖掘及分析方法之间的关系。其次,针对大数据价值总量巨大但价值密度低的特点,研究了利用属性选择方法从数量众多的属性中选取有代表性、关键的属性来代表全体,进而提高数据的价值密度。基于这一想法,本文设计并提出了一种基于属性聚类的属性选择方法MICAP。针对大数据中往往伴随着大量数据缺失的特点,通过每次只采用两个属性的数据进行相似度计算,从一定程度上减小了数据缺失对算法计算带来的影响。同时,很大程度上提高了算法的并行性,使其能够应对数据量巨大的情况。通过采用实际应用中的数据进行数据实验对MICAP方法进行了分析和验证。再次,在多目标线性规划(MCLP)模型的基础上,利用最优化理论与方法,对数据挖掘中的分类和回归问题分别进行了研究。通过改进原始MCLP模型使之一定存在解,提出了一个新的二分类模型KSRMCLP。并在此模型基础上通过引入核函数,使模型具备由线性划分到非线性划分的能力。同时,证明了本文所提出的KSRMCLP模型在Hilbert空间的解可以通过其对应的对偶问题的解经变换得到。在人工模拟数据上验证了该模型具备了非线性划分能力,其它来自现实世界的数据实验显示出模型在实践中具备很好的应用效果。进一步的,在所提出的二分类方法基础上,利用最优化理论方法将回归问题转化为分类问题,提出了一个新的函数回归方法。该方法同样基于多目标线性规划(MCLP)框架并能一定存在解。之后采用人工和UCI实际应用数据对归回方法进行了分析和验证。最后,在大数据背景下,相比于大量的无标签数据而言有标签数据的比例很小。针对这一问题本文在半监督学习的场景下,基于最优化理论和流形学习理论提出了一个新的半监督分类方法Lap-NPSVM。该方法最终将半监督分类问题转化为一个形式简洁且只有上下界约束的凸二次规划问题。该模型不仅一定存在解,同时可以采用投影梯度共轭梯度(GPCG)等专门的优化求解方法进行求解。该优化模型中无需进行矩阵的逆运算,这克服了在大数据量实际应用中的障碍。之后,结合不同人工数据和实际应用数据对本文提出方法的正确性和有效性进行分析和验证。