论文部分内容阅读
近年来,机器学习随着人工智能的火热得到了如火如荼地发展,在推荐系统、机器翻译、语音识别等领域得到了广泛而成功应用。但是,随着应用场景的不断扩大,数据的规模和形式也变得复杂,多样化的数据场景,例如含有噪音特征和噪音标签的训练数据等,给传统的机器学习方法带来了巨大的挑战。在有监督机器学习中,经典的神经网络和TSK模糊系统在面对这些复杂的数据场景时,往往会遇到如下问题:由于技术的限制,采集到的数据不可避免的含有噪音或不确定数据。当使用这些含有噪音和不确定信息的数据进行学习建模时,得到的模型往往泛化性能较差;其次,采集到的原始数据,不可避免的会被工人标注错,或不能确定其类标。如何对错误的类标进行矫正,也是一个亟需要解决的问题。针对上述问题,本文将在现有经典机器学习的基础之上,通过构建不同的集成分类器,以期得到能够解决在复杂数据场景下的建模方法,主要研究成果如下:(1)提出了一种基于模糊划分和模糊加权的集成深度信念网络FE-DBN,用于处理大规模复杂数据的分类问题。首先通过模糊聚类算法对输入数据空间进行模糊划分,将训练数据划分为多个子集,然后利用多个不同结构的DBN独立的对各个子集并行进行训练,凭借DBN强大的神经表达能力逐层去掉各子集中原始数据的不确定信息,最后基于模糊理论思想,将每个分类器的结果进行模糊加权。根据集成原理,FE-DBN可提高DBN的泛化性能,并加速训练时间;(2)提出了一种新型的集成TSK模糊分类器EP-TSK-FK,首先通过并行学习的方式组织所有零阶TSK模糊子分类器,然后每个子分类器的输出被扩充到原始(验证)输入空间,最后通过提出的迭代模糊聚类算法(Iterative fuzzy C-means clustering algorithm,IFCM)作用在增强验证集上生成数据字典,从而利用KNN对测试数据进行快速预测。EP-TSK-FK具有以下优点:以并行学习方式训练其所有零阶TSK模糊子分类器;在EPTSK-FK中,每个零阶TSK子分类器的输出被扩充到原始(验证)输入空间,以便以并行方式打开原始(验证)输入空间中存在的流形结构。因此,根据堆栈泛化原理,可以保证提高分类精度;和其它按顺序训练的分层结构和Boosting结构模糊分类器相比,EPTSK-FK以并行方式组织所有的子分类器,因此运行速度可以得到有效保证;由于EPTSK-FK是在以IFCM&KNN所获得的数据字典的基础上进行分类的,因此具有强鲁棒性。理论和实验验证了模糊分类器EP-TSK-FK具有较高的分类性能、强鲁棒性和高可解释性;(3)提出了一种称为DBN-TSK-FC的新型模糊深度分类器,使之能同时利用模糊表达强大的不确定性处理能力和基于DBN的神经表达的突出抗噪能力对数据进行分类。在所提出的分类器DBN-TSK-FC中,通过在原始数据集上使用经典的模糊聚类算法FCM(fuzzy c-means clustering algorithm FCM),从而形成模糊规则的前件部分,并作为原始数据集的模糊表达;而基于DBN的神经表达则是通过在现有的DBN学习过程中只对训练数据应用相同的无监督预训练,然后将对应的DBN结构中顶层的所有隐层节点的神经表达作为模糊规则的后件变量。以这种方式,通过将后件参数的学习问题转化为线性回归问题,从而利用最小学习机LLM(Least Learning Machine)求得后件参数的最优解,可解释的模糊表达和基于DBN的神经表达被进一步集成以快速形成相应的模糊规则。因此,从模糊规则的角度来看,DBN-TSK-FC本质上是一种新型的TSK模糊分类器,它使DBN的行为在所提出的分类器中是可以解释的。标准UCI数据集的实验结果验证了所提出的分类器DBN-TSK-FC的有效性;最后将DBN-TSK-FC成功应用于AAL(Ambient Assisted Living)中的室内用户移动预测中;(4)在第3章基于模糊聚类和KNN的集成TSK模糊分类器EP-TSK-FK基础上,提出了一种改进型具有标签抗噪能力的集成TSK模糊分类器EW-TSK-CS。在EW-TSKCS中,每一个子分类器TSK-noise-FC在原始零阶TSK模糊分类器目标函数的基础上,增加了两个约束,分别对应不确定标签和错误标签,即标签噪音。在EW-TSK-CS的决策阶段,由于我们在此只考虑二分类问题中的标签噪音问题,因此选用FCM&KNN。每一个子分类器的输出被当做验证数据的增强特征从而打开原始数据空间中的流行结构,从而保证了所提出的EW-TSK-CS的高效性。在实验部分,我们在UCI数据集上模拟真实众包环境中的标签噪音矫正问题,验证了所提出的EW-TSK-CS的性能。最后在电力价格数据集上展示了集成模糊分类器EW-TSK-CS的高可解释性。EW-TSK-CS具有2个非常重要的特征:1)每一个子分类器都是TSK模糊分类器TSK-noise-FC,且EW-TSK-CS并行训练所有的子分类器,没有中间变量的存在,因此保证了EW-TSK-CS具有高可解释性;2)每一个子分类器的目标函数中考虑了标签噪音的存在,因此EWTSK-CS具有较强的标签噪音抗噪能力。