论文部分内容阅读
随着网络技术和软件技术及云计算技术的高速发展,当前数据正以海量的方式递增,并已经进入了大数据时代。真实世界数据,比如数码照片、基因表达谱、人脸数据集或网页文本,通常具有维数高和数据量大的特点。对于传统的人工智能技术和模式识别技术等都面临如何在大数据时代下实现数据处理的挑战。比如,对于大规模的人脸数据集分类,一台计算机或工作站因为缺乏速度和存储容量很难适应实际需求。为此,非常有必要研究在大数据环境下如何实现基于多计算机集群的人工智能技术和模式识别技术。当采用人工智能方法,比如利用神经网络对相关数据进行处理时,若训练样本的数量规模不大时,单个神经网络的泛化能力和运行时间是比较理想的。然而随着识别类别及数目增加,神经网络的结构也将变得更加复杂,导致神经网络训练时间变得更长,收敛速度变得更慢,容易陷入局部最小值和更差的泛化能力等。为了解决这些问题,本论文研究和设计了由多个神经网络组成的集成神经网络(Hybrid Neural Networks,HNNs)去代替复杂的单一神经网络,并且提出了一种新颖的半监督学习算法——嵌入Softmax回归的深度信念网络(Deep Belief Network Embedded with Softmax Regress,DBNESR)作为分类器的深度学习方法。本论文所做的主要贡献如下:(1)本文提出了一种在云计算集群上,基于Map-Reduce的多层神经网络并行实现方法。也即为了满足大数据处理的需要,本文提出了一种在云计算集群上,基于Map-Reduce的误差反传BP算法被训练的全连接多层神经网络的有效映射机制。针对一个在云计算集群上的并行BP算法和一个在单一处理机上的串行BP算法,从理论上推导了实现算法所需要的时间,并且评估了在云计算集群上的并行BP算法及性能参数(加速比、数据节点的最佳数目和最小数目等)。实验结果证明,本文提出的并行BP算法比现有的算法有更好的加速比和更快的收敛速率及更少的迭代次数。(2)本文提出了一种在云计算集群上,基于Map-Reduce的径向基函数神经网络的并行实现方法,并进行了情感计算等应用研究。也即借助于云计算平台,通过网络流通和组合提供的计算能力,实现了径向基函数神经网络及学习算法的并行训练和分类识别应用,从而使径向基函数神经网络能够进行跨平台的学习,以及处理人脸识别和语音识别及情感计算等海量的高维数据。实验结果表明,本文提出的算法比基于单一计算机的传统串行训练神经网络学习算法有更快的学习速度,更高的识别率,更大的数据处理能力。(3)本文提出了一种半监督学习算法——内嵌Softmax回归的深度信念网络(DBNESR),并且设计了多种基于监督学习的分类器:BP、HBPNNs、RBF、HRBFNNs、SVM、多分类决策融合分类器(Multiple Classification Decision Fusion Classifier,MCDFC)——集成HBPNNs-HRBFNNs-SVM分类器。实验结果表明,半监督深度算法DBNESR具有较佳的、较高、较稳定的识别率;半监督学习算法比所有的监督学习算法有更好的效果;集成神经网络比单一神经网络有更好的效果;平均识别率和方差分别为BP<HBPNNs≈RBF<HRBFNNs≈SVM<MCDFC<DBNESR和BP>RBF>HBPNNs>HRBFNNs>SVM>MCDFC>DBNESR;这反映了DBNESR具有模拟复杂人工智能任务的能力。