论文部分内容阅读
随着互联网的发展,网页的数目呈现井喷状增加,也预示着大数据时代的到来。杂乱、大量的网页文本,增加了人们对信息的查找与过滤的难度。为了方便对网页文本的检索与挖掘,对网页文本的分类就显得十分重要。一般地,网页分类器采用了支持向量机(Support Vector Machine, SVM)、后向传播(Back Propagation, BP)神经网络和Naive Bayes等传统分类算法,并通过信息增益、互信息和最大熵等模型进行特征选择。其中,信息增益取得了较好的性能,但是,信息增益的阈值很难确定。此外,BP神经网络在高层次应用中,表现出了容易陷入局部极小值、对复杂函数泛化能力较差、训练效率较低等问题。针对这些问题,本文结合稀疏自动编码器(Sparse Auto-Encoder, SAE)和LBP(Layer-wise Back Propagation)神经网络,提出一种基于SAE-LBP的网页分类器。本文主要工作如下:1.根据网页文本的半结构化特征,改进了文本特征表示的权重计算,相对于传统的BP神经网络,提升了分类准确率1%左右。本文通过统计特定数据集各个标签出现的数量,并结合各个标签的作用进行分析,对HTML标签进行分类并设置权重。2.针对网页文本的稀疏特性,采用SAE对网页文本进行高层次地特征选择,相对于传统的BP神经网络,提升了分类准确率4%左右。SAE通过在BP神经网络模型加入了稀疏性表示,更好地描述了网页文本的稀疏特性。SAE通过在BP神经网络模型加入了对参数的惩罚,有效地避免了过拟合问题。3.针对BP神经网络的梯度下降算法中的传统学习率自动调整容易震荡、调整过慢等问题,改进了传统的学习率自动调整算法,相对于传统的BP神经网络,提升了时间性能40%~60%。算法通过设置一个下限,避免了学习率调整次数过多问题。另外,在误差上升频率过大时,及时降低学习率,避免了迭代的震荡。算法还通过设置一个上限,防止下次迭代就遭遇误差上升。4.针对BP神经网络采用随机初始化值不易于快速收敛的问题,采用LBP神经网络训练算法对BP神经网络进行叠加训练,相对于传统的BP神经网络,有效地提升时间性能40%~60%。LBP神经网络训练算法从3层开始,叠加训练BP神经网络,直到目标层数。预训练低层次BP神经网络时,将低层次参数逼近最优值。叠加预训练只需要迭代有限次数即可,不需要训练到BP神经网络完全收敛。采用LBP神经网络训练算法,使得低层次的BP神经网络参数更加地接近最优值,避免了不必要的迭代。基于SAE-LBP的网页分类器采用SAE进行深度特征选取,有效提升了分类准确率;采用基于学习率自动调整的LBP神经网络算法进行训练,有效提升了时间性能。实验表明,相对于传统的BP神经网络,基于SAE-LBP的网页分类器的分类正确率提升了5.19%,时间性能提升了83.86%。