基于SAE-LBP网页分类的研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:ntzhou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,网页的数目呈现井喷状增加,也预示着大数据时代的到来。杂乱、大量的网页文本,增加了人们对信息的查找与过滤的难度。为了方便对网页文本的检索与挖掘,对网页文本的分类就显得十分重要。一般地,网页分类器采用了支持向量机(Support Vector Machine, SVM)、后向传播(Back Propagation, BP)神经网络和Naive Bayes等传统分类算法,并通过信息增益、互信息和最大熵等模型进行特征选择。其中,信息增益取得了较好的性能,但是,信息增益的阈值很难确定。此外,BP神经网络在高层次应用中,表现出了容易陷入局部极小值、对复杂函数泛化能力较差、训练效率较低等问题。针对这些问题,本文结合稀疏自动编码器(Sparse Auto-Encoder, SAE)和LBP(Layer-wise Back Propagation)神经网络,提出一种基于SAE-LBP的网页分类器。本文主要工作如下:1.根据网页文本的半结构化特征,改进了文本特征表示的权重计算,相对于传统的BP神经网络,提升了分类准确率1%左右。本文通过统计特定数据集各个标签出现的数量,并结合各个标签的作用进行分析,对HTML标签进行分类并设置权重。2.针对网页文本的稀疏特性,采用SAE对网页文本进行高层次地特征选择,相对于传统的BP神经网络,提升了分类准确率4%左右。SAE通过在BP神经网络模型加入了稀疏性表示,更好地描述了网页文本的稀疏特性。SAE通过在BP神经网络模型加入了对参数的惩罚,有效地避免了过拟合问题。3.针对BP神经网络的梯度下降算法中的传统学习率自动调整容易震荡、调整过慢等问题,改进了传统的学习率自动调整算法,相对于传统的BP神经网络,提升了时间性能40%~60%。算法通过设置一个下限,避免了学习率调整次数过多问题。另外,在误差上升频率过大时,及时降低学习率,避免了迭代的震荡。算法还通过设置一个上限,防止下次迭代就遭遇误差上升。4.针对BP神经网络采用随机初始化值不易于快速收敛的问题,采用LBP神经网络训练算法对BP神经网络进行叠加训练,相对于传统的BP神经网络,有效地提升时间性能40%~60%。LBP神经网络训练算法从3层开始,叠加训练BP神经网络,直到目标层数。预训练低层次BP神经网络时,将低层次参数逼近最优值。叠加预训练只需要迭代有限次数即可,不需要训练到BP神经网络完全收敛。采用LBP神经网络训练算法,使得低层次的BP神经网络参数更加地接近最优值,避免了不必要的迭代。基于SAE-LBP的网页分类器采用SAE进行深度特征选取,有效提升了分类准确率;采用基于学习率自动调整的LBP神经网络算法进行训练,有效提升了时间性能。实验表明,相对于传统的BP神经网络,基于SAE-LBP的网页分类器的分类正确率提升了5.19%,时间性能提升了83.86%。
其他文献
随着IP视频会议、95588电话银行业务、网上银行等多媒体业务的应用,山西省工商银行网络系统已经不仅仅是单纯承载柜面业务处理数据的工具,计算机之间(包括办公用机及业务应用
无线传感器网络是一种由大量的集成传感器、数据处理单元和短距离无线通讯模块的节点组成的以数据为中心的无线自组网络,其目的是协作感知、采集和处理网络覆盖区中各种环境
当今的银行交易业务系统规模和复杂性与日俱增,业务的上线要求却越来越严格、急迫,一旦出错将造成不可估量的损失,目前业内普遍情况是采用手工测试,当上线时间急迫时测试质量
形式化B方法建立在严格的数学基础上,通过严格的验证技术证明其正确性,尤其对大型复杂系统的描述是非常有用和正确的。它是一种详细规格说明、设计和系统编码的方法。通过B方
近几年来,社会经济的发展促使道路交通迅速发展,机动车数量不断增加。为了解决地面交通迅速发展所引发的各种问题,需要在不破坏路面的情况下使用计算机结合图像处理、模式识
卫星在轨时,为了获取高分辨率的图像,卫星成像平台的振动再加上相机与拍摄对象之间存在的相对运动,将引起目标场景在CCD靶面上形成像移,致使图像的分辨率与对比度下降。因而为了
本文在对数据仓库的理论和OLAP技术进行了认真学习和研究的基础上,设计开发了华北电力大学成人教育学院招生信息多维数据分析系统。该系统以成人高考网上招生系统的事务级数
随着信息技术的迅猛发展,新的教学媒体不断涌现。继多媒体之后,教育技术领域又出现了一种新型教学媒体——虚拟现实技术(Virtual Reality Technology)。虚拟现实技术能够非常
网格计算是近年来得到快速发展的广域网络计算技术。网格计算环境相对于一般网络计算环境来说有着更为复杂的特征,如存在多管理域和站点自治,系统的动态性、异构性和通信延迟
信息时代为我们带来了海量数据,如何帮助人们有效地收集和选择感兴趣的信息,并且在日益增多的信息中发现潜在有用的知识已经成为信息技术领域的热点问题。面对这样的挑战,数