【摘 要】
:
21世纪是互联网事业快速发展的时代,各种各样的网页充斥着网络,人们愈加无法快速的找寻到满足自己目标的网页,信息检索的效率越来越低。网页分类系统能根据网页的内容和信息
论文部分内容阅读
21世纪是互联网事业快速发展的时代,各种各样的网页充斥着网络,人们愈加无法快速的找寻到满足自己目标的网页,信息检索的效率越来越低。网页分类系统能根据网页的内容和信息对其进行类别判定,建立一个统一的网页类别系统不仅能够有效地组织和分配网页信息,而且规范化网页管理系统,有效提高人们在网络上获取信息的效率,更加快速准确地将信息筛选并呈现给用户。因此,建立一个可以自动分类网页的系统是当务之急。本文主要研究基于深度学习的网页分类问题,用深度学习算法建立一个自动网页分类的系统。传统的网页分类方法使用如KNN或SVM等常用文本分类算法,使用这些算法得到准确程度较低且趋于稳定,很难再得到提高。本文提出了将深度学习算法应用到网页分类上的思想。深度学习算法是由多个隐藏层组成的网络结构,它主要强调了“深层”和“逐层训练”的思想,每层独立训练得到特征后作为更高层的输入继续学习特征,实现了对输入提取高抽象表示的过程。深度学习最吸引人的一点是它可以完全自动学习特征,不需要人工手动地产生特征,并且用这些自动学习到的特征产生的结果也是高度准确的。目前深度学习在各个领域上应用广泛且具有非常好的效果。本文将深度学习算法使用在网页分类的领域,通过实验也发现深度学习对于网页的分类也是非常有效的。本文结合当前网页分类的相关技术,参考文本分类系统的建立过程,抓取一定数量的网页数据,对网页实现自动分类过程,首先对网页内容信息进行筛选,选择合适的网页内容信息并提取,保留其中的中文内容并分词后将每个词汇作为特征使用,通过合适的特征加权方法,使用向量空间模型对网页进行特征向量表示,使用深度学习算法对网页训练集进行训练建模后用于分类,最后用训练好的深度学习模型对网页测试集进行分类器性能测试。为了对比该深度学习分类器的性能,通过添加对比实验评价分类器性能。实验结果表明,使用深度学习算法的分类结果要优于传统的余弦距离分类效果。本文也继续研究了栈式自动编码器模型中的主要参数对网络训练的影响,通过实验来对比发现这些参数更改以后对最终网页分类的差异性。
其他文献
在协同任务环境下,借助工作流管理系统实现企业业务、信息和资源整合,使得多组织参与的业务过程执行更加高效。但是,由于资源服务数量巨大,种类庞杂,资源服务选取效率亟待提
传统测试中通过对比程序的输出结果与预期结果是否一致,来判断此次测试中是否发现了错误。但当一个待测程序的输入与输出关系很复杂时,将难以为待测程序构造预期输出。这即是软件测试中的Oracle问题。蜕变测试通过验证多个测试用例及其输出是否满足蜕变关系来判断程序中是否存在错误,从而缓解了测试中的预言问题。蜕变关系是蜕变测试的核心。为了确保蜕变测试的有效性,在蜕变测试中会构造出大量的蜕变关系。若所有的蜕变关
行为分析的目的是从视频中检测和识别正在发生的行为,使得计算机系统能够理解行为并对场景进行进一步的语义描述。然而,海量视频数据的背后蕴含的是参差不齐的视频内容,这无疑给视频行为分析带来了巨大的挑战与压力。当前已有的各种分析模型虽然能够较好地对视频中的行为进行分析和识别,但是仍然存在一定的局限性:行为分析模型多数局限于底层特征,难以表达行为发生的具体过程;复杂的背景噪声和光照条件的变化,使得视频中包含
随着信息技术的发展,人口和计划生育业务也依托信息技术建立人口计生信息系统(PIS)来科学高效的实行人口信息管理、计划生育业务管理、人口统计与分析等。但随着经济社会的不
光学字符识别技术(Optical Character Recognition)是一类通过电子设备扫描文本,从而将文本上内容翻译成计算机文字的技术。随着大数据时代的到来,人类每年产生的数据正在以指数的形式增长,如何有效且快速的从文本,图像,视频中提取到用户感兴趣的信息得到了越来越多研究者的关注。传统的光学字符识别技术基于人为手工设计特征,对于复杂背景,光照,扭曲等环境下的字符识别效果较差。近些年来随
无线传感器网络(Wireless Sensor Networks,WSNs)面临着实时路由、节点集群和数据完整性等诸多技术需求,神经网络(Artificial Neural Network,ANN)可以为其提供一系列解决方案,增强WSNs适应其周围环境的动态行为能力。本文将研究重点放在WSNs路由协议上,以WSNs的小规模和大规模应用为背景,首先论文概述了课题的研究背景和研究目的,介绍了 WSNs
近年来,随着能量获取技术、能源转换技术和存储技术的出现,让无线传感器网络有可能摆脱能量有限的约束,故以能量获取技术为手段的可充电无线传感器网络便应运而生。虽然可充
显著性检测主要以心理学和生物神经学等学科理论知识为基础,模拟人类视觉系统预测图像的感兴趣区域,可以为图像分割、图像检索等图像处理算法提供准确预处理显著图,提升整体
我国学界的主流观点认为,在文明时代的标志问题上,恩格斯是一个典型的"国家标志论者",他在《家庭、私有制和国家的起源》一书中所作的著名论断"国家是文明社会的概括"就是他
车牌在道路交通中起着标识车辆身份的重要作用,车牌识别是智能交通的重要研究内容。已有的车牌识别算法对字符清晰的车牌图像能够达到非常高的识别率,但对于受到污损字符模糊