基于深度学习的高效网页分类技术的研究与分析

来源 :北京邮电大学 | 被引量 : 2次 | 上传用户:jiekoala
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着网络通信技术的飞速发展,互联网逐步融入到日常生活的各个方面,网页数量更是呈现指数式增长趋势。面对海量且复杂的网页信息,如何高效地组织和管理这些信息日趋成为一个棘手的问题。网页分类作为互联网信息组织和管理的一个基础步骤,在搜索引擎、主题爬虫、恶意网页识别和维护目录式网站等许多应用中发挥着至关重要的作用。传统Web挖掘通常利用网页特征工程结合机器学习算法进行网页分类,然而随着网页结构的复杂化,网页的有效特征提取越来越困难,从而导致传统机器学习方法在网页自动分类上效果一般。因此,本文提出了基于深度学习的高效网页分类算法,针对网页的文本内容、标题等信息,利用深度神经网络,搭建一种多通道输入,复合特征抽取结构的分类模型。该模型能有效地提高网页分类的准确率,满足特定领域内网页的高效自动分类需求。本文的主要工作如下:1、分析了传统机器学习方法在网页挖掘中的优缺点并介绍了深度学习在网页分类中的特点和优势;阐述了网页数据的采集和存储技术;研究并分析了词向量技术;分析了注意力机制在网页分类问题上的可行之处;研究了卷积神经网络,循环神经网络的核心算法原理及科学应用。2、设计了基于深度学习的高效网页分类算法框架,包括数据采集和预处理;设计了词向量的预训练流程,为神经网络引入外部语义;针对网页标题、内容和结构设计了合理的神经网络特征提取模型,同时还将机器学习模型融入框架,设计了校正机制以提升分类效果。3、完成了基于深度学习的网页分类模型的训练和调优。利用了数据生成器和多GPU并行的方式对神经网络模型进行了高效训练,并在训练过程中实现了结果反馈机制;借助高效的训练方式,对算法模型进行了参数调优,并针对多次调优实验结果进行了详细分析。
其他文献
为推动二轮修志工作,江阴市志办自6月下旬至8月上旬,按照先乡镇、后机关部门的顺序,招开15个小型座谈会、碰头会、资料工作情况汇报交流会,发放300多份调查表,对全市100多个单位进
本文讨论的问题实际上是一个理论联系实际的问题,通过从概念、时机感、战术意识等方面去探索怎样才能使运动员通过训练使得技战术得以提高。从而在实践中加以运用,促进训练科学
《镇江年鉴(1992-2006)》全文检索数据库光盘于2007年8月制作完成,这是全省第一张多年鉴数据集大成的光盘。《镇江年鉴》作为镇江市珍贵的历史记录,重要的资料性文献,从1992年创刊
介绍了医用气体对于医疗救治工作的重要性,从医疗空气机组、应急功能、氧气输送管路、氧气应急气源自动切换装置等方面分析了各环节存在的关键风险点并给出了相应的改进和优
手机定位服务的盛行的确给我们带来了很多便利,它精准的移动追踪功能让亲友能够随时了解机主的所在位置,但同时也给很多人带来困扰。例如喜好查岗的女友借由
女人为爱而生,为幸福而美丽,而身穿婚纱时的女人无疑是最美丽的。芳龄28的selena已经是标准的晚婚女青年,计划在今年踏上红地毯的她一跟小编说起婚纱可是头头是道,人也变得神采奕奕起来,那我们就来看看她的收藏吧。    iWedding  婚纱摄影机构其实是韩国若干摄影工作室的集合,每个工作室的风格都不尽相同。    婚纱  婚纱礼服本就是舶来品,西式的礼服其实并不适合每一个东方人,所以在婚纱中特别
随着全球化进程的推进,使得世界各国之间的联系越来越紧密,文化交流越来越频繁,作为交流的重要工具——语言,也是越来越被人们所重视。日语不同于中文和英语一样在全球流行,所以使
最近的显卡市场可谓是精彩纷呈,NVIDIA和AMD两家不仅同时推出了新一代的双核心显卡产品GeForce GTX590和Radeon HD6990,同时在游戏类显卡市场上GeForce GTX560Ti/GTX550Ti、Rad
在各种储能装置中,超级电容器作为新型的电化学电容器,引起了人们的极大关注。超级电容器显著特点为高功率密度、长循环寿命和快速充放电。本文以磺化石墨烯(SGO)为基底,用简单
世界最大“电力高速”四川-上海1000kV特高压直流输电工程湖南段即将正式动工。专家称,这条线路将为湖南电网提供强大的电能支撑,将改变湖南电网“愁水”、“愁煤”的窘境。