基于深度学习的网页分类技术研究

来源 :中国地质大学(北京) | 被引量 : 0次 | 上传用户:tastgaoyan1981
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的迅猛发展,互联网因其包含的海量信息而越来越多的成为了人们获取信息的主要场所。也有了更多的人乐于在互联网上分享自己的知识,这导致了网页数量的爆炸式增长。据1月31日中国互联网络信息中心(CNNIC)在京发布的第41次《中国互联网络发展状况统计报告》显示,截止至2017年12月,我国网民数量已经达到了7.72亿,占人口总数的55.8%,超过全球平均水准4.1个百分点,超过亚洲平均水准9.1个百分点。种种现象表明,互联网已经成为当代人们生活中必不可少的组成部分。而伴随着互联网的飞速发展,网络内容得到了极大的丰富。如何将这些海量的信息进行一个合理的筛选,让人们能快速,有效的找到自己想要的资源成为了一个重要而且有意义的问题。为了应对这种问题,人们发明了搜索引擎,能准确地查找人们所需要的信息,但将所有网页放在同一集合查找显然不是明智之举。调查显示,人们在进行信息检索时往往会围绕着一个主题。如果能将网页按页面类型进行分类将有效的提高信息检索的效率。将网页快速、有效的进行分类还能很好的提高搜索引擎对人们发出的信息检索请求的响应速度。目前在工业上网页分类多半是采用人工策略或者传统机器学习的方法。得益于深度学习技术的高速发展,越来越多的难题得以被解决。2014年卷积神经网络被证实能运用于文本分类上,为本篇论文提供了灵感。本篇论文研究了国内外的分类策略,例如贝叶斯、决策树和支持向量机等。对卷积神经网络的搭建过程及运行原理进行了探究,对神经网络的标准化处理,损失函数及梯度下降法做出了足够的了解,并对现今主流的深度卷积神经网络进行了分析,例如:Le Net、Alex Net、VGG Net等。通过以上研究,本文提出了一个用深度学习方法对网页进行特征提取,再将神经网络的特征输入到分类器进行分类的方法,通过使用深度学习的方法搭建了网页特征提取模型,有效的提高了网页分类方法的效果,并通过和人工策略和传统机器学习的分类策略进行对比,证明了该方法的有效性和可行性。
其他文献
遥感技术凭借宏观、动态、综合、快速的特点,在地球物理数据以及变化信息的采集工作中具有重要的意义,在我国国民经济、社会发展、国防建设的宏观决策中也发挥着重要的作用,展现出广阔的产业化前景。高分辨率遥感影像数据主要有多源性、空间宏观性、时间周期性、多空间分辨率等特性。传统的诸如最小距离法、最大似然法等遥感影像分类方法在一定程度上改善了分类主观性较大、操作较复杂以及耗时较多的缺点,但分类结果依然存在分类
数控机床进给系统是指机床上根据数控系统的指令完成进给动作的控制与运动单元,主要由位置控制单元、速度控制单元、伺服系统、检测与反馈单元和机械执行部件几个部分组成。在机床工作的过程中,由于输入电流不稳定、结构振动或控制算法不够精确等问题,会出现进给系统中实际的电机转速和进给速度值在指令值上下进行波动的情况,从而导致机床工作台的瞬时窜动和波动,严重时会影响机床加工零件表面的形貌和精度。为了便于发现机床进
向行政机关发出诉前检察建议是检察机关在行政公益诉讼诉前程序中发挥监督作用的重要方式,其实质是行政公益诉讼制度的过滤机制。2015年6月,我国最先在北京等13个地区开展关
对于半导体自旋电子学器件而言,自旋注入层材料选择一直是个问题。注入层材料选择的根本问题是金属自旋注入材料与半导体材料的电导不匹配,从而导致自旋注入效率下降。后来人们尝试利用稀磁半导体作为自旋注入材料来解决电导不匹配问题,但是稀磁半导体的铁磁性仍是无法被解释的。因此后来人们把目光放在了铁氮化合物,开始对铁氮化合物进行研究。铁氮化合物有着不同的结构,其中ε-Fe_3N材料具有良好铁磁性。另外,GaN作
互联网服务正在极速运行和发展,并朝着多元化的方向持续变革与创新。网络结构逐渐复杂化,预测模型可为网管中的带宽配置、路由管制和差错调节提供必要的参考,对提升网络性能以提供更好的服务质量(QoS)具有尤为重要的意义。因此,网络流量的分析和预测技术一直是相关领域的热门研究课题。首先,本文在研究了网络流量复杂非线性特征的基础上,对来源于国内高校网络中心内不同设备线路的真实网络流量数据进行筛选和采集;然后从
螺栓是机械设备中常用的紧固件,具有结构简单、装配方便、经济适用等优点。但在实际工况中由于振动冲击等因素造成螺栓失效,导致很大的隐患,为了探究螺栓连接的松动机制研究人员进行了一系列的试验。目前对于螺栓连接的研究主要集中在螺栓/螺母的配合结构中,而对于盲孔螺栓连接结构的研究较少。本文对剪切激励下盲孔螺栓连接结构的松动行为开展研究,并且对盲孔螺栓的疲劳寿命进行分析验证,这对盲孔螺栓连接的实际应用具有重要
随着3D打印技术的不断进步,表达清晰、观赏性好且不需要后续处理的彩色模型,逐渐引起了人们的关注,彩色3D打印已经成为消费者的普遍需求。然而,作为目前3D打印领域模型描述的
随着人口老龄化和医疗资源不平衡等社会问题日益严峻,移动医疗技术受到了广泛的关注。植入式医疗设备在移动医疗系统中主要用于感知人体生理信息。相比于传统的有线连接或线
在现代化的制造过程中,制造过程自动化程度及工业复杂度不断提高,单纯依靠传统的多元统计过程控制(Multivariate Statistical Process Control,MSPC)监控制造过程的异常已无法满足现代化制造过程的要求。随着信息采集技术的发展,制造过程产生了大量的数据,而如何利用好这些数据并服务于多变量过程质量控制领域成为研究人员急需解决的问题。在大数据时代背景下,许多的机器学习算
随着河北省规模化畜禽养殖场与日俱增,环境污染风险也日益突出,因此实现环境友好型畜禽规模化养殖对于畜禽环境污染的防控具有重要意义。基于此,本文首先通过污染物测算和ArcGis10.2空间分析功能对河北省畜禽污染现状进行分析,其次运用EKC模型了实证分析了河北省不同畜禽养殖规模下的COD、全氮、全磷排放规律,并通过模型方程计算出河北省适合的养殖规模理论值,探明了污染物排放的主要来源;再次,分析了不同规