【摘 要】
:
随着互联网技术的发展,各式各样的网站出现在网络空间环境中,为人们信息的获取提供了极大的便利,各式各样的网页数量随着网站数量的增加呈现指数性的增长趋势。面对数量巨大的网站资源的出现,如何提供一种高效、准确、合理的网页分类筛选方法,让需要的人找到自己所需的资源成为一个重要而且有意义的问题。文本分类是自然语言处理领域中的经典主题,而网页分类归根结底还是文本分类的问题。网页分类是互联网基础资源管理与组织中
论文部分内容阅读
随着互联网技术的发展,各式各样的网站出现在网络空间环境中,为人们信息的获取提供了极大的便利,各式各样的网页数量随着网站数量的增加呈现指数性的增长趋势。面对数量巨大的网站资源的出现,如何提供一种高效、准确、合理的网页分类筛选方法,让需要的人找到自己所需的资源成为一个重要而且有意义的问题。文本分类是自然语言处理领域中的经典主题,而网页分类归根结底还是文本分类的问题。网页分类是互联网基础资源管理与组织中一个最基础的问题之一,在搜索引擎、网页篡改分析、恶意网站识别等互联网基础应用中发挥着不可替代的作用。传统的Web数据挖掘技术通常利用网页特征分析结合浅层次机器学习的方法进行网页分类,但是随着网页数据结构组织的复杂化,在非结构化网页数据中提取有效的特征变得越来越困难,传统的机器学习在网页分类的效果上已经很难取得突破性的发展。深度学习模型逐渐己经成为处理文本分类的主流技术,基于深度学习的分析模型来构建特征文本向量的方法可以准确表达文中的词义和语义信息,但是也易被稀疏性等问题困扰,出现分类效果不佳的问题。针对上述问题,本文提出了一种基于语义特征融合的深度学习网页分类模型,该模型使用了 TextCNN提取网页中重要标签(title,keyword,description)的文本语义特征,使用XLNet提取网页其他标签内容的文本语义特征,并将两部分特征融合进行网页分类,有效解决了网络特征融合过程中的特征共线以及向量稀疏问题,本文引用了特征语义融合机制增强重要标签的语义特征与网页其他标签的语义特征的融合,进一步增强网页文本语义文本信息的表征,从而提高网页分类的准确率、召回率以及F1值等指标,同时也相应的提高模型的泛化能力。实验结果显示本文提出的基于语义特征融合的深度学习的模型能够有效的对网页文本进行高准确率的分类。
其他文献
收发同时的数字射频存储(DRFM)干扰设备性能关键影响因素之一就是干扰设备接收端与发射端之间的隔离,为了保证收发同时干扰设备对接收信号的准确识别,得到敌方雷达信号的信息,必须研究接收端与发射端之间的自干扰对消方法,使干扰设备的检测性能得到提高。本文对收发同时干扰机的自干扰对消进行了研究,提出了一种基于仿射投影和最小均方的凸组合联合(CVX-AP-LMS)算法的时域自干扰方法,以及一种空域自干扰对消
执转破制度是我国为解决执行难问题提出的重大举措,大量执行案件的积压既浪费了司法资源,也损害了广大债权人的合法权益。将执行不能案件转入破产程序一方面可以将执行不能案件及时退出,另一个方面也可以让濒临破产状况的企业通过正当程序退出市场以节约市场资源。破产程序的启动机制作为破产制度的首要环节,有着至关重要的作用。因此从执行转破产制度入手,对其中的破产程序启动问题进行研究,很有现实价值。这就需要从基础理论
热泵烘干方式已经广泛运用于工业制造、农业生产、商业、以及日常生活等各大领域。在热泵装置中,蒸发器起着至关重要的作用。闭式并联双蒸发器烘干机由于采用两个蒸发器。一个蒸发器用于取热,一个用于除湿。两个蒸发器并联布置使得烘干机的运行调节模式可多样化,能较好地适应不同物料的烘干要求。但由于运行工况时变性的原因,在实践过程中烘干机系统往往容易出现不稳定的流态,导致各种故障报警停机,制约了该项技术的推广。本文
在信息技术和软件产业的发展浪潮中,传统的软件开发模式在应对日益复杂的业务和快速变更的客户需求时显得捉襟见肘。基于此,EP公司不得不开始切换到敏捷开发模式,进而能够快速且持续地向客户交付具有定制需求且价值更高的软件产品。因此当软件项目切换敏捷开发模式后,如何有效提高软件交付质量,是本文研究的重点方向。本文首先研究学习了项目质量管理概念和市场主流的软件质量管理基础理论,接下来介绍了敏捷开发模式的特点,
“一带一路”建设是我国扩大对外开放的重大举措和经济外交的顶层设计。六大经济走廊的建设是“一带一路”建设的重要内容,其中包括中蒙俄、新亚欧大陆桥、中国-中亚-西亚、中南半岛、中巴和孟中印缅经济走廊。六大经济走廊将相关60多个发展中国家和地区列为中国对外交往的优先和重点对象。本文以六大经济走廊城市群为研究对象,测度其经济联系强度并在此基础上识别空间经济网络特征,探究六大经济走廊城市群经济联系强度的影响
食物对于人们来说,也许是一件习以为常之物,在日常生活之中,总会接触到各类关于食物的信息,但是对于食物的认知需要作以不同层面意义的构架,《孟子》中曾叙述到:“食、色,性也”;《礼记》中也提及:“饮食男女,人之大欲存”,可以看到食物在以上的叙述中,聚焦于人的本能,即一种生物性,满足于人的生存之需,当“美食”这一概念生成之时,“品味”之意融入于食物的意指建构之中,审美的要素逐步生发,所以食物这一日常之物
利用植物次生代谢物质光敏化降解环境污染物对水体污染修复具有重要意义。杀菌剂百菌清对水生生物毒性较高且在自然水体中主要降解产物为高毒4-羟基百菌清。本文研究了没食子酸对百菌清在不同水体中的光化学降解影响,在紫外灯、高压汞灯(HPML)、自然光(太阳光)三种光源照射下,没食子酸对百菌清光化学降解均有促进作用;通过高分辨质谱分析了百菌清在没食子酸作用下的降解产物,提出了可能降解机理。研究结果如下:在紫外
物联网设备已经广泛应用于智能电网、智能家居、智能医疗和智能交通等各种应用场景中,成为生活、生产和智慧城市的重要组成部分。然而,随着物联网的飞速发展,物联网网络安全事件也层出不穷,物联网设备遭受网络攻击和非法控制,严重影响到企业、用户的安全和隐私。物联网固件承载着物联网设备的核心功能,通过对物联网固件进行脆弱性分析是研究物联网设备安全问题的一种有效方法。由于物联网设备的指令集、操作系统、应用组件异构
在现代战场上,随着雷达体制的改变,雷达工作模式的增多和雷达抗干扰能力的增强,战场环境变得更为复杂。干扰方根据侦察的雷达信号实时判断雷达工作模式的难度提升。针对雷达的任意一种工作模式,干扰方可以选择多种干扰样式对其进行干扰。传统干扰决策方法依靠经验或模板匹配选取干扰样式,不能保证选择的干扰样式是最优的。为了提高复杂电磁环境下干扰决策的性能,提出了基于监督抽样的深度强化学习干扰决策方法。本文主要研究了
电子邮件目前仍然是政府、企业、社会组织和个人使用最频繁的工作业务联系和交流的工具之一。随着个人隐私信息的大量泄露,攻击者可以通过收集攻击目标的相关信息制作出信息关联度极高的精准钓鱼邮件,此类邮件成为当前APT攻击和传播勒索软件的重要手段。本文针对恶意邮件的新威胁和检测存在的问题,提出了基于多特征的静态恶意邮件检测技术以及基于虚拟化平台的动态恶意邮件检测技术。为了进一步提升检测精度和效率,提出了一种