基于文本特征的不良网页检测系统的研究与实现

来源 :浙江大学 | 被引量 : 0次 | 上传用户:sumjoy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的不断发展,不良网页如色情,赌博等网页给社会和人们带来了极大危害,因此提高对不良网页传播的不良信息的检测能力,加强建设健康的网络环境已成为一种迫切的需求。近几年,深度学习技术在特征提取和特征表示方面取得了比较大的进展,在自然语言处理任务中也取得了令人满意的成果。从2013年的自然语言中的词嵌入,到后面序列与序列模型、注意力机制、预训练语言模型等的提出,都说明自然语言处理正在飞速发展,而网页中最多的就是文本,所以本文将使用文本处理技术对不良网页进行检测与识别。本文的主要工作如下:1、对本文中不良网页检测识别中所用到的文本分类技术进行了研究,包括文本表示,预处理,特征选择,常用分类算法及近几年的深度学习算法。2、提出一种结合Transformer模型的自注意力机制和卷积神经网络的文本分类算法,通过实验验证其有效性。3、针对实际网页数据集进行网页解析与预处理,做了数据增强,并提出一种含注意力机制和TF-IDF(Term Frequency-Inverse Document Frequency)的Bi LSTM(Bi-directional Long Short-Term Memory)文本分类算法,通过实验验证其有效性,后面使用该算法提取特征与其他特征进行特征融合得到最终的网页分类模型,同时利用注意力机制提取网页文本关键词。4、设计与实现了不良网页检测软件,通过直接输入网址得到网页的检测结果并显示该网页进行识别过程所提取的关键词和对该网页的分析。
其他文献
随着社会节奏的加快和经济水平的提高,人们的饮食方式逐渐由每餐独立烹饪转变为购买便捷高效的方便食品,使方便食品行业得到高速的发展。自热食品作为一种健康美味的方便食品,已受到广大消费者的青睐。但目前的研究中,大多是对于加热装置的升级优化,鲜有对延长和预测自热食品货架期的报道,降低了消费者对食品营养和品质的期待,同时增加了企业由于货架期预估不准确而造成的生产成本,从而限制了自热食品行业的进一步发展。本论
随着信息科技的快速发展,社会对小型化移动机器人,特别是家用机器人的需求越来越高。家用机器人需求最多的当属扫地机器人,市场潜力巨大。目前扫地机器人进行环境感知的方式主要分为:超声波、红外、激光雷达、单目视觉、立体视觉、全景视觉等。属于全景视觉范畴的全景环带光学系统具有实时获得大视场、大景深的图像等优点,因而非常适合扫地机器人的应用需求。为了适应扫地机器人体积小的特点,重新设计了一个结构紧凑、光学总长
基于深度神经网络(DNN)的OCR技术目前已能够在较为规范的数据集上取得较高的准确率。但是,当应用于真实场景时,图片重要信息丢失、图片倾斜、图片质量差等问题会导致仅基于DNN的OCR系统无法正确工作。为了应对上述问题,出现了许多OCR后纠错技术。目前OCR后纠错领域的工作较多基于英文或者类似的基础字符较少的语言,由于字符类别的数目少,它们之间的相似性小,所以纠错较为简单。但是在中文、日文等字符类别
为满足日渐庞大的失能老人群体的洗浴护理需求,缓解护理人员工作负担,本文设计研究一种能够实现淋浴、擦洗、烘干、消毒和生命体征实时监测等功能的失能老人用洗浴辅助机器人,对缓解医疗卫生和养老事业压力,提高老人晚年生活质量,具有重要的社会应用价值。本文主要研究内容包括:(1)结合国内外洗浴护理研究现状,分析总结洗浴辅助机器人的主要功能,提出系统组成及关键指标,设计洗浴辅助机器人主要结构,分析关键结构的力学
截止到2018年底,油气使用量占全球能源市场的57.48%,而管道运输因安全、经济、运输量大的优势,使得管线铺设得越来越广。近几年随着城乡建设的发展,管道第三方破坏事故屡屡发生,不仅造成了重大的经济财产损失,而且危害了人身和公共环境安全。因此,管网公司经常派遣巡检员,但很多高后果区管线地处偏远,人工巡检困难,工作量大。同样在第三方施工现场,通常采用传统视频监控,无法检测识别可能对管道造成破坏的大型
互联网内容风控已成为各互联网企业和政府重点关注的技术,由于互联网数据具有产生速度快,更新频率高的特点,单纯的依靠人工审核成本高、误差率高。目前的审核方法主要是基于规则和算法模型的机审与人审结合的方式。这就需要依赖于算法和模型的快速迭代以及数据处理的周期需要尽可能的短,而传统的算法管理平台无法实现这些需求。风控算法管理平台的需求应运而生。传统的算法管理平台存在着算法和模型耦合、数据处理性能低,模型迭
果胶是广泛存在于植物细胞壁中的杂多糖,其主要结构域包括同型半乳糖醛酸聚糖(HG)、鼠李半乳糖醛酸聚糖I(RG-Ⅰ)和鼠李半乳糖醛酸聚糖Ⅱ(RG-Ⅱ)等。RG-Ⅰ型果胶在果蔬加工废弃物中大量存在,且研究发现其具有优于传统HG型果胶的独特生理功能,但RG-Ⅰ型果胶通常被认为是凝胶阻碍因子,在传统热酸方法提取果胶的过程中被除去,也没有在食品工业中作为胶体进行应用。前期研究发现RG-Ⅰ型果胶具有在无糖或低
随着电影特效、电子游戏、虚拟城市仿真等领域的发展,密集建筑场景开始出现在各种应用中。为保证其渲染的实时性,可见性剔除算法被普遍运用。其中,基于建筑自身良好的遮挡性,遮挡剔除算法可以有效减少渲染量,提高渲染效率。而基于硬件遮挡查询的相关性层次剔除算法既可以发挥遮挡查询灵活、准确、简单易用的特点,又能有效利用帧与帧之间的时空相关性进一步解决其延迟性,并降低查询数量,减少渲染状态切换,是应用最为广泛的遮
随着近年来网络用户规模的增加,原本的单体应用架构已经不适合大数据量、高访问量、高可用性的情况。微服务、Dubbo等一些分布式框架在解决高并发、高可用等方面表现优越,分布式、高并发正在逐渐成为当今互联网应用的发展趋势。如今一个Java应用可能会划分为几十或者上百个相对独立模块,分布在不同的机器上,应用结构比较复杂。在应用规模庞大,结构复杂的背景下,如何监控应用的运行状态成了一个棘手的问题。基于此,本
随着高清及超高清视频等高带宽应用的增加,传统宽带已不能满足用户接入需求,在光进铜退的历史潮流下,光纤到户越来越受到欢迎,同时公共场所(酒店、洗浴中心、大型商场等)的网络用户接入管理、公安审计、商家营销等需求也随之增加。鉴于以上需求,基于PON(无源光网络)的认证审计网关在这个背景下应运而生,不仅可以满足用户上网的高带宽需求,还可以配合云AC(Access Control)系统、公安审计系统、广告营