搜索引擎网页快照的安全性研究

来源 :北京化工大学 | 被引量 : 1次 | 上传用户:yzyzyzy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文首先介绍了搜索引擎的发展现状,探讨了末来的发展趋势。在对搜索引擎相关技术进行了阐述之后,对搜索引擎中网页快照技术进行了研究。目前保存于搜索引擎服务器海量缓存中的网页快照在提供给用户更快捷和更方便的访问方式的同时,也将网页中可能的不安全代码一并保存并在用户搜索时一起返回给用户,使计算机在不知不觉中感染病毒。因此,本文对网页快照在实现的同时,进行了安全方面的研究。要实现网页快照的安全性判断,本文尝试采用了人工智能的先进方法——机器学习。利用机器学习中应用较为广泛的示例学习和机械学习相结合,通过建立学习解释器,对网页中的Javascript等脚本语言进行判断,去除不安全代码或者可疑代码。现在网页上的恶意代码越来越多,随之而来的,网页快照上存在不安全代码的可能性也大大增加。为了识别恶意代码,将几种含有常见的恶意代码的程序段的特征关键字作为机器学习的知识库中的示例知识,把网页中Javascript部分的代码分离出来,并将其与知识库中的关键字进行比较判断。本系统的机器学刊通过执行单元将网页的Javascript程序段与知识库进行比较,如果相同或相似则认为是恶意代码,于是就将相似代码通过学习单元将其提取特征码作为新知识存入知识库来提高学习系统的自学习能力,并将其从原来的网页代码中去掉。而对于没有检测到与知识库匹配的代码,认为是安全代码予以保留。这样,将可以进行安全判断的网页快照系统集成至现有的化工专业搜索引擎系统,改进了系统功能,为广大用户提供了更为安全的网页快照。
其他文献
我国航空器设计多年以来一直得到普遍使用的仍然是在上世纪五、六十年代就已得到广泛应用的原准机设计法,研制周期长、设计效率低,近年来,随着优化理论的不断完善和计算机技术的
极限编程是敏捷开发中的一种,是软件开发方法学泰斗Kent Beck先生最为推崇的方法之一,他强调交流,简化,反馈和胆识,在测试驱动开发、重构、小型发布等13种经典实践的帮助下,指导软
对等网应用在近几年内已得到突飞猛进的发展。资源共享系统是对等网最重要的应用之一。资源系统的性能极大地取决于P2P系统中的一个核心问题:如何高效地定位到所需要的资源,即
随着信息技术的快速发展,计算机系统给人们的日常生活带来了很大的便利,因此人们也越来越依赖计算机。尤其用户平台的移动性在日益增强,用户平台软件的漏洞也越来越多,而黑客
天气预测本身无论对于国家还是个人都有其特殊的意义,它与军事、农业、航空航天以及人民生产生活都息息相关。人工神经网络自诞生以来经过几个阶段的起伏发展,逐渐体现出其特色
随着遥感技术的快速发展,传感器的类型日趋多样,数据的类型和级别得到了很大的丰富,表现出了多格式、多尺度、分散存储等特征。遥感数据分散存储在不同的地域或者不同的部门,数据
在国内外对于无线传感器网络的研究中,能量消耗与扩充网络的有效期一直以来都是一个至关重要的问题和研究热点。由于传感器节点的能源限制,对于已经部署好的节点来说,替换可
在传统的客户机/服务器(Client/Server,C/S)体系架构的企业应用系统开发中,数据一般存放在服务器上,应用程序一般存放在客户端计算机上。这样的系统虽然解决了数据共享等问题
P2P(Peer-to-Peer)流媒体共享系统是当前非常流行的一项技术,在越来越多的网络应用中发挥着重要的作用。在其中,RealNetworks公司的RM(Real Media)格式文件是非常重要的一种流
医学图像的三维重建,也称为医学图像的三维可视化,是当前科学可视化研究中的一项重要内容,是数字图像处理、计算机图形学在生物工程领域的重要应用。医学图像的三维重建可以将采