论文部分内容阅读
本文首先介绍了搜索引擎的基本概念,搜索引擎的发展历史及目前搜索引擎的分类,分析了未来搜索引擎的发展现状和趋势,并对搜索引擎的工作原理及相关技术做了比较详细的阐述。其后对搜索引擎中网页快照的相关技术进行了研究。
由于互联网技术的迅猛发展,推动了网络信息的爆炸式增长。如何在浩瀚而又复杂的网络信息海洋中迅速有效地获得所需的信息显得尤其关键。本文通过采用网页分类技术将保存在本地的网页快照进行分类,用户进行搜索时,将查询结果的分类目录提供给用户,用户可以选择自己感兴趣的分类进行结果的查找,可以使用户迅速定位自己所需的信息,提高了信息服务的质量。在本文的第三章对网页分类技术及分类常用算法进行了相关阐述和研究。
本文基于SVM,在给定的分类体系下,以一批原始网页作为训练集,通过人工进行分类,对分类好的网页进行信息提取,用关键词来表示文档,通过有指导的机器学习来训练分类器,最后利用训练过的分类器来对待分类的网页进行分类。对抓驭的原始网页(即网页快照)建立分类索引,在返回搜索结果时,将网页分类信息一起返回给用户。
目前,搜索引擎在进行网页快照的存储时并没有对网页的安全性进行考虑。保存于搜索引擎服务器海量缓存中的网页快照在提供给用户更快捷和更方便的访问方式的同时,也给用户带来了安全性的隐患。如果原网页存在恶意代码,在用户访问网页快照时,就有可能使用户系统在不知不觉中感染病毒。因此,本文在网页分类的基础上通过对恶意网站的识别来对网页快照的安全性进行研究。
本文第四章通过目前网页中常见的恶意代码的搜集及分析研究,介绍了现今网页中脚本语言及技术,并对这几种脚本语言的安全性及常见的恶意代码进行了分析。现在网页上的恶意代码是越来越多,当然也就使网页快照上存在的不安全代码的可能性大大增加。为了识别网页中的恶意代码,本文通过将几种常见的恶意代码的程序段的特征关键字作为机器学习的知识库中的示例知识,即原始知识库,把网页中的Script部分的代码分离出来,并将这部分代码与知识库中的关键字进行比较判断。利用机器学习的示例学习方法和机械学习方法的结合使用,通过建立恶意代码知识库,建立学习解释器,对网页中存在的恶意脚本语言进行识别判断,去除网页中不安全的代码或者可疑的代码,来实现网页快照的安全性。
这样,将可以进行网页分类及安全性判断的网页快照系统集成至现有的搜索引擎系统,改进了系统功能,可为广大用户提供更为快捷安全的网页信息查询。