论文部分内容阅读
当今互联网的信息是海量的,如何从这些海量的信息中获取重要的和用户查询相关的信息资源是很重要的,个性化搜索引擎在这样的背景下产生了。然而,当前搜索引擎返回的搜索结果数目非常庞大,要从这么多的结果中找到有用的信息,有时候显得很困难,如何获得更好的搜索结果,通过好的初始URLS更好的帮助用户找到自己感兴趣的信息,是本文的研究重点。搜索引擎的一个重要组成部分就是网络爬行虫,它是搜索引擎不可缺少的组成部分。本文就是从爬行虫入手,重点讨论爬行虫的爬行起点初始URLS的形成,通过初始URLS的个性化达到用户个性化的目的。本文依此思路,就初始URLS的获得,做了一系列的工作,并取得了如下研究成果:1.本文提出了网络爬行虫初始URLS侯选集合的形成的基本思想和方法。根据用户输入查询条件,从著名搜索引擎(AltaVista,DirectHit,Excite,Google,HotBot,Lvcos and Yahoo,etc)搜索库中及时返回部分网页作为初始URLS集合侯选集合。具体地,在实现方式上,本文讨论了通过调用Google搜索引擎提供的Web Service Api函数,让Google返回大量的URLS,作为后续研究工作的起点。2.本文在有序概念格的概念的理论基础上,提出了通过设定的访问次数下界得出用户的频繁访问路径,把这些路径按照频繁路径在用户访问路径中出现的次数大小排序,再结合用户的历史点击获得用户的兴趣URLS集合的方法,并给出了其实现的算法,通过实例分析,说明了该方法的有效性。3.本文研究中,提出了基于数据挖掘技术的种子URLS集合形成方法,通过对用户浏览历史及其日志的挖掘形成用户兴趣库,利用1中的候选集合,进行切词分词处理,形成网页文本向量,通过与用户兴趣向量的相似度计算获得优化后的兴趣种子URLS集合,作为下一次爬行的种子,也可以直接返回给用户URLS集合,供用户点击。4.最后,本文发展了一个网络爬行虫程序(MySpider),在西华大学校园网实验环境中验证了基于数据挖掘技术的种子URLS集合形成方法,通过与Google、Baidu、Learnable Crawler实验对比,MySpider搜索结果的用户满意度、网页召回率都较其它搜索引擎高,同时通过实验得出了“MySpider通过三次递归爬行返回给用户结果是充足的,合理有效的”的结论。