论文部分内容阅读
互联网技术的飞速发展使得网络上的信息越来越多,人们虽然可以使用传统的搜索引擎找到自己感兴趣的内容,但是搜索得到结果却往往是过时的信息。这是因为,传统搜索引擎为了使搜索结果的覆盖面广,内容更丰富,在信息获取阶段也即网络爬虫抓取网页的时候,会耗费大量的时间。另外,把最终抓取到的大量的信息加入索引库中也会带来一笔不小的时间开销。因此,当用户从传统搜索引擎得到搜索结果时,互联网上的原始信息可能已经产生了较大的变动。本论文主要针对传统搜索引擎中搜索结果时效性低的现象,对互联网上实时信息的获取和索引技术进行了深入的研究。主要内容有:首先,在对传统搜索引擎的基本框架和工作原理进行研究的基础上,针对搜索结果中信息过时这个现象,确定了本文对网络爬虫和索引进行研究和改进的技术方案。然后,文本介绍并分析了目前互联网上实时信息的种类,并对新闻类的实时信息进行了研究。由于新闻类信息每时每刻都会产生,并且需要网络爬虫从新闻网站上获取,因此,本论文分析了新闻类信息的网址特点,并提出了使用网络爬虫定向获取新闻类信息的方案,通过定制Heritrix开源网络爬虫,对新闻类实时信息获取进行了实验,验证该方案的可行性。之后,本文对索引技术进行了研究,通过定制Lucene开源索引框架,对不同参数下索引过程的耗时进行了实验,并选取了适合的参数以减少索引过程的耗时,提高效率。另外,定制了检索结果的排序规则,以突出时间因素的重要性。最后,使用J2EE平台,将网络爬虫和索引系统进行了整合,实现了一个完整的实时搜索引擎系统。另外,提出了基于时间的网络爬虫调度策略和基于用户行为的网络爬虫调度策略,前者以较短的时间间隔自动从网络上获取信息,后者通过用户的检索行为判断热点时间的发生,并启动网络爬虫获取实时信息,并通过实验验证了方案的可行性以及系统的可实现性。