互联网中实时信息获取与索引技术研究

被引量 : 1次 | 上传用户:ESC_liangzi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网技术的飞速发展使得网络上的信息越来越多,人们虽然可以使用传统的搜索引擎找到自己感兴趣的内容,但是搜索得到结果却往往是过时的信息。这是因为,传统搜索引擎为了使搜索结果的覆盖面广,内容更丰富,在信息获取阶段也即网络爬虫抓取网页的时候,会耗费大量的时间。另外,把最终抓取到的大量的信息加入索引库中也会带来一笔不小的时间开销。因此,当用户从传统搜索引擎得到搜索结果时,互联网上的原始信息可能已经产生了较大的变动。本论文主要针对传统搜索引擎中搜索结果时效性低的现象,对互联网上实时信息的获取和索引技术进行了深入的研究。主要内容有:首先,在对传统搜索引擎的基本框架和工作原理进行研究的基础上,针对搜索结果中信息过时这个现象,确定了本文对网络爬虫和索引进行研究和改进的技术方案。然后,文本介绍并分析了目前互联网上实时信息的种类,并对新闻类的实时信息进行了研究。由于新闻类信息每时每刻都会产生,并且需要网络爬虫从新闻网站上获取,因此,本论文分析了新闻类信息的网址特点,并提出了使用网络爬虫定向获取新闻类信息的方案,通过定制Heritrix开源网络爬虫,对新闻类实时信息获取进行了实验,验证该方案的可行性。之后,本文对索引技术进行了研究,通过定制Lucene开源索引框架,对不同参数下索引过程的耗时进行了实验,并选取了适合的参数以减少索引过程的耗时,提高效率。另外,定制了检索结果的排序规则,以突出时间因素的重要性。最后,使用J2EE平台,将网络爬虫和索引系统进行了整合,实现了一个完整的实时搜索引擎系统。另外,提出了基于时间的网络爬虫调度策略和基于用户行为的网络爬虫调度策略,前者以较短的时间间隔自动从网络上获取信息,后者通过用户的检索行为判断热点时间的发生,并启动网络爬虫获取实时信息,并通过实验验证了方案的可行性以及系统的可实现性。
其他文献
建立一套比较完整的资源节约型社会评价指标体系对于建立节约型社会有重要意义,提出资源节约型社会的内涵:将节约理念贯穿于生产、流通、消费和社会生活的各个领域,通过采取
<正>取鹅不食草(鲜品)适量捣烂取汁,滴于鼻息肉上,每日数次,连续治疗1~2周,直至息肉变小乃至消退。本方具有通窍、行气、化淤、解毒功效,适用于治疗鼻息肉。四川成都邹丽
态势感知是新形势下网络安全工作的必由之路,国家层面也提出了全天候全方位感知网络安全态势的要求。本文结合民航实际和民航网络工作发展阶段,分析行业网络安全态势感知系统
目的:评估da Vinci S机器人辅助腹腔镜根治性前列腺切除术(RARP)的疗效和安全性。方法:回顾分析2009年7月~2012年8月应用RARP治疗61例临床资料,t-PSA水平为6.0~57.2μg/L,平
<正>主流电影市场倾向于高额投入以获得明星阵容和震撼的视觉效果,艺术影院虽然尚属小众范畴,但在满足喜爱艺术电影的观众需求方面也是用尽浑身解数。北京的艺术影院在培育市
近几年,随着计算机性能的不断提高和相关领域算法研究的不断深入,计算机视觉得到了蓬勃的发展。人脸工程作为计算机视觉主要研究方向之一,现实生活对于它的需求也逐渐增加。
<正>固体润滑专家——浙江宝晟铁路新材料科技有限公司以石墨粉体材料为基材,精选30多种具有微纳米级矿物粉体材料,采用先进工艺,成功研发出"机车轮缘复合型固体润滑棒材",其
<正> 1 引言 活性炭的灰分对炭的制造和性能都有不良影响。不同用途的活性炭对灰分有不同的要求。不同原料制的活性炭其灰分大多达不到要求。由于木质活性炭较昂贵,人们便试
人脸识别系统是人脸识别技术在生物特征识别领域的应用,旨在将人脸图像作为一种可以唯一标识的生物特征进行编码与鉴别,目前较为广泛的应用于安防领域。由于云台摄像头的可控