论文部分内容阅读
随着现代信息技术的飞速发展,互联网络上的信息量和类型正在发生爆炸性的增长。这为人们的日常生活、工作以及学习带来了极大的便利。但是在信息量爆增的同时也带来了新的问题。比如如何对这些海量的信息进行统一的管理,如何将这些分散的资源建立索引,以及如何从海量的信息资源中准确地获取需要的信息等等。搜索引擎是解决这些问题的关键技术,但是传统的通用搜索引擎是对Web上的所有种类的信息都进行搜集,并面向所有不同层次的用户,这种想做的面面俱到的努力在海量信息面前变得越来越没有突破性进展。普通的用户对信息的关注程度和宽度是比较集中的。所以面向特定领域和特定需求的专业搜索引擎的概念应用而生。与传统的通用搜索引擎所不同的地方是专业搜索引擎只会收集与某个主题相关的Web上的信息,在收集信息时并不是来者便收,而是通过分析判断信息内容是否与特定主题相关,并只对相关的信息进行进一步处理。因此,专业搜索引擎无论在资源消耗,还是在查询准确度上都有了显著的提高。本文的主要研究工作就是面向专业搜索引擎,且以新闻为搜索主题。在研究过程中,通过对搜索引擎中关键技术进行深入的理论的学习和实践,进一步加深对搜索引擎领域的了解。在本文中的新闻专业搜索引擎中,选择新浪新闻网站作为网络爬虫的入口地址,对其进行有针对性地收集新闻页面。收集页面的工作由专业的新闻网络爬虫完成,它从新闻首页开始,提取出其中的新闻链接地址,并将这些链接地址存入到待爬取的队列之中,通过三层的深度优先搜索算法对Web网站进行遍历。之后,爬虫还将对收集后的页面进行净化处理和提取有效信息,最后由索引器建立搜索引擎中非常核心的数据:倒排索引。搜索引擎最终是要面向普通用户的,所以,设计好一个用户体验度好的查询接口为用户提供新闻查询服务也是非常必须的任务。本文中详细介绍了网络爬虫是设计和实现,网页的净化和信息抽取以及索引库的构建。这些技术都是目前自然语言处理和人工智能方面的研究热点,通过对这些技术和理论的学习,加深对专业的技能。本面向新闻内容的搜索引擎从最简单的技术着手,逐步实现了搜索引擎这一庞杂系统中的关键模块,实验结果表明系统具有一定的准确率,达到了良好的效果。