论文部分内容阅读
随着互联网技术的发展和网络应用的日益广泛,Internet已经成为了人们获取信息资源和进行信息交流的一个重要途径,与此同时,Web信息也日益增长。如何从海量的互联网信息中找到自己所需要的信息,成为了互联网发展的一大难题。虽然传统搜索引擎的出现极大地提高了网络信息的检索速度,在一定程度上解决了这个问题,但还是无法满足人们想要准确获取信息的需求。因而对搜索引擎智能化的技术研究有着重要的现实意义。本文通过研究搜索引擎的技术框架和智能信息检索的主要技术方案,针对传统搜索引擎存在的不足,利用开源软件Lucene和Nutch,设计和实现了基于Web的文本信息的智能检索系统。本论文所做的主要工作如下:(1)在对信息检索的模型理论和搜索引擎的综合技术充分了解的基础上,针对传统搜索引擎存在的不足,详细分析了自然语言理解技术、基于Agent的智能信息检索、基于本体的智能信息检索和网页相关性研究,并对PageRank和HIT算法进行优劣对比,优化PageRank算法。(2)基于Lucene和Nutch搜索引擎智能化的实现。Lucene是Nutch内核的重要组成部分,从对Nutch的实现效果来看,Nutch的工作原理和当前商业搜索引擎的工作原理是一样的,也包含了其他技术要点,包括网页快照、网页详细信息等。利用语义分析和智能Agent的相关知识,从本地文档和数据库建立索引,建立计算机所能理解的“知识”,从而使信息检索更加智能化。(3)实验改进。Nutch原型的Crawl部分还有很多局限性,需要进行多部分的修改,改进的内容包括Crawl无法重复抓取同一个网站和不能自动更新索引的问题。中文分词的重要性不言而喻,由于Nutch自带的分词器对中文支持很弱,所以我们引入了庖丁解牛分词,并取得较好的效果。用户体验设计的修改,本论文的用户体验设计主要针对关键词的推荐和输入框的智能提示。本论文的研究内容将为智能化搜索引擎的设计方案提供一个更全面的知识内容,为智能信息搜索引擎的进一步发展提供一个新的平台。