论文部分内容阅读
在互联网蓬勃发展的今天,互联网上的信息更是浩如烟海。人们在享受互连网带来的便利的同时,却面临着一个如何在如此海量的内容中准确、快捷地找到自己所需要信息的问题,由此互联网搜索引擎应运而生。当前对于搜索引擎的研究是互联网技术中最热门的领域之一,人们通过搜索引擎的反馈来浏览互联网。
论文中对搜索引擎的原理、组成、数据结构、工作流程等方面做了深入而细致地研究与分析。搜索引擎的未来发展方向是个性化、智能化。对于不同搜索引擎来说,不同用户群搜索相同的内容将得到不同的更适合用户的搜索结果。系统地研究了自然语言处理的方法和目前该领域的理论、技术,深入研究了汉语自动分词方法,对常用的各种分词方法做了比较研究,改进了MM方法,提高了切词效率,详细阐述了分词所用的词表结构。索引和搜索部分借助Luecne实现。Lucene全文搜索引擎库是一种高性能、全功能的搜索引擎,其库文件全部是由Java 类来实现的。Luecne 是可以免费使用的一个开源项目,任何一种需要全文搜索能力,特别是需要具有良好跨平台能力的应用程序都适合使用Lucene技术。最后采用JSP等技术设计开发了一个的完整的网络搜索引擎。