论文部分内容阅读
随着网络信息资源的急剧增长,出现了越来越多的专业化网站,如何从这些网站内海量的网络信息中,抽取出全面的、准确的信息,在用户解决问题的过程中发挥作用,已变得越来越重要。搜索引擎技术解决了用户检索网络信息的困难,目前全文检索技术正成为计算机科学界和信息产业界争相研究、开发的对象。本文针对在北京工业大学技术转移中心网站的实际需要,对全文检索技术在技术转移中心网站的应用进行了较为深入、系统的研究,通过全文检索系统为网站的用户提供多方面、更准确的信息。本文首先对全文检索技术进行了细致的研究,对全文检索的各项技术和基本原理进行了深入的探讨,详细分析了全文检索系统的结构和索引的组织、库结构和创建过程,提出了优化索引创建过程的方法,通过把临时文件映射到虚拟内存中,大大加快对临时文件的访问速度,提高了索引的创建速度。另外对检索的四种模型、排序算法和中文分词技术进行了重点研究和总结,并针对词典分词法的不足,改进了最大匹配算法,充分实现了“长词优先”的原则。然后对常用的全文检索工具包Lucene进行了详细的分析,并与其它开源全文检索方法进行了比较。本文还对J2EE平台上典型的MVC模式和它的具体实现-Struts框架进行了分析和研究,分析了MVC框架原理、Struts框架基本组件和Struts框架的运行机制。本文最后对技术转移中心网站的站内全文检索功能的设计目标进行详细的论述,设计了全文检索系统的架构和各个功能模块,其中,功能模块设计包括静态页面模块、动态页面模块的设计,分词方法的优化、Lucene排序算法的改进以及分词引擎中的字典和网站的索引的设计。通过对分词方法的优化,将单汉字分词与词典分词两种方法结合起来使用,使检索结果兼具有相关度好和查全率高的优点。通过对Lucene排序算法的改进,增加了对网页链接的评分和对网站重要信息的加分,提高了网站内搜索系统的准确度。最后本文根据整体设计和各个模块的设计完成具体功能的实现,并部署在实际网站中测试运行。