论文部分内容阅读
随着互联网的不断发展,信息时代已然来临。视频、音频、文本等多种形式的数字资源的数量不断增多,如何在多种多媒体资源中准确、快速地查找出用户所需要的媒体资源并且根据与关键字的相关度进行结果排序是数字图书馆亟待解决的问题。本课题来源于高校实验室与国家图书馆合作项目“数字家庭服务关键支撑技术研发与应用示范”的子项目,目标是利用互联网渠道对公共图书馆不同类型的数字资源建立服务平台,为用户提供面向多种多媒体资源的统一检索服务。本文设计的异构数字资源检索系统通过对特定格式的数字资源进行解析,将资源属性建立索引并存储到索引数据库中。本检索系统共分为四个模块,分别是索引模块、中文分词模块、检索模块及排序模块。其中索引模块是检索系统高效运行的前提,对资源建立索引之后才能进一步调用中文分词模块,进而实现检索。中文分词模块是检索系统的核心部分,具有举足轻重的作用。该模块屏蔽了中文分词的具体分词过程,提供外部应用程序可调用的接口。开发者只需要将中文分词模块中生成的文件放置在项目中,即可调用相应接口实现对中文的处理。本文首先对本课题的研究背景与意义从两方面进行了详细介绍,进而对中文分词的国内外发展现状进行了调研与分析,从而总结出当前中文分词存在的问题以及需要解决的问题。接着对四种常用的中文分词常用算法进行分析比较,同时对中文分词开源项目进行了调研与对比,从而确定本课题立足的开源项目。基于上述调研与研究,本文从检索系统架构、中文分词、索引的建立、数字资源检索及检索结果排序五个方面对异构数字资源检索系统进行设计与实现,并对检索系统从查全率、查准率和响应时间三方面进行测试,最终实现对不同格式的数字资源的统一检索功能。本文提出的基于动态词库的中文分词模块可避免开发者的重复开发和学习成本,并且能够与系统进行无缝耦合,降低了代码的耦合度,从一定程度上提高了开发者的开发效率。