一种异构数字资源检索系统的设计与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:Lyben
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的不断发展,信息时代已然来临。视频、音频、文本等多种形式的数字资源的数量不断增多,如何在多种多媒体资源中准确、快速地查找出用户所需要的媒体资源并且根据与关键字的相关度进行结果排序是数字图书馆亟待解决的问题。本课题来源于高校实验室与国家图书馆合作项目“数字家庭服务关键支撑技术研发与应用示范”的子项目,目标是利用互联网渠道对公共图书馆不同类型的数字资源建立服务平台,为用户提供面向多种多媒体资源的统一检索服务。本文设计的异构数字资源检索系统通过对特定格式的数字资源进行解析,将资源属性建立索引并存储到索引数据库中。本检索系统共分为四个模块,分别是索引模块、中文分词模块、检索模块及排序模块。其中索引模块是检索系统高效运行的前提,对资源建立索引之后才能进一步调用中文分词模块,进而实现检索。中文分词模块是检索系统的核心部分,具有举足轻重的作用。该模块屏蔽了中文分词的具体分词过程,提供外部应用程序可调用的接口。开发者只需要将中文分词模块中生成的文件放置在项目中,即可调用相应接口实现对中文的处理。本文首先对本课题的研究背景与意义从两方面进行了详细介绍,进而对中文分词的国内外发展现状进行了调研与分析,从而总结出当前中文分词存在的问题以及需要解决的问题。接着对四种常用的中文分词常用算法进行分析比较,同时对中文分词开源项目进行了调研与对比,从而确定本课题立足的开源项目。基于上述调研与研究,本文从检索系统架构、中文分词、索引的建立、数字资源检索及检索结果排序五个方面对异构数字资源检索系统进行设计与实现,并对检索系统从查全率、查准率和响应时间三方面进行测试,最终实现对不同格式的数字资源的统一检索功能。本文提出的基于动态词库的中文分词模块可避免开发者的重复开发和学习成本,并且能够与系统进行无缝耦合,降低了代码的耦合度,从一定程度上提高了开发者的开发效率。
其他文献
本文首先提出了本论文研究的目的及意义,并且简单地介绍了地理信息系统的定义、特征、类型、应用领域以及其发展简史,并分析了当前地理信息系统中表示方法的现状,提出了本研究的
该文针对服装设计的需要,提出了一种多分辨率人体模型参数化设计方法.首先通过激光测量仪测量一组标准人体的三维数据点,测量仪扫描的数据虽然精确,但数据量大,难于处理,因而
该文先分析了静态安全技术防御动态入侵的根本缺陷,指出具有自适应性的安全系统才可以完成应对动态、复杂的外部环境变化,保证计算机系统的安全性.跟着论文分析了生物免疫系
本文对数字图象监控系统和IP组播技术进行了介绍,重点分析了IGMP协议以及IP组播技术在WinSock2中的实现,然后结合一个具体的远程视频监控系统的开发实例介绍了该技术在系统中的
该文的工作主要包括以下几方面的内容:1、对几种软件开发方法进行了探讨,重点分析了面向服务的开发的优点.2、介绍了Web Services技术,对Web Services的运行机制进行了分析,
本文针对空间飞行器对接等场景中遇到的空间运动图像序列的单帧插值、亮度一致性调整和多帧插值等问题进行了深入研究。为了解决空间运动图像序列中存在的帧率不足问题,需要
上个世纪七十年代以来,人们开始研究将计算机应用到自动识别人脸领域.到目前为止,自动人脸识别已经成为一个非常活跃也非常富有挑战性的研究领域.该文对该问题作了一些理论研
软件测试在软件生存期中占有十分重要的位置,是软件质量保证的重要手段.该文主要从以下几个方面来讨论面向对象软件的测试.首先,该文从软件重用的角度出发,结合面向对象软件
机器人导航技术一直是移动机器人领域研究的热门问题之一。随着机械化程度的提高和人工智能技术的发展,机器人在人类社会中发挥了越来越明显的作用。社区服务机器人主要工作
J2EE体系结构提供中间层集成框架,用来满足没有太多费用而又需要高可用性、高可靠性以及可扩展性的web应用的需求.J2EE应用模型把实现多层结构服务的工作划分为两部分:开发者