一种异构数字资源检索系统的设计与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户：Lyben

【摘要】

：

随着互联网的不断发展,信息时代已然来临。视频、音频、文本等多种形式的数字资源的数量不断增多,如何在多种多媒体资源中准确、快速地查找出用户所需要的媒体资源并且根据与

【作者】

：

陈强

【机构】

：

北京邮电大学

【出处】

：

北京邮电大学

【发表日期】

：

2014年01期

【关键词】

：

检索异构数字资源中文分词

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网的不断发展,信息时代已然来临。视频、音频、文本等多种形式的数字资源的数量不断增多,如何在多种多媒体资源中准确、快速地查找出用户所需要的媒体资源并且根据与关键字的相关度进行结果排序是数字图书馆亟待解决的问题。本课题来源于高校实验室与国家图书馆合作项目“数字家庭服务关键支撑技术研发与应用示范”的子项目,目标是利用互联网渠道对公共图书馆不同类型的数字资源建立服务平台,为用户提供面向多种多媒体资源的统一检索服务。本文设计的异构数字资源检索系统通过对特定格式的数字资源进行解析,将资源属性建立索引并存储到索引数据库中。本检索系统共分为四个模块,分别是索引模块、中文分词模块、检索模块及排序模块。其中索引模块是检索系统高效运行的前提,对资源建立索引之后才能进一步调用中文分词模块,进而实现检索。中文分词模块是检索系统的核心部分,具有举足轻重的作用。该模块屏蔽了中文分词的具体分词过程,提供外部应用程序可调用的接口。开发者只需要将中文分词模块中生成的文件放置在项目中,即可调用相应接口实现对中文的处理。本文首先对本课题的研究背景与意义从两方面进行了详细介绍,进而对中文分词的国内外发展现状进行了调研与分析,从而总结出当前中文分词存在的问题以及需要解决的问题。接着对四种常用的中文分词常用算法进行分析比较,同时对中文分词开源项目进行了调研与对比,从而确定本课题立足的开源项目。基于上述调研与研究,本文从检索系统架构、中文分词、索引的建立、数字资源检索及检索结果排序五个方面对异构数字资源检索系统进行设计与实现,并对检索系统从查全率、查准率和响应时间三方面进行测试,最终实现对不同格式的数字资源的统一检索功能。本文提出的基于动态词库的中文分词模块可避免开发者的重复开发和学习成本,并且能够与系统进行无缝耦合,降低了代码的耦合度,从一定程度上提高了开发者的开发效率。

其他文献

GIS中的表示方法扩展研究

本文首先提出了本论文研究的目的及意义，并且简单地介绍了地理信息系统的定义、特征、类型、应用领域以及其发展简史，并分析了当前地理信息系统中表示方法的现状，提出了本研究的

学位

地理信息系统虚拟现实虚拟地理信息系统OpenGL

数字图像监控系统中的IP组播技术

本文对数字图象监控系统和IP组播技术进行了介绍，重点分析了IGMP协议以及IP组播技术在WinSock2中的实现，然后结合一个具体的远程视频监控系统的开发实例介绍了该技术在系统中的

学位

IP组播WinSock2数字图象视频监控系统视频传输

跨尺度空间运动图像序列的插值研究

本文针对空间飞行器对接等场景中遇到的空间运动图像序列的单帧插值、亮度一致性调整和多帧插值等问题进行了深入研究。为了解决空间运动图像序列中存在的帧率不足问题,需要

学位

图像插值亮度调整直方图匹配运动估计块匹配

社区服务机器人导航系统设计与实现

机器人导航技术一直是移动机器人领域研究的热门问题之一。随着机械化程度的提高和人工智能技术的发展,机器人在人类社会中发挥了越来越明显的作用。社区服务机器人主要工作

学位

社区服务机器人导航系统道路识别局部避障模板匹配

一种异构数字资源检索系统的设计与实现

其他学术论文