基于OAI-PMH协议的元数据聚类算法及应用研究

来源 :太原科技大学 | 被引量 : 0次 | 上传用户:arksh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息技术的发展造成了大量数字信息资源的积累,OAI-PMH作为解决大量数字信息资源互操作和共享的一个简单、灵活的协议越来越受到了人们的关注。而目前大多已实现的服务提供者对收割回来的元数据只进行了简单的索引,没有进行更深层次的组织。当收割回的数据量非常庞大时,将产生数据难以进行合理组织管理、检索周期长、检索速度慢等问题。如何有效的组织服务提供者收割回来的元数据以方便用户检索、浏览和管理,实现高效率的元数据互操作与资源共享,是当前亟需解决的课题。本文在深入研究了OAI-PMH协议的基础上,分析比较了现有的索引方式和分类方式的不足,提出了用聚类方式来组织OAI-PMH协议中服务提供者收割回来的大量元数据的方法,为服务提供者中元数据的合理组织提供了一种新的有效途径。通过对聚类方法,特别是FIHC算法的讨论,针对FIHC聚类算法是基于频繁词进行聚类的,没有考虑词汇间的语义信息,其准确度很难得到进一步的提高的缺点,采用基于知网的词汇语义相似度计算对其进行了改进,重新设计了打分函数,将词汇的语义信息加入到FIHC算法中,提出了一种基于语义的FIHCSS算法。实验表明,FIHCSS算法在继承FIHC算法聚类效率高、聚类速度快、可伸缩性好、聚类结果为一棵簇树等特点的基础上,其聚类精度比FIHC算法有了很大提高。在此基础上提出了基于FIHCSS算法的OAI-PMH服务提供者框架,将FIHCSS聚类算法应用到OAI-PMH协议之中来组织服务提供者收割回来的元数据。通过对数据库、用例、类以及架构的设计,实现了基于FIHCSS的OAI-PMH服务提供者框架系统。实验表明,该方法能够很好的组织服务提供者收割回来的大量元数据,大大提高了检索速度,且便于用户按类浏览元数据,非常适合于对服务提供者收割回来的元数据进行组织。
其他文献
学位
现在社会每年都产生巨大的信息量,由此产生了巨大的存储空间需求,使得存储设备消耗越来越多的能量。磁盘阵列以其良好的性能和可靠性在存储设备中占据了重要的位置。然而,磁
随着互联网的飞速发展,流媒体服务已成为网络服务中最普及的应用之一。在提升流媒体服务性能及稳定性的同时,流媒体服务的安全性也受到了越来越多的关注。本文以流媒体服务是
随着科学技术的飞速发展,人类在认识世界、改造世界的科技活动中不断积累着丰富的科学数据。科学数据的急剧膨胀,信息量的极大丰富,导致用户无法从海量数据中准确及时地获取
句法分析一直是自然语言处理任务中的重要课题,它的主要目标是根据语言学知识制定的语法规则或者基于统计知识建立的模型,自动建立由基本句子单元之间的基本关系构成的一棵多
随着信息的高速发展和信息化的深入,越来越多的企业将业务转移到信息化平台上。工作流管理系统为业务的高效运转带来了巨大的提升,已成为企业未来发展必不可少的支撑要素。随
在电喷行业,良好的售后服务系统是产品具有竞争力的重要保证。目前,在国内电喷行业普遍存在售后服务管理不规范化,制约了公司售后服务的顺利开展。本文以电喷行业中有代表性
CAN总线体系结构只包括物理层和数据链路层,在实际应用中需要制定相应的应用层,CANopen协议就是CAN应用层协议标准之一,其诞生于欧洲,广泛应用在汽车电子、医疗设备和航空航天等
自2008年底以来,国际金融危机的加剧,许多工程项目在资金链,客户流等多方面面临了各种各样的问题,夭折、中断、失败的项目越来越多。因此,对工程项目进行有效地管理与评价,已
数据挖掘是致力于数据分析和理解、揭示数据内部蕴藏知识的技术,它成为未来信息技术应用的重要目标之一。经过十几年的努力,数据挖掘产生了许多新的概念和方法。特别是近几年