论文部分内容阅读
摘 要:本文主要对图书馆的信息化发展从大数据的角度进行分类,首先阐述了图书馆分类原则,而后详细描述了数字图书馆的大数据分类,从而方便图书馆的知识发展和决策支持,从而促进图书馆的大力发展。
关键词:图书馆;大数据;信息化;数据挖掘
1概述
随着科学技术的不断发展,互联网已经成为人们日常生产生活中必不可少的一部分,也正是由于互联网技术的快速发展,互联网的数据越来越大,大数据处理的相关技术应运而生。图书馆是以馆藏资源丰富而著名,信息时代图书馆数字化、网络化也是目前大部分图书馆的发展趋势,由于图书馆资源庞大、类型众多,加上对这些资源的访问、处理速率比较高,所以大数据量处理成为图书馆信息化发展的阻碍。利用大数据对图书馆进行分类,從而有效保障图书馆数据的完整性和科学性,促使数字图书馆的快速发展,这对于加快图书馆信息化进程、方便馆藏数据分析以及数字图书馆最终用户使用来说具有非常重要的现实意义。
2图书馆的分类原则
图书馆的数据资源非常庞大,种类也非常复杂,包含了很多非结构化和结构化的数据,还有大量的内容数据和外部数据,所以在对图书馆的信息化建设过程中,对各种数据的分类按照科学全面合理、便于知识挖掘等基本原则来实现。
首先要遵循数据全面性原则,图书馆数据结构复杂、数据量庞大、类型繁多,如果单单将图书馆的读者数据、书目的编制数据以及其他系统流通数据表示出来,是远远不能满足图书馆数据分类的使用,所以要利用全面性原则,将图书馆的全部属性数据展示出来,从而通过整个大数据挖掘出最有价值的数据;其次,图书馆数据分类要合理,不同的数据源之间在遵循自然规律的前提下尽量减少重叠;而后要考虑数据挖掘的需求,为了方便数据挖掘技术的实施,从而为图书馆发展提供有利的依据,同时也方便对图书馆的知识发现和文献搜索,所以针对图书馆的原始数据要对其进行数据预处理,通过各种数据清洗的方法来保障图书馆数据在结构上、类型上尽量简单而又全面,从而为后期的数据挖掘提供有力的保障。
3图书馆信息化发展的大数据分类
图书馆数据种类非常多,通过大数据的思想可以将其分为基础数据类、书目类、借阅者数据类、文献类、服务数据类以及馆藏特色类。
其中,基础数据类包含了图书馆的基本属性数据,对于图书馆的总体资产、财务、图书馆行政结构、图书馆办公等基本的数据进行分类,这些数据一般不会有太大增长,数据结构比较标准,信息化过程中也容易对其进行管理和处理,可在本地对其进行存储。
书目类是针对图书馆馆藏资源的分类,一般为期刊目录、藏书书目、电子期刊目录以及数据库条目等数据,这些数据一般为图书馆藏书的基本数据,增长速度一般化,所以在对其进行存储、处理时相对比较简单。
借阅者数据类包括了数字图书馆的所有注册用户的基本信息,包括借阅者的姓名、年龄、专业方向、对图书馆的数据访问权限、借阅数据、个人兴趣、对图书馆的贡献等。这部分数据是图书馆对借阅用户的基础数据,可以利用大数据技术实现个性化服务的关键基础数据。这类数据结构标准化,可以存储在本地服务器进行数据挖掘和管理。
文献类是指图书馆中的期刊文献、免费文献、摘要数据、OA文献、馆藏文献、自建文献等部分,该类的数据是图书馆的馆藏资源数据,也是图书馆的核心业务数据,这对图书馆的发展以及借阅者来说至关重要。文献类数据增长速度非常快,类型复杂多变,一般采用分布式存储的方式对其进行存储,同时,文献类数据非结构化程度比较高,数据挖掘之前预处理程度比较大,管理起来比较麻烦,所以在图书馆信息化建设过程中,采用大数据技术对其注重进行分类处理。
服务数据类是指图书馆出文献类数据之外的包括学科服务、咨询服务、评价服务等重要的数据类,同文献类数据一样,其增长速度非常快,所以一般也是采用分布式存储的方式来对其进行存储。服务类数据结构化程度比较高。在数据挖掘过程中算法复杂度高,系统管理难度相对较高。
馆藏特色类数据是一个图书馆能够在众多图书馆中展现个性特色的主要数据,一般包括当前图书馆的馆藏资源,包括技术交流、信息交流或文献交流在内的交流数据区域性或全国性的非文化物质遗产等,这些都是一个图书馆建设过程中的重要资产,对于图书馆的发展至关重要。馆藏特色类数据自身增长速度相对较慢,但是在管理过程中特别注重数据备份。由于馆藏特色数据属于该图书馆独有的,不能从其他图书馆复制,一旦丢失将难以复原,所以对于该类数据的备份系统是图书馆信息化建设过程中必须关注的。此类数据类型繁多,非结构化程度高,所以对数据挖掘和后期的管理有一定的难度。
4总结
对于图书馆的大数据分类研究,是图书馆信息化建设过程中必不可少的关键部分,通过数据挖掘技术,对图书馆信息化的各种数据进行分类,从而方便图书馆决策者以及借阅者更快实现知识发现,从而促进图书馆信息化的发展。
参考文献:
[1]白广思.数字图书馆大数据分类研究[J].图书馆学研究.2016(03).
[2]杨通国.数字图书馆建设与大数据技术的应用研究[J].信息系统工程.2016(09).
关键词:图书馆;大数据;信息化;数据挖掘
1概述
随着科学技术的不断发展,互联网已经成为人们日常生产生活中必不可少的一部分,也正是由于互联网技术的快速发展,互联网的数据越来越大,大数据处理的相关技术应运而生。图书馆是以馆藏资源丰富而著名,信息时代图书馆数字化、网络化也是目前大部分图书馆的发展趋势,由于图书馆资源庞大、类型众多,加上对这些资源的访问、处理速率比较高,所以大数据量处理成为图书馆信息化发展的阻碍。利用大数据对图书馆进行分类,從而有效保障图书馆数据的完整性和科学性,促使数字图书馆的快速发展,这对于加快图书馆信息化进程、方便馆藏数据分析以及数字图书馆最终用户使用来说具有非常重要的现实意义。
2图书馆的分类原则
图书馆的数据资源非常庞大,种类也非常复杂,包含了很多非结构化和结构化的数据,还有大量的内容数据和外部数据,所以在对图书馆的信息化建设过程中,对各种数据的分类按照科学全面合理、便于知识挖掘等基本原则来实现。
首先要遵循数据全面性原则,图书馆数据结构复杂、数据量庞大、类型繁多,如果单单将图书馆的读者数据、书目的编制数据以及其他系统流通数据表示出来,是远远不能满足图书馆数据分类的使用,所以要利用全面性原则,将图书馆的全部属性数据展示出来,从而通过整个大数据挖掘出最有价值的数据;其次,图书馆数据分类要合理,不同的数据源之间在遵循自然规律的前提下尽量减少重叠;而后要考虑数据挖掘的需求,为了方便数据挖掘技术的实施,从而为图书馆发展提供有利的依据,同时也方便对图书馆的知识发现和文献搜索,所以针对图书馆的原始数据要对其进行数据预处理,通过各种数据清洗的方法来保障图书馆数据在结构上、类型上尽量简单而又全面,从而为后期的数据挖掘提供有力的保障。
3图书馆信息化发展的大数据分类
图书馆数据种类非常多,通过大数据的思想可以将其分为基础数据类、书目类、借阅者数据类、文献类、服务数据类以及馆藏特色类。
其中,基础数据类包含了图书馆的基本属性数据,对于图书馆的总体资产、财务、图书馆行政结构、图书馆办公等基本的数据进行分类,这些数据一般不会有太大增长,数据结构比较标准,信息化过程中也容易对其进行管理和处理,可在本地对其进行存储。
书目类是针对图书馆馆藏资源的分类,一般为期刊目录、藏书书目、电子期刊目录以及数据库条目等数据,这些数据一般为图书馆藏书的基本数据,增长速度一般化,所以在对其进行存储、处理时相对比较简单。
借阅者数据类包括了数字图书馆的所有注册用户的基本信息,包括借阅者的姓名、年龄、专业方向、对图书馆的数据访问权限、借阅数据、个人兴趣、对图书馆的贡献等。这部分数据是图书馆对借阅用户的基础数据,可以利用大数据技术实现个性化服务的关键基础数据。这类数据结构标准化,可以存储在本地服务器进行数据挖掘和管理。
文献类是指图书馆中的期刊文献、免费文献、摘要数据、OA文献、馆藏文献、自建文献等部分,该类的数据是图书馆的馆藏资源数据,也是图书馆的核心业务数据,这对图书馆的发展以及借阅者来说至关重要。文献类数据增长速度非常快,类型复杂多变,一般采用分布式存储的方式对其进行存储,同时,文献类数据非结构化程度比较高,数据挖掘之前预处理程度比较大,管理起来比较麻烦,所以在图书馆信息化建设过程中,采用大数据技术对其注重进行分类处理。
服务数据类是指图书馆出文献类数据之外的包括学科服务、咨询服务、评价服务等重要的数据类,同文献类数据一样,其增长速度非常快,所以一般也是采用分布式存储的方式来对其进行存储。服务类数据结构化程度比较高。在数据挖掘过程中算法复杂度高,系统管理难度相对较高。
馆藏特色类数据是一个图书馆能够在众多图书馆中展现个性特色的主要数据,一般包括当前图书馆的馆藏资源,包括技术交流、信息交流或文献交流在内的交流数据区域性或全国性的非文化物质遗产等,这些都是一个图书馆建设过程中的重要资产,对于图书馆的发展至关重要。馆藏特色类数据自身增长速度相对较慢,但是在管理过程中特别注重数据备份。由于馆藏特色数据属于该图书馆独有的,不能从其他图书馆复制,一旦丢失将难以复原,所以对于该类数据的备份系统是图书馆信息化建设过程中必须关注的。此类数据类型繁多,非结构化程度高,所以对数据挖掘和后期的管理有一定的难度。
4总结
对于图书馆的大数据分类研究,是图书馆信息化建设过程中必不可少的关键部分,通过数据挖掘技术,对图书馆信息化的各种数据进行分类,从而方便图书馆决策者以及借阅者更快实现知识发现,从而促进图书馆信息化的发展。
参考文献:
[1]白广思.数字图书馆大数据分类研究[J].图书馆学研究.2016(03).
[2]杨通国.数字图书馆建设与大数据技术的应用研究[J].信息系统工程.2016(09).