论文部分内容阅读
【摘 要】本文以数据挖掘的定义出发,对数据挖掘的功能及分类进行简要的概述,最终探讨了数据挖掘技术在图书馆管理以及读者服务这两方面的应用,希望给我们图书员的工作起到一定的指导效果。
【关键词】数据挖掘;图书管理
0.引言
随着社会的发展,图书管理工作相对于以往面临着更大的难题,比如海量的数据、个性化需求等。在这种背景下,数据挖掘技术在解决这些问题的过程中具有非常大的优势,因此,本文关于数据挖掘在图书管理方面运用有着很强的实践意义。
1.数据挖掘定义
数据挖掘的英文全称为 Data Mining,被我们简称为DM,主要是指从数据库中抽取具备潜在应用价值、以前未知、隐含信息的过程,主要用途是为决策者提供数据之间的关联,找寻被忽视的因素,因此,能够对我们的预测及决策行为起到很强的促进效果。
在数据挖掘技术中,一个相关性非常强的概念为知识发现,这是指在信息背景下从很多数据中找出有效的、新颖的、可信的模式的处理过程,其主要的应用对象为VLDB,目标是发现数据库中规律性的知识。可以说,数据挖掘属于一种特定的知识发现,也是知识发现过程中最为重要的一部分。
2.数据挖掘的分类
数据具有多种多样的表现形式,因此,我们可以以研究对象数据结构的形式对数据挖掘进行划分,具体来说,数据挖掘可以分为数据挖掘、文本数据挖掘以及WEB数据挖掘这三类。
首先,数据挖掘。这一类的数据挖掘对象主要是结构化数据,比如在包括 SQL Server Qracle Informix在内的一些数据库中可以应用这一类数据挖掘。
其次,WEB数据挖掘。在广义上说,这一类数据挖掘可以看做是从互联网中发现及分析有用的信息,具体来说,其定义具有两种意义:WEB内容挖掘,这是从数量极大的在线数据库及WEB站点中对信息、资料进行搜索及获取;WEB使用挖掘,在这个过程中将建立并分析读者所访问站点及服务的模型。一般情况下,在WEB 挖掘过程中所使用的工具主要有:Speed Tracer以及Web Log Miner 等。
第三,用户挖掘。在数字图书馆中,用户挖掘主要是通过对用户访问图书馆留下的记录进行分析,进而对用户访问模式及挖掘,最终为网站的经营及管理提供决策服务。这类数据挖掘主要又可以分为访问模式的追踪以及个性化使用记录的追踪这两类。
3.数据挖掘的功能
数据挖掘技术不但能够帮助我们查询及遍历过去的数据,还可以预测将来趋势及行为,并对以前没有发现的模式进行自动探索,进而提升我们决策的可靠性。总结起来其功能可以分为以下几个方面:
首先,关联分析,在数据库中,如果一些能够被发现的、重要的两个或者多个变量之间存在着一种规律性的取值则可以认为它们之间存在着关联。我们进行关联分析的主要作用是探寻出数据库里的隐藏关联网。
其次,聚类。所谓聚类主要是指数据库中的记录能够被划为一系列具有意义的子集。这一技术包含了传统模式识别方法数学分类学。它能够提升我们认识客观事实的效率,属于偏差分析以及概念描述的基础和前提。
第三,概念描述。这主要是描述某对象的内涵,并对其中的有关特征进行概括,它包括区别性描述以及特征性描述,在生成区别性描述的过程中主要的方法有遗传算法、决策树算法等,而生成特征性描述的过程中则只会对所有对象的共性进行涉及。
最后,偏差检测。在数据库中,数据往往会存在异常记录,对于这些偏差进行检测具有很强的意义。偏差中存在很多潜在知识,举例来说,分类过程中的反常实例、不符合规则特例、模型预测及观测结果的偏差等。
4.图书管理中数据挖掘技术的应用
4.1应用于图书馆的管理
图书馆的管理是图书管理的前提和基础,在图书管理中,数据挖掘技术主要起到以下作用:
首先,数据挖掘技术能够为图书馆更好的发展提供定位。在图书馆经营的过程中,服务现实需求以及客观条件制约都是不可避免的,做好自身发展定位极为重要。因此我们要对面向服务群及自身的潜在资源产生足够的了解,而通过数据挖掘技术则可以帮助我们提升规划结果的科学性。
其次,图书馆的经营过程中,人才是至关重要的,而所谓人才无外乎专业水平、思想道德、现代化信息技术水平等。因此,我们可以在收集相关文献的基础上,从中建立一个可执行、可调整以及可预测的模型,为人才的规划提供科学依据。
第三,文献管理归根结底属于知识管理,而知识管理又是从数据中对有效知识进行管理的过程,数据挖掘技术作为从数据库中抽取未知、隐含、具有潜在价值信息的过程,二者两虽有区别,但具有更大的一致性。因此,文献信息管理是可以利用数据挖掘技术来发现及解决问题的。尤其在当前的环境下,资金比较受限制,如何做好各学科的分配更是非常重要。
4.2应用于读者服务
(1)为读者起到导读的作用。在图书馆中,读者导读一直属于一项工作重点。当前属于数字化时代,信息资源无论在数量上,还是在速度和来源上,相对以往都有很大的不同,这就导致我们读者容易产生信息过剩反而无从下手的感觉。因此,导读工作的重要性不言而喻。具体来说,分类技术能够对数量庞大的信息资源进行分类;聚类技术则可以对杂乱无序的信息进行归类,进而给其标引或者建立一个相应数据库,这能够帮助信息用户群的不同信息需求。举例来说,我们可以以用户角度出发,对用户在何种情况下需要何种信息解决何种问题进行了解,也就是对用户信息需求进行全面的了解,进而确定信息使用模式,然后设计更为有效地信息服务系统。
此外,在读者检索的过程中,传统的信息数据库定题情报服务当前存在着很大的难题,对于一些排列不规范或者无序的电子信息要要在不同平台上操作,效率很多。而通过数据挖掘技术能够对各种数据进行整合,把不同平台电子版信息及纸质图书利用四种规则建立一恶搞统一平台,这能够极大地提升检索效率。
(2)服务竞争情报。当前随着市场化的加剧,图书馆服务更为重视经济及社会效益,使得不论是高校科研教育服务,还是企业服务,竞争性都成为了一个重要的课题。在这种背景下,数据挖掘技术可以对竞争情报起到服务的作用,这方面的研究成果主要有专题情报价值数据挖掘、面向集成竞争情报系统数据挖掘等,可以说已经获得了较为广泛的应用。
(3)提供个性化 Web服务。所谓Web个性化,主要是通过web数据对网站的信息及服务进行调节,进而满足不同客户的不同需求。在这一过程中,我们主要的过程是对服务器中保存的访问日志数据、代理日志数据以及引用日志数据进行收集,然后利用模型化算法或者一些其他信息处理技术对这些数据进行加工,获取我们所需要的决策信息,最终以此为基础建设特殊数字资源以及网络虚拟资源,实现web个性化服务。
5.结语
在图书管理中,数据挖掘技术将来必然会有有着更为广泛的应用,这些应用将体现在资源建设、读者服务以及决策管理等各个方面。因此,对于我们图书馆员来说,要加强自身在这方面的水平,不仅要对一些基本技能进行掌握,平时工作中还要注重这方面的学习和探索,这样才能提升自身的业务技能,使信息服务工作上升到一个新的档次,实现技术到生产力的转化。
【参考文献】
[1]李璐璐.基于数据挖掘技术的信息服务研究及系统模型设计[J].大学图书情报学刊,2008,(04).
[2]邵晓红.数据挖掘技术在高校图书馆中的应用[J].鄂州大学学报,2009,(02).
【关键词】数据挖掘;图书管理
0.引言
随着社会的发展,图书管理工作相对于以往面临着更大的难题,比如海量的数据、个性化需求等。在这种背景下,数据挖掘技术在解决这些问题的过程中具有非常大的优势,因此,本文关于数据挖掘在图书管理方面运用有着很强的实践意义。
1.数据挖掘定义
数据挖掘的英文全称为 Data Mining,被我们简称为DM,主要是指从数据库中抽取具备潜在应用价值、以前未知、隐含信息的过程,主要用途是为决策者提供数据之间的关联,找寻被忽视的因素,因此,能够对我们的预测及决策行为起到很强的促进效果。
在数据挖掘技术中,一个相关性非常强的概念为知识发现,这是指在信息背景下从很多数据中找出有效的、新颖的、可信的模式的处理过程,其主要的应用对象为VLDB,目标是发现数据库中规律性的知识。可以说,数据挖掘属于一种特定的知识发现,也是知识发现过程中最为重要的一部分。
2.数据挖掘的分类
数据具有多种多样的表现形式,因此,我们可以以研究对象数据结构的形式对数据挖掘进行划分,具体来说,数据挖掘可以分为数据挖掘、文本数据挖掘以及WEB数据挖掘这三类。
首先,数据挖掘。这一类的数据挖掘对象主要是结构化数据,比如在包括 SQL Server Qracle Informix在内的一些数据库中可以应用这一类数据挖掘。
其次,WEB数据挖掘。在广义上说,这一类数据挖掘可以看做是从互联网中发现及分析有用的信息,具体来说,其定义具有两种意义:WEB内容挖掘,这是从数量极大的在线数据库及WEB站点中对信息、资料进行搜索及获取;WEB使用挖掘,在这个过程中将建立并分析读者所访问站点及服务的模型。一般情况下,在WEB 挖掘过程中所使用的工具主要有:Speed Tracer以及Web Log Miner 等。
第三,用户挖掘。在数字图书馆中,用户挖掘主要是通过对用户访问图书馆留下的记录进行分析,进而对用户访问模式及挖掘,最终为网站的经营及管理提供决策服务。这类数据挖掘主要又可以分为访问模式的追踪以及个性化使用记录的追踪这两类。
3.数据挖掘的功能
数据挖掘技术不但能够帮助我们查询及遍历过去的数据,还可以预测将来趋势及行为,并对以前没有发现的模式进行自动探索,进而提升我们决策的可靠性。总结起来其功能可以分为以下几个方面:
首先,关联分析,在数据库中,如果一些能够被发现的、重要的两个或者多个变量之间存在着一种规律性的取值则可以认为它们之间存在着关联。我们进行关联分析的主要作用是探寻出数据库里的隐藏关联网。
其次,聚类。所谓聚类主要是指数据库中的记录能够被划为一系列具有意义的子集。这一技术包含了传统模式识别方法数学分类学。它能够提升我们认识客观事实的效率,属于偏差分析以及概念描述的基础和前提。
第三,概念描述。这主要是描述某对象的内涵,并对其中的有关特征进行概括,它包括区别性描述以及特征性描述,在生成区别性描述的过程中主要的方法有遗传算法、决策树算法等,而生成特征性描述的过程中则只会对所有对象的共性进行涉及。
最后,偏差检测。在数据库中,数据往往会存在异常记录,对于这些偏差进行检测具有很强的意义。偏差中存在很多潜在知识,举例来说,分类过程中的反常实例、不符合规则特例、模型预测及观测结果的偏差等。
4.图书管理中数据挖掘技术的应用
4.1应用于图书馆的管理
图书馆的管理是图书管理的前提和基础,在图书管理中,数据挖掘技术主要起到以下作用:
首先,数据挖掘技术能够为图书馆更好的发展提供定位。在图书馆经营的过程中,服务现实需求以及客观条件制约都是不可避免的,做好自身发展定位极为重要。因此我们要对面向服务群及自身的潜在资源产生足够的了解,而通过数据挖掘技术则可以帮助我们提升规划结果的科学性。
其次,图书馆的经营过程中,人才是至关重要的,而所谓人才无外乎专业水平、思想道德、现代化信息技术水平等。因此,我们可以在收集相关文献的基础上,从中建立一个可执行、可调整以及可预测的模型,为人才的规划提供科学依据。
第三,文献管理归根结底属于知识管理,而知识管理又是从数据中对有效知识进行管理的过程,数据挖掘技术作为从数据库中抽取未知、隐含、具有潜在价值信息的过程,二者两虽有区别,但具有更大的一致性。因此,文献信息管理是可以利用数据挖掘技术来发现及解决问题的。尤其在当前的环境下,资金比较受限制,如何做好各学科的分配更是非常重要。
4.2应用于读者服务
(1)为读者起到导读的作用。在图书馆中,读者导读一直属于一项工作重点。当前属于数字化时代,信息资源无论在数量上,还是在速度和来源上,相对以往都有很大的不同,这就导致我们读者容易产生信息过剩反而无从下手的感觉。因此,导读工作的重要性不言而喻。具体来说,分类技术能够对数量庞大的信息资源进行分类;聚类技术则可以对杂乱无序的信息进行归类,进而给其标引或者建立一个相应数据库,这能够帮助信息用户群的不同信息需求。举例来说,我们可以以用户角度出发,对用户在何种情况下需要何种信息解决何种问题进行了解,也就是对用户信息需求进行全面的了解,进而确定信息使用模式,然后设计更为有效地信息服务系统。
此外,在读者检索的过程中,传统的信息数据库定题情报服务当前存在着很大的难题,对于一些排列不规范或者无序的电子信息要要在不同平台上操作,效率很多。而通过数据挖掘技术能够对各种数据进行整合,把不同平台电子版信息及纸质图书利用四种规则建立一恶搞统一平台,这能够极大地提升检索效率。
(2)服务竞争情报。当前随着市场化的加剧,图书馆服务更为重视经济及社会效益,使得不论是高校科研教育服务,还是企业服务,竞争性都成为了一个重要的课题。在这种背景下,数据挖掘技术可以对竞争情报起到服务的作用,这方面的研究成果主要有专题情报价值数据挖掘、面向集成竞争情报系统数据挖掘等,可以说已经获得了较为广泛的应用。
(3)提供个性化 Web服务。所谓Web个性化,主要是通过web数据对网站的信息及服务进行调节,进而满足不同客户的不同需求。在这一过程中,我们主要的过程是对服务器中保存的访问日志数据、代理日志数据以及引用日志数据进行收集,然后利用模型化算法或者一些其他信息处理技术对这些数据进行加工,获取我们所需要的决策信息,最终以此为基础建设特殊数字资源以及网络虚拟资源,实现web个性化服务。
5.结语
在图书管理中,数据挖掘技术将来必然会有有着更为广泛的应用,这些应用将体现在资源建设、读者服务以及决策管理等各个方面。因此,对于我们图书馆员来说,要加强自身在这方面的水平,不仅要对一些基本技能进行掌握,平时工作中还要注重这方面的学习和探索,这样才能提升自身的业务技能,使信息服务工作上升到一个新的档次,实现技术到生产力的转化。
【参考文献】
[1]李璐璐.基于数据挖掘技术的信息服务研究及系统模型设计[J].大学图书情报学刊,2008,(04).
[2]邵晓红.数据挖掘技术在高校图书馆中的应用[J].鄂州大学学报,2009,(02).