论文部分内容阅读
摘要:在介绍数据挖掘技术的基础上,从资源建设、用户分析等方面探讨数据挖掘在图书馆服务管理中的作用及实施数据挖掘的具体过程。
关键词:数据挖掘;图书馆
中图分类号:TP311文献标识码:A 文章编号:1009-3044(2008)14-20796-02
1 引言
图书馆作为文献资源的提供机构,拥有大量的文献资源供用户使用。但随着图书馆馆藏文献的增多,会有这种现象发生:用户在众多的信息中,不知道哪一个才是真正需要的;随着用户的不断增多,图书管理人员发现,用户的需求千差万别,想让每一个用户都满意越来越困难。图书馆和用户之间的这种矛盾,成为当前急需解决的问题。其实,图书馆除了拥有大量的文献资源外,还拥有海量的其他信息。如:用户的基本信息、借阅信息、检索信息、咨询信息等。从这些信息中就能找到解决图书馆和用户之间矛盾的答案,这需要应用数据挖掘技术。通过对图书馆的信息资源进行数据挖掘分析,能发现隐含其中的潜在信息,可以帮助用户更好的使用图书馆的信息资源,帮助图书馆为用户提供更好的服务。
2 数据挖掘概述
2.1 内涵
数据挖掘(Data Mining)也叫数据开采、数据采掘等,是从大量的、不完整的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在而又有用的信息和知识的过程。通过数据挖掘,有价值的知识、规则或深层次的信息就能从数据库的相关数据集合中抽取出来,并从不同角度显示,使用户可以在信息的荒漠中更容易找到知识的绿洲,解决了用户“信息丰富而知识贫乏”的尴尬。
2.2 功能
2.2.1 趋势和行为预测
预测是根据数据对象的属性、过去的观察值对该属性的未来值进行预测。数据挖掘可以自动地从数据(仓)库中寻找预测性信息,根据时间序列数据,由历史的和当前的数据预测未来的趋势和行为。
2.2.2 关联分析
关联分析就是要挖掘隐藏在数据(仓)库中的数据关联关系或规则,即发现一个事件和其它事件之间依赖或关联的规律或知识。
2.2.3 分类分析
分类分析就是研究已分类资料的特征,分析对象属性,据此建立一个分类函数或分类模型,然后运用该模型计算总结出的数据特征,将其它未经分类或新的数据分派到不同的组中。
2.2.4 聚类分析
聚类分析是在事先不知道的条件下,根据对象的一些相似特征分组,根据事物本身潜在的特性把数据集合中的个体或对象按照相似性归结成若干类,从而将数据库中的记录化分为一系列有意义的子集。
2.2.5 孤立点分析
数据(仓)库中经常存在一些数据对象,它们与数据的其他部分不同或不一致,而且不符合数据的一般模型,这样的异常数据对象被称为孤立点。对孤立点进行数据分析称为孤立点分析,也称为偏差分析。
3 数据挖掘在图书馆服务管理中应用
通过数据挖掘技术并结合图书馆的服务管理工作,具体可应用于以下几个方面:
3.1 资源建设
合理的进行信息资源配置是图书馆管理工作的核心,是为用户提供优质服务的基础。资源建设主要包括图书文献资源的建设、网络信息资源的建设。无论是图书文献资源还是网络资源都存馆藏结构问题。在网络化、数字化的今天,不能单凭领导或专家的个人意见,决定采购哪些书目及书目的多少,应该通过数据挖掘技术对图书馆日常工作中产生的大量借阅信息、检索信息、咨询信息、馆藏书目信息等从多方面进行分析,发现并了解当前的文献结构还有哪些缺漏,及时进行补充。这样就可以利用有限的经费,进行有针对性的补充、丰富或剔除某些信息资源,进行合理的资源配置,满足用户的需要。
3.2 图书上架、信息资源存储
世界著名商业零售连锁企业沃尔玛(Wal Mart)意外发现“跟尿布一起购买最多的商品竟是啤酒”,并通过调查分析找到了其中的原因。于是沃尔玛就在其一个个门店将尿布与啤酒并排摆放在一起,结果是尿布与啤酒的销售量双双增长。图书馆的图书上架、信息资源存储和超市的商品上架一样,也是有规律的。所以,在图书馆的管理中,也应该对通过数据的挖掘、分析找到文献资源之间的相互关系,这样才能更好地进行图书上架及信息资源的有效存储。如:应该把哪些书籍放在一起、把信息资源按照什么方式进行存储更方便用户的查找。
3.3 用户分析
在企业理论中二八法则又称“马特莱法则”,是国际上公认的一种企业法则。即企业80%的利润来自20%的客户,而发展新客户所需费用是维持老客户的6~8倍。图书馆可以借鉴这一法则,利用数据挖掘对用户的借阅、咨询、检索等信息进行分析,从中找出20%的核心用户,并根据核心用户的信息需求,组织人力、物力资源,为他们提供周到、快捷、满意的服务。同时也不能忽视另外80%的用户,要从中发现潜在的用户,培养新的客户。因为他们也可能会成为图书馆的新的核心用户。利用数据分析还可以找到其他用户流失的原因,这样可以进行有针对性的工作。
结合数据挖掘、数据仓库和联机分析技术,对图书馆数据仓库中的海量数据进行分析,并根据分析结果找出用户需求的特征及图书管理中的各种问题,以便能及时做出正确的决策,调整战略,以适应不断变化的用户需求,为各类用户提供有针对性的、个性化的服务。
4 数据挖掘实施过程
数据挖掘是一个复杂的工作,一般由三个阶段组成:数据准备、数据挖掘、结果解释与评价。
4.1 数据准备阶段
数据准备对于数据挖掘的成功应用至关重要,一般需要消耗整个数据挖掘过程中50%~90%的时间和精力。这一阶段通常包括如下工作:
首先,确定数据挖掘目标。例如:考虑使用关联规则对某一时间段的历史数据进行分析,从中发现用户对资源的借阅模式,如果发现有很多读者借阅A 文献同时也会借阅B 文献,就可以则向借阅A文献的用户推荐B文献,并在上架时把这两种文献放在相邻或相近的位置。这些规则的发现对提高数据资源的利用率和为读者提供个性化服务有着重要的意义。
其次,数据采集和数据理解。数据挖掘必须基于大量数据基础之上,因此必须针对确定的目标进行广泛而全面地数据采集。如:用户基本信息、借阅历史信息记录、检索历史记录、文献书目记录等。但只有大量的数据是没有任何作用的,在进行信息采集和以后的数据挖掘过程中,如果不理解数据的含义,数据挖掘的结果没任何作用。所以必须全面获取和理解数据,确定数据的含义。
再次,进行数据预处理。从采集的数据中选择与此次挖掘有关的数据,并进一步研究数据的质量,采用适合的预处理技术对数据进行处理。如:一般情况图书馆的数据多为日常的业务数据,不能直接作为挖掘的数据,所以可通过预处理方法对数据进行集成。还可通过填写空缺值,平滑噪声数据,识别删除孤立点等方法来实现格式标准化、异常数据清除、错误纠正、重复数据的清除等等。
最后,建立模型。对经过预处理后的数据进行挖掘前,要将数据转换成一个分析模型,并从现有数据中衍生出所需要的指标,这有赖于数据挖掘者的分析经验和工具的方便性。分析模型的建立是针对挖掘算法建立的,建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键。
4.2 数据挖掘
对经过数据准备阶段之后所得到的数据,利用选定的数据挖掘工具进行挖掘,用选定的算法或算法组合在模型空间中进行反复迭代搜索,从数据集中抽取出隐藏的、新颖的模式和知识。在本过程中大部分工作都是自动完成的,但这并不意味着不需要人的参与。事实上在数据挖掘过程中需要不断的进行人机交互,以期得到更加符合实际情况的模式和知识。
4.3 结果的解释与评价
结果的解释与评价是指根据最终用户的目的和需要,对数据挖掘发现的模式和知识进行解释与评价。例如:对开学初两个月的图书馆借阅记录,进行挖掘分析后的结果显示:大部分的文献借阅次数很少,只有少部分与外文考试相关的文献被频繁地、大量地借阅。经过分析发现开学初由于学生的学习压力不大,且外语是一项与学位挂钩的科目,学生都非常重视是英语考试类书籍被频繁地借阅的原因。意外的结果是大学生四、六级词汇的借阅频度却很小。这是因为编目体系的原因,把词汇类书籍与政治类书籍编在了一起,用户没有看到,当然,也与用户没有很好利用馆藏数据库检索有一定的关系。通过挖掘,找到了隐藏在大量数据背后的潜在的信息并对其进行客观的解释与评价最终的目的是用于图书馆服务、管理的实践。所以最后要将评价和解释的结果同化为图书馆的知识,并应用于图书馆服务管理为用户提供优质的、个性化的服务。
5 结束语
数据挖掘在图书馆服务管理中的应用尚处于起步阶段,但随着数据挖掘技术、工具、算法的不断改进,应用的普及和对数据挖掘知识的积累,数据挖掘技术将更加广泛地应用于图书馆的服务管理中。
参考文献:
[1] 王伟,张征芳,王海明.基于数据挖掘的图书馆读者行为分析[J].北京:现代图书情报技术,2006(11):51-54.
[2] 肖建国.数据挖掘在图书馆中的应用[J].北京:中国信息导报, 2005(3):55-56.
[3] 胡国芳.数据挖掘技术在图书馆创新服务中的应用[J].北京:情报资料工作,2007(2):104-106.
[4] 卢云.基于CRM 的图书馆可持续发展研究[J].北京:图书情报知识,2004(4):34-35.
关键词:数据挖掘;图书馆
中图分类号:TP311文献标识码:A 文章编号:1009-3044(2008)14-20796-02
1 引言
图书馆作为文献资源的提供机构,拥有大量的文献资源供用户使用。但随着图书馆馆藏文献的增多,会有这种现象发生:用户在众多的信息中,不知道哪一个才是真正需要的;随着用户的不断增多,图书管理人员发现,用户的需求千差万别,想让每一个用户都满意越来越困难。图书馆和用户之间的这种矛盾,成为当前急需解决的问题。其实,图书馆除了拥有大量的文献资源外,还拥有海量的其他信息。如:用户的基本信息、借阅信息、检索信息、咨询信息等。从这些信息中就能找到解决图书馆和用户之间矛盾的答案,这需要应用数据挖掘技术。通过对图书馆的信息资源进行数据挖掘分析,能发现隐含其中的潜在信息,可以帮助用户更好的使用图书馆的信息资源,帮助图书馆为用户提供更好的服务。
2 数据挖掘概述
2.1 内涵
数据挖掘(Data Mining)也叫数据开采、数据采掘等,是从大量的、不完整的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在而又有用的信息和知识的过程。通过数据挖掘,有价值的知识、规则或深层次的信息就能从数据库的相关数据集合中抽取出来,并从不同角度显示,使用户可以在信息的荒漠中更容易找到知识的绿洲,解决了用户“信息丰富而知识贫乏”的尴尬。
2.2 功能
2.2.1 趋势和行为预测
预测是根据数据对象的属性、过去的观察值对该属性的未来值进行预测。数据挖掘可以自动地从数据(仓)库中寻找预测性信息,根据时间序列数据,由历史的和当前的数据预测未来的趋势和行为。
2.2.2 关联分析
关联分析就是要挖掘隐藏在数据(仓)库中的数据关联关系或规则,即发现一个事件和其它事件之间依赖或关联的规律或知识。
2.2.3 分类分析
分类分析就是研究已分类资料的特征,分析对象属性,据此建立一个分类函数或分类模型,然后运用该模型计算总结出的数据特征,将其它未经分类或新的数据分派到不同的组中。
2.2.4 聚类分析
聚类分析是在事先不知道的条件下,根据对象的一些相似特征分组,根据事物本身潜在的特性把数据集合中的个体或对象按照相似性归结成若干类,从而将数据库中的记录化分为一系列有意义的子集。
2.2.5 孤立点分析
数据(仓)库中经常存在一些数据对象,它们与数据的其他部分不同或不一致,而且不符合数据的一般模型,这样的异常数据对象被称为孤立点。对孤立点进行数据分析称为孤立点分析,也称为偏差分析。
3 数据挖掘在图书馆服务管理中应用
通过数据挖掘技术并结合图书馆的服务管理工作,具体可应用于以下几个方面:
3.1 资源建设
合理的进行信息资源配置是图书馆管理工作的核心,是为用户提供优质服务的基础。资源建设主要包括图书文献资源的建设、网络信息资源的建设。无论是图书文献资源还是网络资源都存馆藏结构问题。在网络化、数字化的今天,不能单凭领导或专家的个人意见,决定采购哪些书目及书目的多少,应该通过数据挖掘技术对图书馆日常工作中产生的大量借阅信息、检索信息、咨询信息、馆藏书目信息等从多方面进行分析,发现并了解当前的文献结构还有哪些缺漏,及时进行补充。这样就可以利用有限的经费,进行有针对性的补充、丰富或剔除某些信息资源,进行合理的资源配置,满足用户的需要。
3.2 图书上架、信息资源存储
世界著名商业零售连锁企业沃尔玛(Wal Mart)意外发现“跟尿布一起购买最多的商品竟是啤酒”,并通过调查分析找到了其中的原因。于是沃尔玛就在其一个个门店将尿布与啤酒并排摆放在一起,结果是尿布与啤酒的销售量双双增长。图书馆的图书上架、信息资源存储和超市的商品上架一样,也是有规律的。所以,在图书馆的管理中,也应该对通过数据的挖掘、分析找到文献资源之间的相互关系,这样才能更好地进行图书上架及信息资源的有效存储。如:应该把哪些书籍放在一起、把信息资源按照什么方式进行存储更方便用户的查找。
3.3 用户分析
在企业理论中二八法则又称“马特莱法则”,是国际上公认的一种企业法则。即企业80%的利润来自20%的客户,而发展新客户所需费用是维持老客户的6~8倍。图书馆可以借鉴这一法则,利用数据挖掘对用户的借阅、咨询、检索等信息进行分析,从中找出20%的核心用户,并根据核心用户的信息需求,组织人力、物力资源,为他们提供周到、快捷、满意的服务。同时也不能忽视另外80%的用户,要从中发现潜在的用户,培养新的客户。因为他们也可能会成为图书馆的新的核心用户。利用数据分析还可以找到其他用户流失的原因,这样可以进行有针对性的工作。
结合数据挖掘、数据仓库和联机分析技术,对图书馆数据仓库中的海量数据进行分析,并根据分析结果找出用户需求的特征及图书管理中的各种问题,以便能及时做出正确的决策,调整战略,以适应不断变化的用户需求,为各类用户提供有针对性的、个性化的服务。
4 数据挖掘实施过程
数据挖掘是一个复杂的工作,一般由三个阶段组成:数据准备、数据挖掘、结果解释与评价。
4.1 数据准备阶段
数据准备对于数据挖掘的成功应用至关重要,一般需要消耗整个数据挖掘过程中50%~90%的时间和精力。这一阶段通常包括如下工作:
首先,确定数据挖掘目标。例如:考虑使用关联规则对某一时间段的历史数据进行分析,从中发现用户对资源的借阅模式,如果发现有很多读者借阅A 文献同时也会借阅B 文献,就可以则向借阅A文献的用户推荐B文献,并在上架时把这两种文献放在相邻或相近的位置。这些规则的发现对提高数据资源的利用率和为读者提供个性化服务有着重要的意义。
其次,数据采集和数据理解。数据挖掘必须基于大量数据基础之上,因此必须针对确定的目标进行广泛而全面地数据采集。如:用户基本信息、借阅历史信息记录、检索历史记录、文献书目记录等。但只有大量的数据是没有任何作用的,在进行信息采集和以后的数据挖掘过程中,如果不理解数据的含义,数据挖掘的结果没任何作用。所以必须全面获取和理解数据,确定数据的含义。
再次,进行数据预处理。从采集的数据中选择与此次挖掘有关的数据,并进一步研究数据的质量,采用适合的预处理技术对数据进行处理。如:一般情况图书馆的数据多为日常的业务数据,不能直接作为挖掘的数据,所以可通过预处理方法对数据进行集成。还可通过填写空缺值,平滑噪声数据,识别删除孤立点等方法来实现格式标准化、异常数据清除、错误纠正、重复数据的清除等等。
最后,建立模型。对经过预处理后的数据进行挖掘前,要将数据转换成一个分析模型,并从现有数据中衍生出所需要的指标,这有赖于数据挖掘者的分析经验和工具的方便性。分析模型的建立是针对挖掘算法建立的,建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键。
4.2 数据挖掘
对经过数据准备阶段之后所得到的数据,利用选定的数据挖掘工具进行挖掘,用选定的算法或算法组合在模型空间中进行反复迭代搜索,从数据集中抽取出隐藏的、新颖的模式和知识。在本过程中大部分工作都是自动完成的,但这并不意味着不需要人的参与。事实上在数据挖掘过程中需要不断的进行人机交互,以期得到更加符合实际情况的模式和知识。
4.3 结果的解释与评价
结果的解释与评价是指根据最终用户的目的和需要,对数据挖掘发现的模式和知识进行解释与评价。例如:对开学初两个月的图书馆借阅记录,进行挖掘分析后的结果显示:大部分的文献借阅次数很少,只有少部分与外文考试相关的文献被频繁地、大量地借阅。经过分析发现开学初由于学生的学习压力不大,且外语是一项与学位挂钩的科目,学生都非常重视是英语考试类书籍被频繁地借阅的原因。意外的结果是大学生四、六级词汇的借阅频度却很小。这是因为编目体系的原因,把词汇类书籍与政治类书籍编在了一起,用户没有看到,当然,也与用户没有很好利用馆藏数据库检索有一定的关系。通过挖掘,找到了隐藏在大量数据背后的潜在的信息并对其进行客观的解释与评价最终的目的是用于图书馆服务、管理的实践。所以最后要将评价和解释的结果同化为图书馆的知识,并应用于图书馆服务管理为用户提供优质的、个性化的服务。
5 结束语
数据挖掘在图书馆服务管理中的应用尚处于起步阶段,但随着数据挖掘技术、工具、算法的不断改进,应用的普及和对数据挖掘知识的积累,数据挖掘技术将更加广泛地应用于图书馆的服务管理中。
参考文献:
[1] 王伟,张征芳,王海明.基于数据挖掘的图书馆读者行为分析[J].北京:现代图书情报技术,2006(11):51-54.
[2] 肖建国.数据挖掘在图书馆中的应用[J].北京:中国信息导报, 2005(3):55-56.
[3] 胡国芳.数据挖掘技术在图书馆创新服务中的应用[J].北京:情报资料工作,2007(2):104-106.
[4] 卢云.基于CRM 的图书馆可持续发展研究[J].北京:图书情报知识,2004(4):34-35.