论文部分内容阅读
摘要 随着科学技术知识总量呈几何级的快速增长,以及计算机信息技术的广泛应用,传统的情报收集及利用方法已不适应当今科技情报工作的需求。利用数据挖掘技术,可以将原始的、零乱的、分散的科技情报信息资源变成系统的、集中的、高效的知识集合,从而大大提高了科技情报的利用价值,还可以为科技工作者提供决策信息。
关键词 情报;科技情报;数据挖掘
中图分类号TP 文献标识码A 文章编号1673—9671-(2011)022—0106—01
随着计算机信息技术的发展及广泛应用,知识传播过程变得更加方便快捷。如何管理、查新海量的科技情报资源是科技情报工作的重要内容,也是其他情报工作开展的基础。作为机器学习与数据库技术相结合的产物,数据挖掘技术的产生对情报学产生重大的影响。如何利用数据挖掘技术构建一个适合于科技情报工作的信息系统,对科技情报工作的发展具有重要的意义。
1 数据挖掘
数据挖掘技术是包括数据库、机器学习、人工智能、以及统计学在内的多个学科相互交叉融合的边缘学科。数据挖掘技术来自实际应用的需要,通过对数据进行微观、宏观的统计、分析、综合和推理,发现事件间的相互关联,以指导实际问题的求解,以及对未来的活动进行预测。数据挖掘的发现任务主要包括:概念描述、关联分析、时序模式、聚类、分类和预测等。
数据仓库是数据挖掘的重要支撑技术。引人数据仓库的原因是传统的以数据库为核心的事务环境不适宜数据挖掘技术的应用。其原因主要是分析处理的数据可能来自多种不同的数据源,包括数据库、各种文件系统、intemet、外部的用户数据等,在应用程序中对事务处理环境中的这些数据进行集成会导致极低的分析处理效率。另外数据库中的事务处理一般只需要当前数据,没有充分利用历史数据。而分析处理则更看重历史数据。所以基于事物处理的数据库技术无法直接构建数据挖掘系统。必须将分析型处理从传统的事务型处理中分离出来,并重新进行组织。另外还需要建立单独的分析处理环境,以提高分析和决策的效率和有效性。而数据仓库正是这样的一种数据存储和组织技术。数据仓库技术的主要目的就是为决策提供支持,为联机分析处理、数据挖掘等深层次的数据分析提供平台。数据仓库的特点包括:数据仓库的数据是面向主题的、集成的;数据仓库是随时间变化的;以及数据仓库的数据是不可更新的。数据仓库一般可以分为数据源、数据存储与管理、以及分析工具三个部分。
2 基于数据挖掘的科技情报系统
2.1基于数据挖掘的科技情报系统框架
传统的科技情报系统一般分为三个子系统,即科技情报收集子系统、科技情报分析子系统以及科技情报服务子系统。由于数据挖掘技术的实现需要数据仓库的支持,以及数据挖掘前数据预处理的需要,因此需要增加科技情报数据预处理和存储子系统。所以基于数据挖掘的科技情报系统整体包含五个子系统,即科技情报收集子系统、科技情报数据存储子系统、科技情报分析子系统、科技情报数据转换子系统、科技情报服务子系统。系统结构如图1所示。
2.2科技情报的收集
近些年,随着网络环境的普及,我国科技信息的支撑环境发生了很大变化。科技情报的信息源更为丰富,在Intemet上出现了大量的电子资源,成为科技情报信息获取的重要来源。包括电子期刊、各种科技数据库的联机检索、电子图书等。科技数据库是最重要的科技情报来源。在国外有IEEE、Elsevie数据库。目前在我国可利用的科技数据库有“万方数据库”、维普全文期刊数据库、国家科委西南信息中心推出的“中文科技期刊数据库”等。另外很多公共图书馆还建立了自己的特色馆藏数据库,这也是科技情报获取的重要来源之一。另外,以Internet为发布和传输渠道的许多情报也是情报资源查询和共享的市场。例如:中国期刊网,中国标准服务网CSSN,国家专利信息网等。Intemet网上信息资源的开发利用为科技情报工作提供了海量的信息来源。
科技情报的收集子系统的任务就是广泛获取来自各种渠道和信息源的情报信息数据,使上述各种情报源的情报信息能够源源不断地流日科技情报部门,做到广泛、快速、精确地获取各类敏感情报信息。在这一层的工作中,科技情报工作人员不仅仅要确立可靠的信息源和信息来源渠道,还需要动态地更新和维护这些信息源和渠道。
2.3科技情报的分析
实现科技情报的分析,从而进行数据挖掘,具有两个前提:一是科技情报挖掘要有比较明确的目标和主题,不能盲目的挖掘。二是需要由来自不同领域的人员共同参与数据挖掘,共同建立起挖掘的模型库和规则库。
科技情报数据分析系统的工作流程包括如下三个步骤:
1)确定挖掘目标。必须首先确定数据挖掘的假设,即让科技情报系统为用户建立假设,或者让用户自己对于数据库中可能包含的知识提出假设。
2)选择合适的挖掘工具。利用数据挖掘工具在模型算法库中查找模型,由系统自动执行这个搜索过程,可以是自下而上的搜索以发现它们之间的某种联系,也可以增加用户交互的过程,即由分析人员主动询问,寻找挖掘算法以验证假设的正确性。
3)评价结果。经常需要反复的多次搜索,这就需要评价数据挖掘结果,据此调整数据挖掘精度,从而达到发现知识的目的,这个过程经常也需要加入用户交互过程。
2.4科技情报数据服务
基于数据挖掘的科技情报系统可以给科技情报工作带来极大的便利,提供更好的科技情报服务,例如可以很好的服务于科技查新工作。科技查新是一项文献信息服务工作,它的目的是从文献的角度出发,对所查证的科学技术内容做出新颖性判断,作为科研成果的评判、科研课题的立项等的依据。
查新工作者虽然可以很容易从各种科技数据库中找到某个主题的很多文献,但是这样所获得的信息覆盖面有限,查全率和查准率较低。另外面对如此之多的文献资料,科技工作者经常不知道应该从何处人手。而基于数据挖掘的科技情报系统则可以为情报申请者提供某方面主题的关键信息。例如某领域研究的主要问题是什么;阅读有哪些比较重要的文献能快速全面的了解这个领域;哪些学者的研究成果比较显著;这个领域的研究成果主要发表在哪些刊物上;学者们现在比较关注哪些问题等等。这样就大大减少了科技查新的工作量,也能更科学、更客观的提供科技查新服务。
3 结语
面对海量的科技情报信息资源,利用基于数据挖掘的科技情报系统可以有效的管理与分析科技情报资源,可以将原始的、零乱的、分散的科技情报信息资源变成系统的、集中的、高效的知识集合,从而大大提高了情报的利用价值。系统还可以按照需求生成决策信息、决策计划方案等,极大的方便了科技工作者,对我国科技工作的发展也具有重大的意义。
关键词 情报;科技情报;数据挖掘
中图分类号TP 文献标识码A 文章编号1673—9671-(2011)022—0106—01
随着计算机信息技术的发展及广泛应用,知识传播过程变得更加方便快捷。如何管理、查新海量的科技情报资源是科技情报工作的重要内容,也是其他情报工作开展的基础。作为机器学习与数据库技术相结合的产物,数据挖掘技术的产生对情报学产生重大的影响。如何利用数据挖掘技术构建一个适合于科技情报工作的信息系统,对科技情报工作的发展具有重要的意义。
1 数据挖掘
数据挖掘技术是包括数据库、机器学习、人工智能、以及统计学在内的多个学科相互交叉融合的边缘学科。数据挖掘技术来自实际应用的需要,通过对数据进行微观、宏观的统计、分析、综合和推理,发现事件间的相互关联,以指导实际问题的求解,以及对未来的活动进行预测。数据挖掘的发现任务主要包括:概念描述、关联分析、时序模式、聚类、分类和预测等。
数据仓库是数据挖掘的重要支撑技术。引人数据仓库的原因是传统的以数据库为核心的事务环境不适宜数据挖掘技术的应用。其原因主要是分析处理的数据可能来自多种不同的数据源,包括数据库、各种文件系统、intemet、外部的用户数据等,在应用程序中对事务处理环境中的这些数据进行集成会导致极低的分析处理效率。另外数据库中的事务处理一般只需要当前数据,没有充分利用历史数据。而分析处理则更看重历史数据。所以基于事物处理的数据库技术无法直接构建数据挖掘系统。必须将分析型处理从传统的事务型处理中分离出来,并重新进行组织。另外还需要建立单独的分析处理环境,以提高分析和决策的效率和有效性。而数据仓库正是这样的一种数据存储和组织技术。数据仓库技术的主要目的就是为决策提供支持,为联机分析处理、数据挖掘等深层次的数据分析提供平台。数据仓库的特点包括:数据仓库的数据是面向主题的、集成的;数据仓库是随时间变化的;以及数据仓库的数据是不可更新的。数据仓库一般可以分为数据源、数据存储与管理、以及分析工具三个部分。
2 基于数据挖掘的科技情报系统
2.1基于数据挖掘的科技情报系统框架
传统的科技情报系统一般分为三个子系统,即科技情报收集子系统、科技情报分析子系统以及科技情报服务子系统。由于数据挖掘技术的实现需要数据仓库的支持,以及数据挖掘前数据预处理的需要,因此需要增加科技情报数据预处理和存储子系统。所以基于数据挖掘的科技情报系统整体包含五个子系统,即科技情报收集子系统、科技情报数据存储子系统、科技情报分析子系统、科技情报数据转换子系统、科技情报服务子系统。系统结构如图1所示。
2.2科技情报的收集
近些年,随着网络环境的普及,我国科技信息的支撑环境发生了很大变化。科技情报的信息源更为丰富,在Intemet上出现了大量的电子资源,成为科技情报信息获取的重要来源。包括电子期刊、各种科技数据库的联机检索、电子图书等。科技数据库是最重要的科技情报来源。在国外有IEEE、Elsevie数据库。目前在我国可利用的科技数据库有“万方数据库”、维普全文期刊数据库、国家科委西南信息中心推出的“中文科技期刊数据库”等。另外很多公共图书馆还建立了自己的特色馆藏数据库,这也是科技情报获取的重要来源之一。另外,以Internet为发布和传输渠道的许多情报也是情报资源查询和共享的市场。例如:中国期刊网,中国标准服务网CSSN,国家专利信息网等。Intemet网上信息资源的开发利用为科技情报工作提供了海量的信息来源。
科技情报的收集子系统的任务就是广泛获取来自各种渠道和信息源的情报信息数据,使上述各种情报源的情报信息能够源源不断地流日科技情报部门,做到广泛、快速、精确地获取各类敏感情报信息。在这一层的工作中,科技情报工作人员不仅仅要确立可靠的信息源和信息来源渠道,还需要动态地更新和维护这些信息源和渠道。
2.3科技情报的分析
实现科技情报的分析,从而进行数据挖掘,具有两个前提:一是科技情报挖掘要有比较明确的目标和主题,不能盲目的挖掘。二是需要由来自不同领域的人员共同参与数据挖掘,共同建立起挖掘的模型库和规则库。
科技情报数据分析系统的工作流程包括如下三个步骤:
1)确定挖掘目标。必须首先确定数据挖掘的假设,即让科技情报系统为用户建立假设,或者让用户自己对于数据库中可能包含的知识提出假设。
2)选择合适的挖掘工具。利用数据挖掘工具在模型算法库中查找模型,由系统自动执行这个搜索过程,可以是自下而上的搜索以发现它们之间的某种联系,也可以增加用户交互的过程,即由分析人员主动询问,寻找挖掘算法以验证假设的正确性。
3)评价结果。经常需要反复的多次搜索,这就需要评价数据挖掘结果,据此调整数据挖掘精度,从而达到发现知识的目的,这个过程经常也需要加入用户交互过程。
2.4科技情报数据服务
基于数据挖掘的科技情报系统可以给科技情报工作带来极大的便利,提供更好的科技情报服务,例如可以很好的服务于科技查新工作。科技查新是一项文献信息服务工作,它的目的是从文献的角度出发,对所查证的科学技术内容做出新颖性判断,作为科研成果的评判、科研课题的立项等的依据。
查新工作者虽然可以很容易从各种科技数据库中找到某个主题的很多文献,但是这样所获得的信息覆盖面有限,查全率和查准率较低。另外面对如此之多的文献资料,科技工作者经常不知道应该从何处人手。而基于数据挖掘的科技情报系统则可以为情报申请者提供某方面主题的关键信息。例如某领域研究的主要问题是什么;阅读有哪些比较重要的文献能快速全面的了解这个领域;哪些学者的研究成果比较显著;这个领域的研究成果主要发表在哪些刊物上;学者们现在比较关注哪些问题等等。这样就大大减少了科技查新的工作量,也能更科学、更客观的提供科技查新服务。
3 结语
面对海量的科技情报信息资源,利用基于数据挖掘的科技情报系统可以有效的管理与分析科技情报资源,可以将原始的、零乱的、分散的科技情报信息资源变成系统的、集中的、高效的知识集合,从而大大提高了情报的利用价值。系统还可以按照需求生成决策信息、决策计划方案等,极大的方便了科技工作者,对我国科技工作的发展也具有重大的意义。