基于数据挖掘技术的科技情报系统研究

来源 :科技与生活 | 被引量 : 0次 | 上传用户:C1335639
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要 随着科学技术知识总量呈几何级的快速增长,以及计算机信息技术的广泛应用,传统的情报收集及利用方法已不适应当今科技情报工作的需求。利用数据挖掘技术,可以将原始的、零乱的、分散的科技情报信息资源变成系统的、集中的、高效的知识集合,从而大大提高了科技情报的利用价值,还可以为科技工作者提供决策信息。
  关键词 情报;科技情报;数据挖掘
  中图分类号TP 文献标识码A 文章编号1673—9671-(2011)022—0106—01
  
  随着计算机信息技术的发展及广泛应用,知识传播过程变得更加方便快捷。如何管理、查新海量的科技情报资源是科技情报工作的重要内容,也是其他情报工作开展的基础。作为机器学习与数据库技术相结合的产物,数据挖掘技术的产生对情报学产生重大的影响。如何利用数据挖掘技术构建一个适合于科技情报工作的信息系统,对科技情报工作的发展具有重要的意义。
  
  1 数据挖掘
  
  数据挖掘技术是包括数据库、机器学习、人工智能、以及统计学在内的多个学科相互交叉融合的边缘学科。数据挖掘技术来自实际应用的需要,通过对数据进行微观、宏观的统计、分析、综合和推理,发现事件间的相互关联,以指导实际问题的求解,以及对未来的活动进行预测。数据挖掘的发现任务主要包括:概念描述、关联分析、时序模式、聚类、分类和预测等。
  数据仓库是数据挖掘的重要支撑技术。引人数据仓库的原因是传统的以数据库为核心的事务环境不适宜数据挖掘技术的应用。其原因主要是分析处理的数据可能来自多种不同的数据源,包括数据库、各种文件系统、intemet、外部的用户数据等,在应用程序中对事务处理环境中的这些数据进行集成会导致极低的分析处理效率。另外数据库中的事务处理一般只需要当前数据,没有充分利用历史数据。而分析处理则更看重历史数据。所以基于事物处理的数据库技术无法直接构建数据挖掘系统。必须将分析型处理从传统的事务型处理中分离出来,并重新进行组织。另外还需要建立单独的分析处理环境,以提高分析和决策的效率和有效性。而数据仓库正是这样的一种数据存储和组织技术。数据仓库技术的主要目的就是为决策提供支持,为联机分析处理、数据挖掘等深层次的数据分析提供平台。数据仓库的特点包括:数据仓库的数据是面向主题的、集成的;数据仓库是随时间变化的;以及数据仓库的数据是不可更新的。数据仓库一般可以分为数据源、数据存储与管理、以及分析工具三个部分。
  
  2 基于数据挖掘的科技情报系统
  
  2.1基于数据挖掘的科技情报系统框架
  传统的科技情报系统一般分为三个子系统,即科技情报收集子系统、科技情报分析子系统以及科技情报服务子系统。由于数据挖掘技术的实现需要数据仓库的支持,以及数据挖掘前数据预处理的需要,因此需要增加科技情报数据预处理和存储子系统。所以基于数据挖掘的科技情报系统整体包含五个子系统,即科技情报收集子系统、科技情报数据存储子系统、科技情报分析子系统、科技情报数据转换子系统、科技情报服务子系统。系统结构如图1所示。
  
  2.2科技情报的收集
  近些年,随着网络环境的普及,我国科技信息的支撑环境发生了很大变化。科技情报的信息源更为丰富,在Intemet上出现了大量的电子资源,成为科技情报信息获取的重要来源。包括电子期刊、各种科技数据库的联机检索、电子图书等。科技数据库是最重要的科技情报来源。在国外有IEEE、Elsevie数据库。目前在我国可利用的科技数据库有“万方数据库”、维普全文期刊数据库、国家科委西南信息中心推出的“中文科技期刊数据库”等。另外很多公共图书馆还建立了自己的特色馆藏数据库,这也是科技情报获取的重要来源之一。另外,以Internet为发布和传输渠道的许多情报也是情报资源查询和共享的市场。例如:中国期刊网,中国标准服务网CSSN,国家专利信息网等。Intemet网上信息资源的开发利用为科技情报工作提供了海量的信息来源。
  科技情报的收集子系统的任务就是广泛获取来自各种渠道和信息源的情报信息数据,使上述各种情报源的情报信息能够源源不断地流日科技情报部门,做到广泛、快速、精确地获取各类敏感情报信息。在这一层的工作中,科技情报工作人员不仅仅要确立可靠的信息源和信息来源渠道,还需要动态地更新和维护这些信息源和渠道。
  
  2.3科技情报的分析
  实现科技情报的分析,从而进行数据挖掘,具有两个前提:一是科技情报挖掘要有比较明确的目标和主题,不能盲目的挖掘。二是需要由来自不同领域的人员共同参与数据挖掘,共同建立起挖掘的模型库和规则库。
  科技情报数据分析系统的工作流程包括如下三个步骤:
  1)确定挖掘目标。必须首先确定数据挖掘的假设,即让科技情报系统为用户建立假设,或者让用户自己对于数据库中可能包含的知识提出假设。
  2)选择合适的挖掘工具。利用数据挖掘工具在模型算法库中查找模型,由系统自动执行这个搜索过程,可以是自下而上的搜索以发现它们之间的某种联系,也可以增加用户交互的过程,即由分析人员主动询问,寻找挖掘算法以验证假设的正确性。
  


  3)评价结果。经常需要反复的多次搜索,这就需要评价数据挖掘结果,据此调整数据挖掘精度,从而达到发现知识的目的,这个过程经常也需要加入用户交互过程。
  
  2.4科技情报数据服务
  基于数据挖掘的科技情报系统可以给科技情报工作带来极大的便利,提供更好的科技情报服务,例如可以很好的服务于科技查新工作。科技查新是一项文献信息服务工作,它的目的是从文献的角度出发,对所查证的科学技术内容做出新颖性判断,作为科研成果的评判、科研课题的立项等的依据。
  查新工作者虽然可以很容易从各种科技数据库中找到某个主题的很多文献,但是这样所获得的信息覆盖面有限,查全率和查准率较低。另外面对如此之多的文献资料,科技工作者经常不知道应该从何处人手。而基于数据挖掘的科技情报系统则可以为情报申请者提供某方面主题的关键信息。例如某领域研究的主要问题是什么;阅读有哪些比较重要的文献能快速全面的了解这个领域;哪些学者的研究成果比较显著;这个领域的研究成果主要发表在哪些刊物上;学者们现在比较关注哪些问题等等。这样就大大减少了科技查新的工作量,也能更科学、更客观的提供科技查新服务。
  
  3 结语
  
  面对海量的科技情报信息资源,利用基于数据挖掘的科技情报系统可以有效的管理与分析科技情报资源,可以将原始的、零乱的、分散的科技情报信息资源变成系统的、集中的、高效的知识集合,从而大大提高了情报的利用价值。系统还可以按照需求生成决策信息、决策计划方案等,极大的方便了科技工作者,对我国科技工作的发展也具有重大的意义。
其他文献
目的比较柳州市男男性接触者(MSM)最常去的不同场所性寻找性伴的性行为学特征,为HIV知识宣传及行为干预提供理论依据。方法在2008年10~12月依托志愿者组织通过网络宣传、朋友
目的探索新兴的卫生监督管理模式,为今后的卫生监督改革提供依据。方法将美容美发行业作为全市卫生监督网格化管理的试点,通过划分为若干个网格及推广卫生监督协管服务等,将
目的了解黑龙江省甲型H1N1流感病毒感染状况,为评估研判疫情发展趋势提供信息支持。方法应用常规微量血凝抑制实验,对2009年12月~2010年3月共4次采集的医院门诊的就诊患者血清
  散射体对电磁波的散射是向着空间各个方向的,散射的能量随着散射角的不同而变化.双基地雷达接收机子站所接收到的能量是散射体的侧向散射.文章针对于降水粒子的侧向散射
会议
新源县是新疆西部联系南北疆的要冲,边邻阿富汗“毒品金新月”.新源监狱位于新源县境内,是新疆第三大监狱.为掌握服刑人员艾滋病感染与患病情况,采取相应的隔离措施,保证服刑
期刊
目的了解娱乐场所职业人群艾滋病和梅毒感染现状,探讨对高危人群HIV认知干预的效果。方法采用横断面调查方法对被调查对象进行HIV和梅毒血清学监测,对从业人员培训前后艾滋病
1现状与问题1.1卫生许可的法律依据不明确卫生行政许可管理办法明确规定,各级卫生行政部门实施的卫生行政许可应当有下列法定依据:法律、行政法规,国务院决定,地方性法规,省
目的分析邹城市狂犬病流行特征和因素,为制定防控措施提供科学依据。方法收集全市2005~2009年狂犬病相关资料,用描述流行病学的方法进行分析。结果2005~2009年邹城市共报告狂犬
证券公司经纪业务是证券公司通过其设立的证券营业部和证券交易席位,接受投资者委托,按照投资者的要求代理买卖证券的业务。其类型有代理委托买卖证券、代理股份转让、代理
实验室管理评审是实验室管理体系重要的要素之一,作为政府和监督部门出具数据的检测机构——疾控中心实验室,一方面所面临的卫生监督部门法律法规较多,变化较大,相关的卫生学
期刊