学术专题档案情报快速辅助生成系统模块的设计与实现

来源 :档案天地 | 被引量 : 0次 | 上传用户:yyaizy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  一、论文的研究背景和意义
  科技档案是指在自然科学研究、生产技术、基本建设等活动中形成的应当归档保存的图纸、图表、文字材料、计算材料、照片、影片、录像、录音带等科技文件材料。2010年以前,由于信息传播速度、信息量以及计算机技术的普及都落后于今天,全国各地的科技情报研究所都是使用人工的手段从科技档案中收集情报,然后再对数据进行筛选、去重、统计,这种方法既费时又费力。随着互联网的发展,数字档案平台、科技报告系统的兴起以及大数据时代的到来,科技情报研究部门对信息的需求量与日俱增,人工检索数据、筛选数据的方法必将被淘汰,取而代之的是利用計算机技术自动地对数据进行检索、处理和分析。
  从目前的情况来看,完全用计算机代替科技情报研究人员进行情报分析工作是不现实的,因为很多情报的判读需要科技情报研究人员常年累积的经验,计算机可以做的是在最大限度上用计算机代替人工做重复性的工作。此外,情报领域与计算机领域有一定距离,情报研究人员往往不懂计算机技术,甚至对软件的使用都感到棘手。针对上述实际需求,需要开发一个无监督的系统,该系统可以按照需要自动采集数据,并可以对数据进行去重、分析。
  基于以上背景,本文计划在钱学森提出的综合集成研讨方法指导下,基于数字档案平台、科技报告系统等数据库设计建立一套以人为主,数据、信息、知识和智慧综合集成,高度智能化的人机结合智慧情报系统,从系统的物理构成来看,包括三部分:一是由参与情报解读的专家组成的专家体系;二是由为情报工作人员和专家提供各种信息服务的计算机软硬件技术组成的机器体系;三是由各种形式的信息资源组成的知识体系。从情报分析过程来看,该系统包括三部分:一是基于专家体系经验判读的定性情报综合集成系统;二是基于数据采集处理工具的定量情报分析综合集成系统;三是从定性情报到定量情报的综合集成系统。总之,该系统的建设不仅需要建立由不同学科、不同领域专家组成,具有能面对复杂巨系统问题所需要的合理知识结构的专家体系,而且还需要设计开发能够有效处理海量数据的工具,实现信息的高效采集与精确分析。从技术构成分析,归类能力、关联性分析能力、辅助解读能力、报告辅助生成能力是该系统应具备的几大核心能力。
  文章将主要运用信息智能检索、数据统一结构化、信息抽取、机器学习、自然语言理解等前沿的数据挖掘分析技术,对各数据库的结构化与非结构化文本进行处理,实现对海量信息的数据挖掘,完成数据的关键词输入、引文爬取、数据解析分析、统计。最终形成关于学术专题情报报告雏形。
  二、学术专题档案情报快速辅助生成系统功能需求分析与系统设计
  大数据时代的数据特征为情报服务过程中数据采集提出了严峻的挑战,档案数据库和科技报告数据库等结构化信息异构、重复,质量参差不齐,时效性不强,使数据整合成为基础数据资源建设的难点;其次是是如何通过大数据时代高度发展的移动互联网技术,充分利用人际网络获得一手数据,并与网络、文献和数据库信息进行整合,也成为大数据环境下数据采集的难点。与此同时,无论何种数据来源,由于数据的价值密度低,数据筛选技术都是关键的技术难题。
  本系统通过利用网络环境下的搜索引擎技术、本体库、SVM分类算法、聚类算法和信息筛选技术,构建面向大数据的档案数据库数据、科技报告数据库数据、人际网络数据和信息筛选的大数据采集与筛选工具,为情报服务的数据资源建设提供工具。
  (一)系统需求分析
  1.搜索需求:互联网数据库信息是情报服务的主要数据来源之一,搜索引擎技术的发展为互联网数据的获取提供了便捷、高效的工具,但是由于算法本身局限性,普通搜索引擎只能采集到约10-30%的信息,只能完成情报大概情况的收集,不能满足情报检索中查全率的要求,对于查准率也只能满足部分要求,这种现状对于情报服务来说,是对互联网信息资源的浪费。本系统需要在普通搜索引擎的基础上通过重点、互动、专业垂直搜索,完成深入的、交互式的、专业的科技情报搜索。本部分的科技情报专用搜索工具是由元搜索系统、重点搜索系统、互动搜索系统、垂直搜索系统和深网接口系统封装在一起构成。
  2.大数据筛选:数据库数据具有数据价值密度低的特点,因此,数据的筛选对于情报服务的质量尤为重要。数据来源的广泛性使得大数据难以根据同一标准进行筛选,因而计算机难以独立完成筛选工作。本系统根据研究内容设定采集数据的范围,将采集得到的数据去噪、剔除相似数据后,根据领域词汇距离、情报点关键词录、情报报告关键词录摘录出较具情报价值的信息,力争把以十万计的海量信息压缩到600条以内,同时保存足够的核心信息,并采用人机结合的工作方式,提供专家判读的界面,为数据筛选的准确性提供保障。
  3.动态情报跟踪与基于科技主体的社会网络情报需求。搜索引擎完成的是面向互联网数据库数据的静态数据获取工作,然而对于情报服务来说,动态跟踪能够展现情报研究对象的活动轨迹,对于情报分析具有十分重要的价值。根据社会网络理论,完成科技主体(单位和个人)相互关系的表达,从而确定某一主题下各个科技主体的特征,以使我们能从中找到适合进行情报分析判读的行业专家。本系统基于移动网络环境下的情报采集技术,创新情报采集模式,全面采集由情报所所内人员、行业专家、专业情报员,通过科技情报生产的规范化流程、规范化方法,依照科技情报质量控制体系,在情报分析模型方法库和情报分析方法工具包的协助下,完成情报的分析流程。
  (二)系统模块设计
  本系统根据关键词并行进行科技报告系统网页爬取与数字档案馆中的科技档案爬取,获取有效的网页信息与档案信息,去重、去噪后得到需要的网页信息与档案信息。对数据进行特定的处理,采用特定的算法对获取的数据进行处理分析,生成需要的图表格式并得出结论。具体流程如图1所示。
  按照档案情报流程节点的不同,该学术专题情报快速辅助生成系统可以细分为几个大模块:搜索大模块,控制大模块,整理大模块,分析大模块及结论生成大模块。大模块下又可细分为几个小模块。学术专题情报快速辅助生成系统模块划分如图2所示   1.搜索模块:搜索大模块主要有科技报告系统网页搜索模块和数字档案搜索模块两大模块。网页搜索模块致力于在科技报告系统网络上搜索与关键字相关的网页集合,为后续的操作提供初始的科技报告系统网页信息材料来源。数字档案搜索模块是在制定好的数字档案馆中搜索与关键字相关的档案集合,得到与关键字有密切关系的档案集合,为之后的整理分析等工作提供初始的材料来源。
  2.控制大模块:控制大模块主要有两个小模块:内存控制模塊和线程控制模块。无论是从网页中获取信息还是从档案库中获取信息,系统在获取信息过程中获取的信息容量比较大,所以需要内存控制模块来高效的非配运行此系统的计算机的内存,以提高系统运行效率。由于要获取的信息内容十分多,因此采用并行技术进行获取信息的操作。
  3.整理大模块:整理大模块主要有科技报告系统网页内容整理模块和档案库内容整理模块两大模块。科技报告系统网页内容整理模块只要是对获取到的网页进行去重,去噪等处理,得到干净、整齐的网页内容。档案内容整理模块是对已经获取到的档案集合进行去重,去噪等处理,获取格式整齐的档案内容,以便进行后续工作。
  4.分析大模块:分析大模块主要有科技报告系统网页内容分析模块和档案内容分析模块两大模块。科技报告系统网页内容分析模块是对前边已经处理过的网页信息采用分类,对比等特定分析方法对这些内容进行分析,以帮助后边的模块得到想要的结果。档案内容分析模块是针对之前通过搜索,处理得到的整齐的档案信息内容采用特定的分类,对比等分析方法对档案内容进行分析,得到分析的结果。
  5.结论生成大模块:结论生成大模块主要有科技报告系统网页生成结论模块和档案生成结论模块两大模块。科技报告系统网页生成结论模块使用通过关键词筛选出的网页信息经整理、分析得出的结果采用表格,图表等方式展现给用户,让用户对结论有一个直观的了解。档案生成模块使用通过关键词帅选出的论文信息经过整理、分析得到的记过采用与网页生成结论模块基本相同的样式,如表格、柱状图、饼图等方式向用户展示该关键词搜索的内容的结果。便于用户进行相关的决策等。
  (三)系统架构设计
  系统结构共包括元搜索模块、垂直搜索模块、URL调度器、数据存储器、多线程控制器、源码解析器和数据分析模块,其中元搜素模块主要是对科技报告系统网页数据进行检索;垂直搜索模块主要是对档案数据库进行检索。由于网页数据与档案库的格式差异较大,故本系统开发两个软件分别对网页数据和档案数据进行处理。从系统结构上来说,除了信息采集模块外,两个软件的结构基本一致,都是通过上述模块进行相互协调控制。用户在系统运行初始化时对相关参数进行设置,如检索的最大页数、检索的时间间隔等,然后输入关键词,系统结合上述功能模块就可以脱离人工自动对数据进行检索和处理,最终实现无监督的信息采集工作。
  系统的基本流程:在传统网络爬虫的基础上进行改进对网页信息进行抽取,将下载下来的数据保存到内存中,与之前的一级链接相同,当内存中的数据超过一个阈值时,将它们输出到本地文件中。
  当全部数据抓取下来后,数据被分为网页数据与档案数据,由于档案数据是标准的结构化数据,并且科技档案技术方案的重复率并极低,也不存在大量噪声数据,因此可以通过系统的数据分析模块对档案数据进行分析。
  三、学术专题档案情报快速辅助生成系统的功能实现
  文章以人工智能领域为例,使用本系统进行实验,验证本系统的可行性和有效性。一是本系统可以实现对档案数据库、科技报告数据库的中文数据采集搜索,可以自动实现对档案、科技报告相关词库的搜索,对相关文献详细信息(包标题、摘要、完成人、完成单位、完成时间、项目名称等)进行搜索采集,对相关文献内高频词汇进行统计分析。二是系统对采集到的数据进行归类、去噪、去重处理,筛选出较具情报价值的信息,运用文献计量学方法对筛选完的数据进行统计分析,形成清晰的档案文献相关信息统计分析表格。三是系统可以用来搜索某学术领域相关机构、相关专家,还可以对机构之间的合作关系、专家之间的合作关系、专家学术研究点之间的关系进行可视化展示。
  科技情报是情报学的主要学科,档案信息、科技报告是情报采集的重要来源,学术专题档案情报快速辅助生成系统是集档案情报搜索工具、大数据筛选工具、基于科技主体网络的情报工具为一体的情报工具,可以有效提高情报机构数据资源建设能力,对于打造情报机构核心竞争力具有重要促进作用。
  (作者单位:北京市科学技术情报研究所)
其他文献
福建省南平市第二律师事务所于1985年1月成立。迄今十载,始终是不占国家编制,不要国家拨款,照章缴纳税费,实行“四自”的律师事务所。她是律师工作体制超前改革的产物。当时,律师
今年年初召开的全国司法厅(局)长会议上,肖扬部长在谈到进一步开拓法律服务领域问题时明确提出“开拓为政府实现宏观调控服务的领域,使法律服务工作进入决策层年9助政府部S]运用法
庭前证据展示制度是刑事诉讼的控辩双方,在开庭审理前,将各自掌握的一定范围的证据材料向双方展示的一种制度.
人工流产术中在宫颈旁注射利多卡因5ml(总量10mg)。本文观察组镇痛效果显著优于对照组(P<0.005)。人流综合征观察组的发生率也显著低于对照组(P<0.005)。虽然两组术中的出血量
一、答案:(每题1分,共9分)1.C2.A.D3.B.C.D4.A.B.C6.A6.A.B7.B8.A9.A二、答案:(本题9分)1.应在4月25日前向商标评审委员会申请复审(1分)。2.应当撤销(改变)初审决定,予以初步审定(1分)。理由:行政区划名称有其
本刊今年第六期发表了施德文同志写的(王某的行为是否构成行捕罪》一文,认定王某构成行捕罪,对此笔者有不同看法,以下是笔者的一些拙见,请广大读者指正,兼与施德文同志商榷。“施文
【正】 民事经济审判实践中,过去较长的一段时期内,过份地强调了人民法院的取证,很少强调或忽视了当事人的举证责任,以致形成了"当事人动动嘴,法官跑断腿"的不合理现象,严重
漯河嘉华新型建材有限公司.一个享誉全国建材行业的企业,嘉华有着这样一个特别的公司名字.企业一定会是一派漂亮和豪华吧.但嘉华的大门朴素而简单这似乎在用另一种方式告诉人们:这
刑诉法第204条第1项规定:当事人及其法定代理人、近亲属的申诉中,有新的证据证明原判决、裁定认定的事实确有错误的,人民法院应当重新审判。本项规定看似体现了有错必纠的实事求