大数据时代数字资源整合方法研究:模型设计和实验分析

来源 :现代情报 | 被引量 : 0次 | 上传用户:ashlilani3
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:[目的/意义]针对目前大数据时代数字资源的非结构化、海量、多类型等问题,设计一套数字资源整合的模型和方法,以满足信息用户的实际需求。[方法/过程]以物流行业中的航运信息服务产品集装箱运价指数为例,提出基于大数据的指数编制思路,以数据仓库模型为目标数据模式,构建面向海量多源异构信息的数字资源集成模型,设计Web类数字资源获取和集成流程以及增量数据的处理方法,通过具体实证研究检验模型和流程的运行效果。[结果/结论]实证结果显示,本文提出的數字资源整合模型和处理流程能有效地实现多源异构数字资源的整合,支持基于海量数据对的指数编制模式,为全世界各类指数编制的改变提供理论和技术方面的探索,也为数字资源整合在其他领域的应用提供有益参考。
  关键词:数字资源整合;多源异构信息;集装箱运价指数;数据仓库;模型;方法;技术;物流行业
  DOI:10.3969/j.issn.1008-0821.2019.09.010
  〔中图分类号〕G203 〔文献标识码〕A 〔文章编号〕1008-0821(2019)09-0092-09
  Abstract:[Purpose/Significance]Aiming at the unstructured,massive and multi-source of digital resources,a set of digital resource integration models and methods were designed to meet the actual needs of information users.[Method/Process]Taking the shipping information service product - container freight index in the logistics industry as an example,this paper proposed formulation methods of container freight index based on big data,designed a set of oriented container freight index multi-sources heterogeneous information integration model and the Web information gathering and integration process.[Result/Conclusion]The model and process supported multi-sources heterogeneous digital information integration,and index formulation based on massive data.The study presented theoretical and technological exploration on different indexes formulation,and also provided a useful reference for the application of digital resources integration in other fields.
  Key words:digital resources integration;multi-sources heterogeneous digital information;containerized freight index;data warehouse;model;method;technique;the logistics industry
  数字资源整合是指将原本多元异构的、离散的、分布的数字资源通过逻辑或者物理的方式[1],依据不同的模式、策略,对于数字资源系统中的数据对象、功能结构及其互动关系进行融合、类聚和重组,重新结合为一个新的有机整体,形成一个效能更好、效率更高的新的数字资源体系[2]。
  数字资源整合的起因是由数字资源的现状与信息用户的需求之间的差异造成的。从技术层面来看,不同的数字资源系统的数据结构和语义表达不一样,不同的系统开发者使用不一样的数据描述和数据组织标准,数据检索的方式和方法也不同;从数量上来看,随着大数据时代的到来,数据资源的种类越来越多,除了电子文档之外,Web、报文、视频、音频、图形和图像等类型的数字资源随着互联网发展,数字资源的数量呈指数增加的趋势;从内容上来看,数字资源存在大量冗余信息,内容交叉重复,数字资源之间知识关联程度很低,真正的数字资源分布在不同的组织等问题[3],这些数字资源的价值密度较低,需要经过整合和处理之后,方能满足信息用户的使用需求。
  1 数字资源整合研究现状
  关于数字资源整合的研究在国内主要集中在图书情报领域,通常认为开始于21世纪初,毛玉萃针对企业内部信息和企业电子商务信息的信息整合揭开了数字资源整合研究的序幕[4],此后该领域的研究持续升温,主要集中在五大方面:一是模式研究,如跨库检索[5]、系统和数据整合模式比较[6]等;二是方案策略和方法研究,如目标研究[7]、原则研究[8]、基于本体[9]、基于知识链[10]等;三是影响因素研究,如政治、经济、技术[11]和资源本身的属性等;四是标准和协议研究,如Web Service[12]等;五是服务研究,如数据库、检索平台[13]等。
  数字资源整合中的数据整合技术经历了30多年的发展,不同的阶段,针对的数据对象不同,采用的技术方法和体系结构也不同,一般来说分为物理整合和逻辑整合。
  1.1 联邦数据库
  20世纪80年代,数据整合的对象主要是异构数据库,多采用联邦数据库集成框架和多数据库语言方法集成架构等技术,联邦数据库管理系统通过执行控制和协调来实现对组件数据库中数据的集成[14]。前期采用紧密耦合的方式,但由于这种方式太脆弱,后期渐渐采用松散耦合的方式[15]。   异构数字资源的整合首先要建立元数据库和规则库。事实表和维表确定元数据库的属性,根据指数编制的需求来确定属性的值域、格式和描述等内容。
  在预处理环节,对于不同来源的数字资源采用不同的方法,在本文的研究中,运价数据的主要来源是结构化和半结构化信息,非结构化信息主要用作本体库和知识库的完善和扩展;本体库主要包含与集装箱海运运价相关的概念以及这些概念之间的关系,随着数据的不断增加本体库将不断被完善,为了提高准确率,本体库的更新过程需要行业专家的人工介入,本体库为知识库的建立和完善提供概念和关系方面的支持。
  在本文的研究中,知识库采用产生式知识表示方法,采用三元组或四元组的形式表示,根据概念、关系的不同分别采用(关系、概念1、概念2…)或(对象、属性、值)等表示形式,如(相等、起运港、装货港、POL)、(出错、20GP运价、小于0),知识库中存放的一条一条的规则,且规则之间不能相互调用[26],在本体库和知识库的基础上,建设和维护规则库,以形成计算机可执行的指令。
  本文讨论的结构化数据主要针对关系型数据库。通过ODBC与原运价数据库建立数据连接,基于运价表或其他相关数据表创建本地数据副本;也可采用数据库工具或编写脚本将运价数据转换为易于识别的数据模式(如报文等),同时针对属性设计校验,对存在明显错误的运价数据记录实施过滤,以提高运价数据的使用效率。
  本文讨论的半结构化数据特指Web信息。因运价信息分布在互联网的各个平台和系统上,先确定这些数字资源的获取范围,获取后将Web信息存储在临时存储区,然后进行解析[27]。对于以Html、XML、Json等格式存储在临时存储区的运价数据,可采用两种方式。第一种方式是将文件视为字符流,读取运价文件的同时读取知识库,若文件中有字符内容与知识库相符,采用堆栈技术,根据特殊字符判断属性和内容,并抽取运价内容,读取规则库对属性的数据实施转换并插入目标数据仓库,若不相符,则根据特殊字符结合属性和内容推测,并向用户提示人工介入,判断抽取或舍弃该部分数据,同时更新知识库;第二种方式是采用文档对象模型(DOM),将XML文件中的运价信息内容解析为文档树,读取文档树中的子结点信息即可抽取出运价相关的属性和值。这两种方法在实际运用中都可调用开源的API。前者解析速度快,占用内存少,但开发较复杂,后者易于实现,但不适合大型文件的操作,也可以采用JDOM方法实现二者的结合。
  Web信息获取和集成流程如图3所示。
  流程简要描述如下:
  ①根据配置好的任务定向获取运价Web信息,策略为先广度再深度,直到指定的Web信息源获取完成;
  ②以文件形式存储运价Web信息至临时存储区;
  ③读取元数据库、轉换规则库和知识库;
  ④采用相应的方法解析Web信息并抽取需要的运价相关信息以数据仓库的方式存储;
  ⑤错误日志在行业专家的介入下更新知识库和规则库。
  3)处理增量信息
  必须设置周期性触发的定时任务以获取增量运价信息。对于结构化数据,定时任务自动扫描预定的所有数据库,若运价数据库中有Creattime属性,则直接采用时间戳判断增量数据,若无时间戳或无法获取到时间戳字段,则利用数据库主键值判断新增运价信息,对于分布式数据库(如RAC),数据库主键可能产生顺序混乱而导致增量运价数据无法完整采集的情况,则采取数据对比判断的方法,根据数据对比后的结果调用任务(Job),实施增量更新。
  运价采集程序读取目标URL,对比URL模式表,如可变化参数部分的内容与目标库中已有的URL完全一致,则判断该Web为已存在信息,则放弃,反之则判断其为增量运价信息;若URL是静态的,但运价信息持续更新,则提取Homepage或者Startpage中输入下拉菜单列表中的内容,针对这些内容进行深度和广度遍历,获取所有运价Web,将获取的信息输入已定义好的Hash表达式计算得新获取Web信息的Hash值,将结果与目标库中已有的URL的Hash值对比,值相同,则舍弃,反之则判断其为增量运价信息。
  非结构化信息通常以文件形式存储在既定的目录中,定时任务扫描文件根目录,按照文件系统的规则确定新文件,只读取和发送新文件。
  3 实证研究
  3.1 数据来源与处理
  使用某市集装箱舱位订舱平台的后台运价数据库信息与某几个集装箱舱位订舱网站的Web运价信息对本文提出的数字资源整合模型进行检验。其中该订舱平台运价数据库(如图4所示)共包含379 314条运价信息,包括起运港、中转港、目的港、船公司、货代公司、发布日期、有效日期(有效期起和有效期止)和各箱型运价(4种箱型:20GP、40GP、40HC和45HQ)等13个属性字段;配置Web信息获取任务,从多个网站获取运价信息,各个网站运价数据的属性都不尽相同,样例见图2;在行业专家的协助下建立知识库和转换规则库,经过数据预处理之后,利用数字资源整合模型对这些数据实施抽取、转换,最后将数据存储在数据仓库中,整合后的数据仓库样例见图6。
  3.2 数字资源整合的效果
  将结构化数据、半结构化数据以及非结构化数据按照上述模型进行整合,作为集装箱运价指数编制的基础信息,指数编制系统根据实际业务情况执行数据清洗和运算之后,得出运价指数结果,如图7所示;指数分析系统从不同的维度和粒度进行数据挖掘,以支撑指数报告等其他服务。
  4 结 语
  在我国,数字资源整合研究较为关注医学、图书馆、档案和博物馆等领域[28],在物流领域,国外有学者探讨了在供应链中生产信息整合对企业发展的作用[29],而在针对航运运价指数领域中,大多数学者进行的是航运运价指数编制模型和应用层面的研究,很少涉及用于编制航运运价指数的基础信息来源和信息集成的研究。本文从大数据背景出发,面向集装箱运价指数编制的需要,设计数字资源整合模型,探讨其原理和实现技术,并进行了实证研究,结果说明将分散在各航运电商平台和系统上的运价通过数字资源整合作为集装箱运价指数编制的可行性,今后研究的重点在于进一步完善针对半结构和非结构化数据的集成模型和算法,以提高其准确度、自动化程度和集成效率。   参考文献
  [1]邢荣华,朱玉珍,韩依辰,等.面向高校利用者的数字资源整合系统设计[J].现代情报,2017,37(2):68-74.
  [2]马文峰.数字资源整合研究[J].中国图书馆学报,2002,28(4):63-66.
  [3]赵建平.数字信息资源整合方式比较研究[J].情报科学,2008,26(12):1787-1791.
  [4]毛玉萃.试论企业电子商务与企业内信息系统的整合[J].管理信息系统,2001,(5):43-45.
  [5]谢宝义.高校图书馆数字资源整合模式研究与实践——以石家庄铁道大学图书馆为例[J].图书馆建设,2011,(2):33-35.
  [6]张巧娜.海峡两岸高校图书馆数字资源整合的比较研究[J].图书情报工作,2012,56(19):43-47.
  [7]李红霞.图书馆馆藏数字资源整合方案研究[J].现代情报,2006,26(8):144-145.
  [8]赵荣.浅谈图书馆服务工作如何应对数字化阅读的挑战[J].图书馆工作与研究,2011,(7):99-101.
  [9]郝欣,刘英涛.基于本体集成的数字资源整合研究[J].图书馆学研究,2011,(20):55-59.
  [10]崔伟,徐恺英,王宁.基于知识链的数字资源整合研究[J].图书馆学研究,2010,(15):32-35.
  [11]袁村平.图书馆与出版企业数字资源共享影响因素分析[D].湘潭:湘潭大学,2013.
  [12]杨晨.基于Web Services的高职院校教务平台的设计与实现[D].成都:电子科技大学,2014.
  [13]邱均平,王菲菲.基于共现与耦合的馆藏文献资源深度聚合研究探析[J].中国图书馆学报,2013,39(3):25-33.
  [14]陈海敏.异构信息集成系统研究[J].情报科学,2008,(12):1902-1907.
  [15]JM Smith,PA Bernstein,U Dayal.Multibase:Integrating Heterogeneous Distributed Database Systems…-American Federation of Information Processing Societies:National Computer Conference,1981:487-499.
  [16]W H Inmon.Building the Data Warehouse.Boston:QED Technical Publishing Group,1992
  [17]谷巖,冯华.利用数据仓库技术解决异构数据库的集成问题[J].计算机应用与软件,2005,(6):24-26.
  [18]Wiederhold G.Mediators in the Architecture of Future Information Systems[J].IEEE Computer,1992,25(3):38-49.
  [19]D Florescu,A Levy,A Mendelzon.Database Techniques for the World Wide Web:A Survey[J].SIGMOD,1998.
  [20]陈跃国,王京春.数据集成综述[J].计算机科学,2004,(5):48-51.
  [21]周甫宾.基于EDI的集装箱运价指数生成与技术分析[J].中国航海,2006,(3):82-86.
  [22]Zhao Yifei,Zhang Dali,Tatsuo Yanagita.World Conference on Transport Research WCTR 2016:Container Liner Freight Index Based on Data from E-booking Platforms:Shanghai,2016:10-15.
  [23]付东方,赵一飞.集装箱运价指数数据源及算法分析[J].大连海事大学学报,2015,(3):87-92.
  [24]马大川,杨红平.信息资源的集成整合研究[J].中国图书馆学报,2004,(3):36-40.
  [25]刘平峰,章佩璐,张军,等.面向主题的Web信息融合模型[J].图书情报工作,2011,(8):40-43.
  [26]徐宝祥,叶培华.知识表示的方法研究[J].情报科学,2007,(5):690-694.
  [27]孟小峰.Web信息集成技术研究[J].计算机应用与软件,2003,(11):32-36,63.
  [28]罗书练,郑萍,陈志强.加强数字资源的整合 提供良好信息服务[J].医学信息:上旬刊,2005,18(8):940-941.
  [29]Devaraj S,Krajewski L,Wei J C.Impact of eBusiness Technologies on Operational Performance:The Role of Production Information Integration in the Supply Chain[J].Journal of Operations Management,2007,25(6):1199-1216.
  (责任编辑:孙国雷)
其他文献
〔摘要〕以IFLA会议及相关论文,我国的国家级、省部级课题及资助论文为研究对象,利用文献与网络调查方法,进行文献统计与分析以了解国内外图书馆、档案馆、博物馆(LAM)合作研究进展情况。分析发现,我国与国外在3馆合作研究方面存在起步晚、实践项目少、研究成果单一的差距,据此我国应从建立3馆统一的门户网站、实现技术上的统一以及建立专门的组织机构等方面加强合作力度。  〔关键词〕图书馆;档案馆;博物馆;L
〔摘 要〕厘清影响专利转化实施的因素是设计专利统计报表的理论依据和建立专利转化实施统计监测体系的基础,也是正确衡量中国专利转化实施现状的需要。本文结合已有文献对影响因素的理论分析和云南省有效专利的调查数据,利用定性和定量分析的方法构建影响因素评价体系,在充分征求专家调查意见的基础上确定各指标权重,为专利转化实施的评价提供参考。  〔关键词〕专利转化;专利实施;影响因素;指标体系  DOI:10.3
当人们不再忽视问题,社会一定会有所改变。  平等与人权是一个社会和国家文明进步的重要标识。随着经济的不断发展,人类完成了物质的原始积累,则会越来越注重精神需求,性别平等和种族平等作为这其中重要的一环,在过去的几年里不断被海内外的主流媒体所提及。从西方国家如火如荼的“#MeToo运动”到国内颁布的“反家暴法”,女性在社会中被习惯性忽视的现象似乎有所改善。然而,联合国妇女署2020年公布最新的全球数据
“海归”之路,从来不是单打独斗。  近年來,我国留学群体不断扩大,经济社会建设取得的可喜成果持续吸引着学有所成的毕业生们回国发展,教育部2020年12月的统计数据显示,2019年度各类留学回国人员总数为58.03万人,较上一年度增加6.09万人,增长11.73%。国际教育领域的人才良性流动生动地体现了“支持留学,鼓励回国,来去自由,发挥作用”的十六字方针,一代又一代“海归”追寻他们前辈的足迹,以自
这场天灾的背后,还有人为的因素。  寒潮天气在美国称不上稀奇。  由于美国特殊的地理状况,横跨北美洲的美国从南部佛罗里达州到北部毗邻加拿大的边境都是少有起伏的平原,这导致美国虽然拥有落基与阿巴拉契亚两大山脉,但却并不能阻止从北极南下的寒冷气流横穿全境。  据报道,截至2021年2月21日,美国反常的天气已经造成了南部76人死亡。千万人生活受到了严重影响。  这么严重的侵袭,可能还是美国历史上的第一
摘 要:[目的/意义]2020年初,我国全面展开了突发公共卫生事件新冠肺炎疫情的防控工作。疫情信息公开成为重中之重。[方法/过程]本文以公共需求为视角,以公共危机管理为理论基础,从新冠肺炎疫情信息公开的公共需求方面,分析了疫情信息公开的公共需求特点及其表现形式,从新冠肺炎信息公开的披露方面,详细调查了10个城市卫生健康委员会疫情信息公开情况。[结果/结论]基于公共需求的特点和表现,以公共需求的满足
〔摘 要〕[目的/意义]面向小微企业科技创新的竞争情报需求,为小微企业构建基于多资源整合、多机构联动、多信息共享的竞争情报服务体系。[方法/过程]本文从科技型小微企业竞争情报需求出发,充分利用高等学校的区域优势及学科优势,以高校图书馆为联动服务中枢,以大数据、互联网 “知识、技术、经济”溢出网络为支撑,构建由小微企业个体单元需求为主导,多方资源协作共享的竞争情报联动服务体系。[结果/结论]结合基于
〔摘 要〕学科服务的重要职责之一是培养高校图书馆读者的文献检索能力。但是不同于教与学的文献检索课,本文以学科服务的视角探讨高校图书馆读者文献检索技能的培养模式,借助于3个典型案例探索了面向专业课程需求群体、毕业论文需求群体和科研需求群体所采取的分层次培养文献检索技能的模式。为在学科服务中如何高效率地培养读者的文献检索技能提供了可借鉴的真实案例,并从效果调研和案例分析中探索今后的发展方向。  〔关键
〔摘 要〕基于IBAS E数据库的数字图书馆系统有独特的结构及特点为数字化信息的来源与提取技术和海量数 字信息的存贮和管理提供了可能IBASE非结构化数据库系统对数字图书馆信息资源建设提 供了有效解决方案  〔关键词〕IBASE;数字图书馆; 处理方案  〔中图分类号〕G250.76 〔文献标识码〕A 〔文章编 号〕1008-0821(2009)08-0081-03    Study on the
[摘要]本文以2000-2014年收录在CNKI(中国学术文献网络出版总库)核心期刊中信息权利领域的论文为分析对象,运用内容分析法,从年度论文数量、研究成果分布(关键词、作者、基金资助)、主要研究主题三方面切入,对国内信息权利研究的现状及研究成果进行了简要述评。  [关键词]信息权利;内容分析法;CNKI;述评  [中图分类号]G202  [文献标识码]A  [文章编号]1008-0821(201