基于主题图的多元资源整合模型研究

来源 :中国集体经济 | 被引量 : 0次 | 上传用户:kinter1113
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
   摘要:数字化、网络化、智能化等新起的信息技术驱动数字中国建设向纵深迈进,以数字媒介和人工智能为基础的新兴文化形态和知识生产体系正日见雏形,并展现出广阔的发展前景。文章提出一种基于主题图的多元资源整合模型,从资源收集到资源关联可视化,构建了基于主题图的多元资源组织模型,并以赛珍珠研究资源为具体案例展示,为其他领域整合多元模型提供参考。
   关键词:主题图;多元资源
   一、引言
   在全面推进我国数据强国和数字中国的建设过程中,互联网、物联网等技术普遍适用于社会各领域,引发了信息资源收集、分析、组织、运用模式的变革,驱动多元主体从多方视角、多个维度对信息资源展开多层次分析与应用。在此背景下,众多学者越来越关注各研究领域下分布在不同系统中且种类多样的资源合理转化与关联问题,并希望在此基础上实现资源关联可视化服务。本文以赛珍珠研究资源为例,旨在构建多元资源整合模型,探究各领域研究资源的组织管理模式,选取多来源、多种类的不同研究资源,通过主题图资源组织方式,揭示赛珍珠研究资源的语义内容主题结构,探寻多元资源整合方式。
   二、相关研究
   大数据环境下多元资源的多样性为各学科的研究提供了巨大空间。目前常见研究资源来源渠道有中国知网、百度学术、万方、网络资源等,来源渠道分散且单一,主要方法还是文献计量学。在多元资源整合方面,如将期刊文献和专利文本的整合、基金项目和数据的整合等,都为较成功的实践。但如何对于整合不同平台、不同维度、不同类型等的多元资源,进行主题发现与关联,从而实现更全面、深入的资源整合研究较少。
   主题图作为一种知识管理和信息导航的技术,在信息资源关联聚合的应用上引起了广泛的关注。Steve在《寻求全球知识交换点》(A Perspective on the Quest for Global Knowledge Interchange)的文章中详细描述了主题图的历史,在这之后,主题图的开发者在数据模型、TAO模型与XTM技术规范等文档中对主题图的结构要素、技术标准等做了详细介绍;主题图技术在引入我国后,艾丹祥、黄晓斌、秦铁辉等学者对主题图技术的核心概念、基本结构和功能做了详细介绍,赵金海等对开源主题图引擎TM4J技术工具做了分析,李清茂对开源主题图引擎Ontopia的工作机制做了详细分析;郭黎等利用主题图技术对多源地理空间数据做了有效关联和查询;王文宁等学者基于主题图技术构建了洪灾应急信息的关联场景模型;张云中基于主题图技术提出了数字档案的标注系统资源聚合研究。由此可见,运用主题图技术对于整合不同平台、不同维度、不同类型的多元资源具有可行性。
   三、多元资源整合主题图构建
   (一)构建方法
   构建一个成功的多元研究资源库是一项庞大的工程。在模型的设计前期,需要研究者设计模型的构建流程,对资源的种类和来源进行梳理,反复确认资源收集渠道,更新逐渐成熟的计算机技术,才有可能构建出较完善、让用户满意的知识资源共享库。
   从宏观上来看,主题图是一个多维度的空间模型。资源和主题分为上下两层。在资源层,可以上传信息资源,也可以加入动态链接,将网络资源和已有的资源放入资源层中,为多元资源的收集和存储提供了便利;在主题层,通过对资源的外部特征和语义特征进行描述,提取出主题词,从主题的角度建立关联关系,另外还可以构建独立的主题,既实现了资源之间的关联性,也可以描述资源的独立性。
   从微观来看,在主题图这个多维的主题空间中,主题层中有不同的主题,每个主题代表一个结点,分别指向不同的资源。两个主题结点之间的距离可以用资源的关联次数来表示。在主题间相互关联的过程中形成了一个巨大的立体网状网络,网络中有错综复杂的关系,通过关联关系的设定,系统地梳理了资源和主题间的关系,也挖掘了资源之间更大的潜在价值。
   (二)构建过程
   主题(Topic)、关联(Association)、资源出处(Occurrence)为主题图(TAO)的三个主要元素,对构建主题图模型起到了引领的作用,在进行合理设置前,首先要梳理它们的涵义与关系。T就是主题。主题可以是任何“事物”,无论是实体还是概念,它可以具有任何特征;Association 为关联的意思,主題在设置好后,需要描述多个主题间的关系,通常情况下,主题与主题间有多重关系来关联,并通过关联的次数实现主题间的聚合;Occurrence 就是资源实体,也称为资源出处,这就是主题图的资源层,功能是存储资源,将资源与主题相关联。主题和一个或多个与该主题相关的信息资源以某种关联关系相关联。
   本文依据主题图的基本组成要素(TAO)即主题(T)、关联(A)和资源实体(O),分析设计了基于主题图的赛珍珠研究资源关联聚合模型与构建过程,如图1。该模型由3个层次构成:
   领域研究资源层,该层主要目的是建立研究资源库,选择合理有效的资源集,反映领域研究资源的主题特点;基于领域多元研究资源的特点,可从几个方面开展:文献信息资源:包括期刊文献、电子图书、会议文献等;网络信息资源:利用搜索引擎得到的检索结果,包括文本、新闻、数据、图像、视频等多种类型资源; 专业数据库:包括书目数据库、文摘数据库与全文数据库等。研究领域专家:包括研究专家的私藏作品与研究资源。
   主题生成层,在本文主题图的主题层的设置中,需要依次从资源中提取主题、编辑主题和合并主题。考虑到在对某研究资源检索的过程中,大多数学者可通过研究资源的名称、作者、机构或者关键词字段进行检索,因此本文在一级主题的设置中,将研究学者、研究机构、研究资源设为一级主题,根据文本的外在特征和内在特征建立资源间的关联,如图2,包括资源的种类、日期、作者等,内在特征能够描述资源内容含义的一些特征,可用标题、摘要、关键词等表示。    功能层,主要实现的功能有研究资源导航、用户资源检索以及资源推荐、后期的资源库更新等功能。
   四、实例分析
   上文分析了多元研究资源整合的主题图模型,本部分以赛珍珠研究多元资源的为例,构建赛珍珠研究资源整合模型,实现资源主题关联可视化服务。
   (一)资源收集
   通过不同平台获取赛珍珠研究的资源,首先通过学术数据库平台CNKI中国知网收集当前赛珍珠研究的期刊文献,另外通过读秀学术搜索平台补充赛珍珠研究的电子图书,最后,为获取时事新闻与相关报道,选择人民日报网等平台作为数据来源,使用NLPIR大数据语义智能系统自动收集资源,三类平台分别以“赛珍珠”为主题进行检索与收集,时间统一为近十年,检索后对不相关结果的资源,如“赛珍珠铁观音”、“八马茶叶”等进行删减和合并,最终得到的检索结果为期刊899条、电子图书67本、新闻报道40条。
   (二)主题确定
   对资源深层次分析,需要进一步的对外在特征和内在特征分析,根据设置的一级主题:研究学者库,共抽取到期刊文献作者1185名,图书作者57名(含主编),新闻报道记者18名;研究机构库收集到赛珍珠研究领域期刊366种、电子图书出版机构43个和新闻报道出版机构22个。研究主题库的收集由期刊文献的电子图书和新闻报道的主题词组成。在本研究中,由于期刊文献的作者已为文献标引了关键词,可直接使用关键词反映文献的主题;本文直接从899条题录中抽取关键词,剔除重复不相关的关键词,如“研究”、“学报”等,合并具有相同含义的关键词,共得到关键词2911个;电子图书的编辑也相应为图书标引了主题词,但主题词过于宽泛,故电子图书保留标题、关键词(主题词)、摘要(对于部分缺少摘要电子图书选取目录部分)三部分内容,利用平台所提供功能自动下载其相关信息;新闻报道由于篇幅较少,缺少关键词、主题词和摘要等标引内容,保留标题、作者(平台)、文章内容三部分内容。采用中科院开发的NLPIR自然语言处理系统。具体的操作步骤为:首先对每一本图书的标题、摘要和每一篇新闻报道的新闻汉语分词,继而去除停用词,如“的”、“一个”、“和”、“与”等,提取高频词与特征词,根据分词和频次统计结果,同时人工辅助,每篇选取3~5个高频关键词作为该篇文档的关键词,剔除重复,最终得到新闻报道57个关键词,电子图书72个关键词。
   (三)主题关联
   在构建赛珍珠研究资源主题图中,根据资源的外在特征和内在语义特征可以定义三种主要的关联类型,即出版/发表关联、著作关联、语义关联,三种特征用赛珍珠研究资源(R)、题名(T)、作者(A)、作者机构(O)、出版物/发表网址(P)、关键词(K)等元素来体现,三种关联关系在一定程度上揭示了资源间的关系。
   (四)整合实现
   在完成主题关联后,需要对赛珍珠研究资源进行关联聚合。目前主题图组件中OKS知识组件在各领域中应用比较广泛,主要用于创建、维护和管理主题图,其核心组件包括主题图引擎、主题图编辑框架、导航框架、可视化框架。
   依据前文描述的对赛珍珠研究资源的主题及关联分析,在Ontology编辑器中完成的主题类型定义,如图3所示,将赛珍珠研究资源库的主题设置为赛珍珠研究资源主题库、赛珍珠研究资源库、赛珍珠研究学者库、赛珍珠研究机构库。
   前文分析了赛珍珠研究资源的外在特征和语义特征,根据此特征又分析了不同的关系,主要设置了以下相关关系,分别为相关作者、相关学术图书、相关新闻报道、相关期刊文献和相关机构。
   在主题和關联关系设置好后,可对其可视化。主题图的可视化采用知识图谱的方式来展现主题之间的关联和网络关系,用户不需要在网页中查询,而是直接在新的窗口进行查看,如图4和图5分别展示了赛珍珠研究学者和资源的关联。在赛珍珠研究领域范围内,不同种类、不同主题的资源通过相同的特征或其他关系互相关联在一起,利用主题图技术不仅识别这些关联,导航知识,还可以识别潜在的关系,如学者的潜在合作关系、资源间的主题联系等。
   五、经验启示
   本文以赛珍珠研究多元资源为例,利用主题图工具Ontopia构建赛珍珠研究主题图,构建主题图之后利用其可视化工具实现了赛珍珠研究多元主题图的可视化,验证了主题图技术应用于多元研究资源的可行性。
   利用主题图技术将多元资源整合,用于描述多元资源之间的关联关系,其不仅有导航功能,还提供了语义检索和语义挖掘的等功能,便于用户深层次挖掘资源的主题,既集成了传统信息组织方式的优势,在主题表达和关联的层次也做了突破,进一步的实现了资源间的共享与语义挖掘,实现了资源的集成性、关联性和语义化需求。
   参考文献:
   [1]张玲玲,张宇娥,杜丽.基于期刊文献与专利文献的科学技术互关联研究方法对比分析[J].情报杂志,2017,36(07):116-121.
   [2]刘博文,白如江,周彦廷,王效岳.基金项目数据和论文数据融合视角下科学研究前沿主题识别——以碳纳米管领域为例[J].数据分析与知识发现,2019,3(08):114-122.
   [3]艾丹祥,张玉峰.利用主题图建立概念知识库[J].图书情报知识,2003(02):48-50+53.
   [4]黄晓斌.网络主题图的原理及应用[J].情报理论与实践,2004(03):305-307.
   [5]秦铁辉,郭延吉,孙琳.信息时代的“全球定位系统”——主题地图[J].江西图书馆学刊,2005(01):1-3+7.
   [6]赵金海,满红芳,张啸宇.开源主题图搜索引擎(TM4J)及结构研究[J].信息系统工程,2010(11):51-53.
   [7]李清茂.开源主题图Ontopia引擎工作机制研究[J].西昌学院学报(自然科学版),2010,24(02):40-44.
   [8]郭黎,姜晶莉,李豪,王云阁.基于主题图的多源地理空间数据关联关系表达[J].地理信息世界,2019,26(06):1-5+13.
   [9]王文宁,刘涛,杜萍,邵达青,杨国林.面向洪灾全生命周期的应急场景模型[J].测绘科学,2018,43(12):44-49.
   [10]张云中,冯双双.基于主题图的数字档案标注系统资源聚合研究[J].图书情报工作,2018,62(14):116-124.
   [11]刘丹. 主题图在图书馆特色数据库构建中的应用研究[D].南京:南京农业大学,2008.
   (作者单位:江苏大学科技信息研究所)
其他文献
摘要:互联网已经成为人们日常生活中的一部分,网络营销也应运而生,作为传统老字号企业,如何在变幻无常的营销环境下继续生存并发展,是许多老字号企业要考虑的问题。文章以镇江恒顺醋业为例,分析老字号企业应如何转型升级。   关键词:互联网营销;老字号企业;转型策略   互联网已成为大众生活中必不可少的普及性网络,层出不穷的信息和日渐增长的用户为互联网的发展提供了广阔的空间,由此诞生了互联网营销。通过了
期刊
摘要:根据现行国际标准,第十四师昆玉市尚未步入老龄化社会,且养老服务机构近些年不断增加,但也存在养老服务业发展缓慢、养老服务专业人才匮乏、养老资源闲置浪费严重等不足和问题,主要是受地理位置、人口、文化、经济发展等因素的影响。建议通过完善养老基础设施、引进专业人才、加强兵地联合发展等方式,推动师市养老服务业更好地发展。   关键词:昆玉市;养老服务业;对策建议   一、养老服务业发展现状  
期刊
摘要:数据是银行业金融机构的重要资产,是商业银行进行战略决策、风险管理、业务创新拓展的基础,而高质量的数据为支撑数据应用释放更大效能。如何高效管理数据资产,提升数据质量,最大限度挖掘数据价值,是当前需要解决的问题。文章立足贵阳银行实际,以金融机构监管政策为导向,对标同行业金融机构数据治理开展情况,充分剖析贵阳银行数据治理问题,提出一种具有贵阳银行特色的数据治理体系建设方案,推动银行业金融机构高质量
期刊
摘要:在社会资本的参与养老服务体系建设的背景下,公办养老机构在此大背景下该如何发展成为社会关注的问题。文章以Y市养老机构为研究对象,发现当前公办养老机构发展障碍主要存在于在职能定位、基础设施建设、服务内容以及监督主体四个方面。为实现公办养老机构健康可持续发展,公办养老机构在今后发展中应在发挥“兜底性”作用的基础之上,进一步实现硬件设施智能化、服务内容层次化、监督主体多元化,推动自身服务功能转型升级
期刊
摘要:缺水是甘肃省河西地区的基本区情和水情,全面分析甘肃山丹祁连山区水资源现状,积极探讨区域水资源保护及合理开发利用的有效途径,对于促进县域经济社会可持续发展意义重大。   关键词:祁连山;生态环境;水资源;保护   “有水是绿洲,无水变沙漠,水多盐碱化”是甘肃河西地区的基本水情。甘肃省山丹县地处河西走廊中部,祁连山中段北麓,这里山岭陟峻、河床深切、植被稀疏、生态环境脆弱,由于自然及人畜活动频
期刊
摘要:财务监督是国有企业监管机制中的重点,关系到国有资产管理体制改革成败与否。文章以SGX集团为例分析了国有企业财务监督体制中存在的问题,并提出了完善国有集团企业财务监督体制提升内部控制的方法。  关键词:国有企业;财务监督;问题;思考  作为国民经济的主体,国有企业担负着国有资产保值增值责任,要想在竞争日益激烈的市场经济中占有一席之地,加强企业财务监管力度,提升内部控制,是国有企业持续健康发展的
期刊
摘要:在自由竞争市场条件下,对外贸易与产业结构升级有密切的关联,然而,我国的对外贸易的增长是否促进了产业结构的升级,还有待通过实证检验来考察,文章利用省际面板数据,就对外贸易对我国产业结构升级的效应进行实证检验。实证检验表明:进口贸易对促进我国产业结构升级(工业化)的作用在统计上不显著,出口对促进我国产业结构升级的作用在统计上显著,但与内需相比其作用相当有限。   关键词:对外贸易;产业结构升级
期刊
摘要:我国股市IPO高抑价问题一直备受关注。文章选取2014~2018年上证A股IPO公司为样本,运用OLS方法,比较不同杠杆率对IPO抑价的影响。研究发现,经营杠杆与IPO抑价率显著正相关,但财务杠杆、联合杠杆和资产负债率与IPO抑价率之间的关系并不显著。说明降低经营杠杆是解决IPO高抑价问题的有效方法之一。   关键词:IPO抑价;经营杠杆;财务杠杆;联合杠杆;资产负债率   一、引言  
期刊
摘要:文章从年龄异质性、性别异质性、任期异质性、学历异质性等四个方面进行分析了企业高管异质性对核心竞争力的影响,结果表明,高管任期异质性与核心竞争力呈正相关,学历异质性与核心竞争力呈负相关,适当降低高管团队学历异质性,提高其任期异质性,有助于提升企业核心竞争力。   关键词:高管异质性;核心竞争力;信息决策理论   一、引言   如何提高企业在时代浪潮中的竞争力,众多管理学者提出了自己的见解
期刊
摘要:文章以多喜爱公司为例展开分析,对其进行股权质押融资的风险以及化解途径进行研究。首先,分析了多喜爱公司大股东股权质押融资的状况、风险类型,介绍了多喜爱公司股权质押的相关情况,对股权质押的情况进行了数据收集和分析。其次,从企业和中小股东、质权人以及出质人三个角度进行了风险分析。最后,在对已有股权质押现状和风险分析的基础上,根据暴露出来的问题提出建议。   关键词:民营上市公司;股权质押;融资;
期刊