人工智能在图书馆特藏文献资源建设中的应用

来源 :新世纪图书馆 | 被引量 : 0次 | 上传用户:zhangyan18277
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要 我国每年出版图书50多万种,造成图书馆特藏文献资源建设工作面临信息过载的问题,基于人工智能的推荐系统可以有效缓解信息过载,解决特藏文献难发现、难收全的现实问题。本研究通过将深度学习技术融入推荐系统中,构建图书馆特藏文献需求模型,设计出特藏文献自动识别系统,通过介绍其工作流程与效果,为图书馆开发个性化、高性能的特藏文献推荐工具提供参考与借鉴。
  关键词 深度学习 特藏文献 推荐系统 人工智能
  分类号 G250
  DOI 10.16810/j.cnki.1672-514X.2021.05.008
  Artificial Intelligence Applies to Special Collections Acquisition of Library
  Xie Dengfeng, Li Liang, Song Xiangru
  Abstract In China, more than 500,000 books are published every year, which causes the problem of information overload in the construction of special collections. The artificial intelligence-based recommendation system can effectively alleviate the information overload and solve the practical problems of hard to find and collect special collections. This study integrates deep learning technology into the recommendation system, constructs the demand model of library’s special collection literature, designs the automatic recognition system of special collection literature, and introduces its workflow and effect, so as to provide reference for the library to develop personalized and high-performance special collection literature recommendation tools.Keywords Deep learning. Special collections. Recommendation system. Artificial intelligence.
  0 引言
  1957年,我国图书馆学的奠基人之一杜定友先生根据实践经验提出:“各馆藏书除供应一般读者的需要外,必须根据当地地理环境、建设需要、历史传统、藏书基础和读者的要求,做重点配备、重点发展。各馆应有若干专藏,每个专藏应配备专科研究员,为读者服务。”[1]在他的提倡下,高校图书馆越来越重视重点学科文献资源的建设,努力建设反映学科特色、结构完整的专题性的特色文献资源。美国研究型图书馆协会(Association of Research Libraries, ARL) 在《作为核心的特藏》报告中也指出:由于特藏(Special collections)的卓越特性,特藏的建设可以为研究型图书馆的发展提供丰富的机会,以实现其教学和科研任务[2]。在馆藏资源日益同质化的当下,特藏资源日益成为图书馆声誉、地位及核心竞争力的根本保障,建设特色鲜明的馆藏体系成为图书馆界的共识,加强特藏资源建设也成为图书馆资源建设的发展趋势。但文献数量迅猛增加带来了严重的“信息过载”问题,如何快速、有效地从纷繁复杂的信息中获取特藏文献信息成为了当前特藏文献资源建设的关键难题,利用人工智能技术提升特藏资源建设的必要性和重要性变得愈发突出。
  基于机器学习技术的推荐系统作为解决信息过载问题的有效方法,已经成为学术界关注的热点并得到了广泛应用。推荐系统本质上是从一堆看似杂乱无章的原始数据中,抽象出用户的兴趣特征,挖掘用户的偏好。因深度学习技术具有优秀的自动提取抽象特征的能力,所以将深度学习与推荐系统相结合已成为近年来推荐系统发展的一个新方向[3]。以学科为标准的特藏文献书目数据具有鲜明的属性特征,基于机器学习的人工智能技术可感知和理解这些特征数据,从而实现从海量文献信息中自动识别特藏文献。
  1 研究现状
  图书馆一直都是信息技术应用的先行者,对于信息技术的发展有着高度敏感性,持续关注人工智能技术在图书馆领域的应用。Smith在1976年对AI在图书馆信息检索系统中扮演的角色和潜在作用进行了调查[4]。Burger在1984年讨论了四种与信息检索系统相关的AI概念——模式识别、表示、问题解决、学习,并将其应用于自动化编目中的权限控制领域[5]。Watsein在1986年回顾了自然语言处理、专家系统、机器人和传感系统在图书馆编目、在线信息和推荐咨询中的使用和限制[6]。Teodorescu在1987年比较了AI的自然语言理解和信息检索范式的进展,并概述了AI在问答咨询系统中的适用性[7]。Fenly于1988年报告了美国国会图书馆使用专家系统技术在其职能部门,例如采购、编目和期刊控制中的应用[8]。Hjerppe等人在1985年和1989年分别探讨了专家系統辅助编目特别是选择入口上的作用和AACR2作为专家系统的知识库与编目的关系[9]。《2017新媒体联盟地平线报告:图书馆版》将人工智能技术列为4到5年内重点关注的技术之一[10],Gartner将其列为“十大战略技术”之首[11],吴建中认为其是影响图书馆发展的十大热点问题之一[12],李晨晖等认为其是“未来十年图书馆颠覆性技术”[13]。不过,当前学界对于人工智能与图书馆的研究呈现出同质化的态势,绝大多数研究局限于从宏观层面讨论技术的应用[14]。在应用上还处于探索期和实践期,更多使用了一些具有人工智能作用的设备,如ATM自助图书、智能书架、仓储式图书馆、自动传送设备等,也包括一些具有智能化的服务类机器人的应用[15]。   笔者通过中国知网以关键词“机器学习、人工智能”“资源建设、特藏资源”进行搭配组合式检索,搜索出的文献少之又少,可见当前机器学习或人工智能在图书馆文献资源建设领域的研究极为有限。因此,本研究将从涉海图书这一特藏文献中提取相关文献特征,利用由监督学习方法构建、可随特藏文献建设同步变化的自适应智能识别系统,实现从海量图书出版信息中人工智能识别涉海图书,对业界研究人工智能技术在文献资源建设中的应用具有借鉴意义。
  2 基于深度学习的推荐方法
  传统的推荐方法主要包括协同过滤、基于内容的推荐方法和混合推荐方法,其中协同过滤是利用用户与项目之间的交互信息为用户进行推荐,需要大量的评分记录,因此存在评分数据稀疏的问题以及新项目的冷启动问题;基于内容的推荐方法是利用用户已选择的项目来寻找其他类似属性的项目进行推荐,但是这种方法需要有效的特征提取。随着互联网中越来越多的数据能够被感知获取,包括图像、文本、标签在内的多源异构数据蕴含着丰富的用户行为信息及个性化需求信息,融合多源异构辅助信息的混合推荐方法因其能够缓解传统推荐系统中的数据稀疏和冷启动问题,而越来越受到重视[16]。
  近年来,深度学习在图像处理、自然语言理解和语音识别等领域取得了突破性进展,为推荐系统的研究带来了新的机遇。一方面,深度学习可通过学习一种深层次非线性网络结构,表征用户和项目相关的海量数据,具有强大的从样本中学习数据集本质特征的能力,能够获取用户和项目的深层次特征表;另一方面,深度学习通过从多源异构数据中进行自动特征学习,从而将不同数据映射到一个相同的隐空间,能够获得数据的统一表征[17]。基于深度学习的推荐系统研究的新进展,其越来越多地受到国际学术界和工业界的关注。ACM推荐系统年会(ACMRecSys)在2016年专门召开了第一届基于深度学习的推荐系统研究专题研讨会(DLRS’16),研讨会指出深度学习将是推荐系统的下一个重要方向,基于深度学习的推荐系统研究目前已经成为推荐系统领域的研究热点之一。
  深度学习包括有监督学习和无监督学习,其中有监督学习通过对数据的学习和训练,获得对应数据隐含规律的模型,对事实真相进行描述,并能够利用模型进行有效预测[18]。有监督学习是建立在人类先验的经验基础上,已经对事物进行一定的描述、概括、分类,让监督学习算法对数据进行训练和学习,获得可靠的描述模型。图书馆现有的数据,绝大部分为有标记数据,因此人工智能图书馆当前主要采用有监督学习技术[19]。特藏文献资源的识别就是基于已有馆藏特藏文献资源数据,并基于采访馆员工作经验构建特藏文献描述模型,从而实现特藏文献资源的自动识别。
  3 图书书目数据特点与涉海图书书目数据特征
  我国大陆图书在出版发行前就有CIP(Cataloguing In Publication)数据,是依据相关的国家标准《普通图书著录规则》(GBT 3792.2-2006)、《文献叙词标引规则》(GB/T 3860-1995)以及《中国图书馆图书分类法》和《汉语主题词表》对图书进行著录、分类标引、主题标引。数据项目包括书名与著作责任者项、版本项、出版项、丛书项、附注项、标准书号项、主题词、分类号等。图书发行后,各图书供应商、图书馆等机构都会编制各种图书书目数据,这些数据在结构上属于格式化数据,受控于中国机读目录(CNMARC)格式标准、《中国图书馆分类法》、《中国分类主题词表》等。这些书目数据原本就是满足机读要求的格式化数据,可以满足机器学习的需要,另外通过书目数据对图书的选题、基本内容做了基本描述,内容附注数据又进一步揭示图书的主要内容。特藏文献,尤其是以学科为标准的专题图书都有明显特征,并且集中体现在题名、提要、分类、主题词四个数据项目上。
  涉海图书的筛选一直采用人工识别的方式,通过人工逐条浏览中标图书供应商提供的征订书目数据,发现涉海信息后作为特藏文献予以标记,其本质是根据书目数据中的题名、分类、主题、内容等多维度、多源化的数据项进行综合评价和判断。机器完全可以通过学习掌握涉海图书特征,对上述数据项目进行自动识别和判断,通过机器学习特藏文献特征来辅助或代替人工处理海量新书数据具有技术、工作逻辑可行性。在新书出版种类巨大,采访馆员无法收集更无法处理完整、全面的出版信息的情况下,机器自动识别无疑具有巨大优势。
  为全面标记涉海图书特征,笔者十余年来分别对涉海古文献、民国时期涉海图书、2016年我国出版的涉海图书、中国海洋大学图书馆馆藏涉海图书等2万多种图书进行了分析,共整理出涉海图书中图分类号386个,其中,出现即可判定涉海图书的中图分类号103个,需要组配主题词、高频词才能识别涉海图书的中图分类号283个;涉海主题词2594个,其中,出现即可判定涉海图书的主题词1240个,需要组配高频词、分类号才能识别涉海图书的主题词1354个;涉海高频词471个。
  4 涉海图书识别系统的模型设计及模块
  涉海图书识别是一个明显的二分类任务,本研究选择将注意力机制引入模型中,更多地专注于提取文本序列中字与字之间的影响力,实现了基于BiLSTM-Attention的文本二分类命名实体识别模型,该模型由Embedding模块、BiLSTM模块及Self-Attention-CRF模块组成,其框架结构如图1所示。该模型首先对待分类的图书信息文本进行预处理,通过Embedding模块将经过分词处理后的输入文本表示成向量的形式,再将Embedding模塊对应的向量输入至BiLSTM模块中进行上下文特征的提取,然后将BiLSTM模块的输出输入至Attention模块中,最后得到涉海图书识别结果。
  
  
  4.1 Embedding与BiLSTM模块
  Embedding模块主要负责将输入的中文词语转换成向量的形式,每个词语对应的向量由预训练得到的词向量构成,中文词向量来源于词向量工具在中文语料库上的语言模型训练结果。BiLSTM模块的输入为Embedding模块的输出,使用双向LSTM结构提取输入文本的上下文特征,该模块由LSTM前向层、LSTM后向层和拼接层组成,其结构如图2所示。   [ 3 ]王俊淑,张国明,胡斌.基于深度学习的推荐算法研究综述[J].南京师范大学学报(工程技术版),2018,18(4):33-43.
  [ 4 ]
  SMITH L.Artificial intelligence in information retrieval systems[J].information Processing and Management.1976,12(3):189-222.
  [ 5 ]
  BURGER R H.Artificial intelligence and authority control[J].Library Resources and Technical Services,
  1984,28(4):337-45.
  [ 6 ]WATSTEIN S,KESSEIMAN M.In pursuit of artificial intelligence[J].Library Hi Tech News,1986(30):1-9.
  [ 7 ]
  TEODORRESCU I.Artificial intelligence and information
  retrieval[J].Canadian Library Journal,1987,44(1):29-32.
  [ 8 ]FENLY C,HARRIS H.Expert systems:concepts and applications[J].Advances in Library Information Technology,1988(1):44.
  [ 9 ]HIERPPE R,OlANDER B.Cataloging and expert systems:
  [10]AACR2 as a knowledge base[J].Journal of the American Society for Information Science,1989,40(1):27-44.
  [11]NMC Horizon Report (2017Library Edition)[EB/OL].[2018-07-12]. http://cdn.nmc.org/media/2017-nmc-horizon-report-library-EN.pdf.
  [12]
  PETTEY C. Gartner identifies the top 10 strategic technology trendsfor 2018[EB/OL].[2018-07-12].https://www.gartner.com/smarterwithgartner/gartner-top-10-strategic-technology-trends-for-2018/.
  [13]
  吳建中.再议图书馆发展的十个热门话题[J].中国图书馆学报,2017,43(4):4-17.
  [14]
  李晨晖,张兴旺,秦晓珠.图书馆未来的技术应用与发展:基于近五年Gartner《十大战略技术趋势》及相关报告的对比分析[J].图书与情报,2017(6):37-47.
  [15]黄晓斌,吴高.人工智能时代图书馆的发展机遇与变革趋势[J].图书与情报,2017(6):19-29.
  [16]傅云霞.人工智能在智慧图书馆建设中应用研究[J].图书馆工作与研究,2018(9):47-51,79.
  WANG H,WANG N,YEUNG D Y.Collaborative deep learning for recommender systems[C]Proceedings of the 21st ACMSIGKDD International Conference on Knowledge Discovery and Data Mining.Sydney,Australia,2015:1235-1244.
  [17]
  PENG Y,ZHU W,ZHAO Y,et al.Cross-media analysis
  and reasoning:Advances and directions. Frontiers of
  Information Technology & Electronic Engineering,2017,18
  (1):44-57.
  [18]MEHRYAR M, AFSHINf R, AMEET T. Foundations of machine learning [M].Cambridge City the MIT Press,2012:7.
  [19]王红,袁小舒,雷菊霞.人工智能:图书馆应用架构和服务模式的重塑[J].现代情报,2019,39(9):101-108.
  [20]初景利,段美珍.从智能图书馆到智慧图书馆[J].国家图书馆学刊,2019,28(1):3-9.
其他文献
混合性尿失禁是女性常见的疾病,严重影响患者的生活质量,但目前其发生机制尚不完全清楚,治疗方法也存在争议。本文通过探讨其发生机制及治疗方法,发现手术治疗效果较佳,主观
目的探究依泽麦布(Ezetimibe)对膀胱癌细胞增殖、迁移以及周期分布的影响及其可能机制。方法将膀胱癌细胞系T24和5637分别用不同浓度(0、5、10、20、40、60、80、100 mmol/L)
腹膜后血管瘤是原发性腹膜后肿瘤(primary retroperitoneal tumor,PRPT)中的一种良性肿瘤,临床上十分罕见,因腹膜后潜在间隙较大,患者早期几乎无临床表现,大部分病例术前很难
最近的几项研究报告认为肾功能降低程度达到安全线以下的肾细胞癌(renal cell carcinoma,RCC)患者,癌症特异性死亡率可能会升高,因此学者们甚至主张对那些潜在的高度恶性的肾
尿道狭窄是指尿道任何部位的机械性管腔异常狭小,使尿道内阻力增加而产生的排尿障碍性疾病。尿道成形手术被认为是最为有效的治疗方法,目前评价手术成功的客观指标包括尿流率
1病例报告患者男性,64岁,因“左侧腰腹部胀满不适1周”于2019年2月18日入院。身体消瘦,近10余年来体重无明显变化。既往体检发现左肾囊肿10余年,B超提示囊肿逐年增大。入院时
在国家创新发展过程中,科学研究、产业发展、政府决策越来越依赖于科学数据及对其分析的能力。在推动科学数据应用的过程中,加快开放和共享是核心问题,而加强科学数据共享意
摘 要 本文综合运用现象学胡塞尔时期与存在论时期的主要代表人物胡塞尔、海德格尔与梅洛·庞蒂的基本理论与方法,对图情领域的人、馆、信息、信息行为与过程、语言与历史进行现象学哲学的考察,批判了其形而上学的成分,总结得出图书馆学基础理论研究要坚持以实践为核心、主客交融、辩证统一的哲学精神,建立有别于传统哲学的现象学哲学观。  关键词 现象学 图书馆 人工语言 历史观  分类号 G250  DOI 10.
在文旅融合发展的大背景下,公共图书馆地方特色资源库迎来新的发展机遇,可以成为旅游文化资源,为旅游服务,特别是在特色旅游、主题旅游、研学等方面满足公众个性化旅游的需求
摘 要 基层图书馆内源发展是以人的需求为导向,用系统思维来提高基层图书馆效能的一种发展理念和发展模式,相较传统的要素投入模式,更强调发展的质量及发展过程中的社会和人文现象。基层图书馆内源发展的目标之一在于以较小的增量投入激活巨大的存量,使其能通過发展来表现自身的能动性。文章探讨了基层图书馆内源发展动力机制形成的现实基础与障碍,并提出了推进基层图书馆内源发展的策略,希望对促进我国基层图书馆的可持续发