零散有存档权PDF文件的采、编、检管理工具

来源 :中国现代教育装备·高教 | 被引量 : 0次 | 上传用户:lyaner
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:通过“电子文献网络结构技术”,来解决国内重点关注的“对开放存取数字全文资源即采、即编、即检管理系统”问题。实现了本地允许保存零散PDF文件的再标引,通过云计算技术实现了对文献题录的时时采集、时时编辑、时时检索。通过PubMed中PMID编号自动链接PDF,实现允许保存的零散PDF电子资源即采、即编、即检管理系统。
  关键词:PMID编号;自动链接PDF;自动更名;自动分类;采编检
  Scattered archival rights PDF collected, compiled, retrieved management tools
  Mao Yuansheng1, Wang Ning1, Chang Hong1, Tang Naijun1, Zheng Youhong2
  1.Tianjin medical university, Tianjin, 300070, China
  2.Beijing Weibosai technology limited company, Beijing, 100089, China
  Abstract: Applying the "electronic literature network architecture technology", to solve the problem "open access digital full-text resources collection, compiling and retrieving management system", which is the focus problem in domestic. It allowed re-indexing on local preservation of scattered PDF document, and realized collection at times, compiling at times, retrieving at times to literature titles by using cloud computing technology. Automatic connection PDF through PMID serial number in PubMed, that realized the permission preservation scattered PDF electronic resources collection, compiling, retrieving management system.
  Key words: PMID serial number; automatic link PDF; automatic renaming; automatic sorting; collection, compiling and retrieving
  1 研究背景
  对于零散的PDF文件进行保存在国内外都是一个难题,图书馆参考咨询部门对此又有强烈的需求。于是我们通过“电子文献网络结构技术”研究,将零散的PDF文件名通过云计算自动采集题录入库,形成PDF文件名对照表。再将PDF文件名按照PMID编号重新命名,将PMID编号重新命名的PDF文件重新入库,建立主关键字索引文件和搜索引擎,实现PDF文件名自动更名、自动分类、自动编辑、时时检索管理工具。
  2 项目介绍
  要想建立数字资源即采、即编、即检管理系统,首先要解决好知识产权问题。目前电子资源即采、即编、即检管理系统已经成为世界各国十分关注的问题。用户电子资源存档和知识产权问题成为研究的焦点[1]。近年来,许多国际出版社考虑到用户的核心利益,在保护知识产权前提下,允许图书馆在中心馆和专业馆进行不同方式的电子资源存档,作为特殊情况下馆藏使用[2]。特别值得注意的是,很多数据库厂商都授予国内单位数据存档权,在合同中标明在数据库发生故障无法使用时,或者合同到期订购关系终止时,购买单位可以启用电子存档数据。电子资源存档得到出版社的许可,是电子资源进行长期合法保存的关键[3]。
  2.1 目前出版社许可的电子资源存档方式
  第一种方式:允许用户购买电子资源停定以后,数据库厂商将电子数据库给用户安装在本地进行存档和长期使用,给用户安装所有购买过的数据并允许用户永久使用。
  第二种方式:购买电子资源后,数据库厂商提供给用户一套全文光盘进行存档,允许单台计算机上永久使用。
  第三种方式:允许用户购买电子资源后,在中心馆或专业馆由用户自己做电子馆藏。还可以提供给用户存档工具,存档数据在订购的数据库发生自然灾害时供给读者使用。
  第四种方式:允许用户保存开放获取(OA)电子资源。免费数据库允许用户作为馆藏永久使用。因此用户不仅具有对所购买的电子资源在IP范围内的访问权,还具有永久使用权。
  2.2 研发的基本条件和用途
  在尊重知识产权的前提下,首先在国际互联网上收集OA电子期刊全文,以及与全文相对应的题录。根据读者零散保存的PDF文件PMID编号,采集PubMed中的Summary题录入库,将文献PDF文件名按照PMID编号进行更名入库,再按照PMID作为主索引字段进行索引,最后在本地发布,提供本地检索查询使用。
  研发使用硬件环境:P2.8 G处理器,G内存,500G硬盘。
  软件运行环境:WindowsXP,.Net2.0以上,Office2003中的ACCESS数据库。
  通过对开放获取和有存档权的医学电子资源进行手工和自动即采、即编、即检管理系统机制的研究,通过医学网络文献结构和自动挖掘方法,以及云计算、自动更名、自动分类、自动发布等技术,进而实现采、编、检一条龙文献馆藏查询系统。
  数据使用:平时师生个人、参考咨询部门学习和科学研究;遇到不可抗拒的自然灾害及政治因素等特殊情况导致数字资源终端不能使用时使用;作为数字资源馆藏缴存和战略容灾储备。   3 项目实施
  3.1 技术开发思路
  由于该系统建设主要采集有存档权的OA医学电子期刊作为图书馆的馆藏,整体设计思路是教师在知道文章出处情况下在本地计算机上查找馆藏,因此以查找为主设计思路。目前采用WindowsXP平台,.NET软件,数据库采用Office Access 2003数据库。随着数据库数据量的增多,可以将数据导入到SQL,ORCL数据库进行编辑、发布使用。因此该系统适合个人以及大、中、小图书馆用来建设医学图书馆电子期刊馆藏使用。
  3.2 文献网络结构设计思路
  按照PubMed编号对采集的PDF文件名重命名,就可以将不同期刊的电子文档PDF文件命名统一化,用PMID编号作为数据库的唯一主关键字字段。通过云计算和PMID编号在PubMed数据库采集该篇文献的题录信息入库。这样就可以根据题录信息中的刊号、年、卷、期、页、作者、题名、摘要等字段查找文献。由于不同出版社数据库的PDF文件名组织形式各不相同,首先要解决PDF文件名组织形式统一问题,如何将各个出版社和数据库厂商PDF文件名组织形式统一化是解决问题的关键。
  为什么不采用DOI国际上对文件名统一编号的主关键字?因为国际文献编码例如DOI:10.1016/j.acra.2009.10.031是以数字串和字符串混合组成,更难记忆,而且DOI编号只对出版社提供,不对用户提供,要获得DOI编号还需要交费。老的文献还没有DOI编号,DOI编号不能覆盖所有的文献,因此没有采取DOI进行编号作为关键字。
  如何手工和自动对文件名进行更名?手工对文件更名:将零散下载的文献和文献传递的PDF文件在PubMed中查找到后,每一个PubMed文献都标注了PMID编号,因此很容易按照PMID重新给PDF命名。利用采集工具自动对PDF文件更名,可以利用采集的文献题录库自动给不同编号PDF更名为统一按照PMID编号的PDF文件。
  “PubMed中PMID编号自动链接到PDF全文”功能。图书馆大量开放存取文献如果没有人进行整理,全文文件则不能作为图书馆的馆藏。新的读者要索取同一个有存档权的全文文件,只有再发出索取同一个文件的全文传递请求,造成重复传递。而且互联网出口流量增加,需要重复花费文献传递费用,文献传递时间也很长。针对上述问题,在遵守知识产权保护法规的基础上,采用垂直搜索技术,将原始PDF文件的文件名转换PMID编号的PDF文件名,成功地实现了PubMed中PMID编号自动链接到PDF全文功能。
  3.3 技术研究路线
  第一步,采用手工方法将文献传递来的PDF文件通过Adobe Acrobat打开,在工具栏上选取[文本]工具,选定文章“题名”,将PDF的“题名”转换成文本文件“题名”,核对无误后,将文本文件“题名”复制到剪贴板。再打开“PubMed”,在输入框中粘贴“剪贴板”中的文章“题名”后,点击[GO]按钮,进行“题名”检索。检索到该篇文章,在题录中寻找如:PMID:17615536的编号,将PMID的编号“17615536”复制下来,将PDF的文件名更改为PMID编号的PDF文件名。
  第二步,将按PMID更名的PDF文件入库,进行索引倒排,生成按PMID编号PDF文件的搜索引擎。然后进行发布,读者就可以找到的PMID编号文献进行检索,直接下载文献传递过的全文文件,实现馆藏建设。
  第三步,考虑如何使用垂直搜索技术实现PubMed中PMID编号自动链接PDF全文功能。首先,分析了手工操作方法在PubMed中找到既有PMID:17615536的编号,又有PDF链接的页面。使用信息采集工具,按既有PMID:17615536的编号,又有PDF链接的页面进行配置共有字段的主键,将PMID:17615536,PDF文件名、文章题名、PDF链接地址链接成一个库。然后进行索引倒排,将PDF文件名用PMID编号成批替换更名后,再按照PMID字段进行索引倒排,生成新的数据库,从而实现PubMed中PMID编号自动链接PDF全文功能。
  第四步,读者需要全文传递时,首先在免费的
  (下转页)
  (上接页)
  PubMed中进行检索,检索到文章摘要中的PMID编号,将PMID编号输入到可以自动链接PDF全文的检索框中,只输入PMID编号就可以进行全文检索,为读者提供“立等可取”的全文文献提供服务。这个检索查询系统减少了互联网出口流量,节省了有存档权的全文传递的成本,实现了PDF全文本地化建设,增加了图书馆全文馆藏,提高了图书馆文献传递的速度和服务质量。
  4 结果讨论
  经天津大学、南开大学、天津高等教育文献信息中心、北京大学医学部、北京首都医科大学、中国人民解放军图书馆、中国医学科学院医学信息研究所、武汉大学图书馆、天津医科大学总医院、天津医科大学第二附属医院、天津市人民医院等单位测试或试用得到好评。2011年6月28日通过了天津市高新技术成果转化中心组织的科研成果专家鉴定会。
  该成果实现了本地允许保存零散的PDF文件再标引,通过云计算技术实现了对文献题录的时时采集、时时编辑、时时发布,从而达到了即采、即编、即用的理想目标。通过PubMed中PMID编号自动链接PDF,实现允许保存的零散PDF电子资源即采、即编、即检管理系统的馆藏建设。特别适合参考咨询部门保存、管理、查询零散的PDF全文,是一件具有实用价值的软件工具。
  5 未来发展
  该系统是单机版进而开发网络版文献整合管理工具,目前只适合PubMed收录的期刊进而扩大到OA期刊所有期刊,用同样方法就可以实现理、工、农、医全学科的本地PDF数据采、编、检。
  参考文献
  [1] 翟建雄,图书馆馆际互借和文献提供中的版权问题:美国的立法和司法判例介绍[J].法律文献信息与研究,2006(3):1-11.
  [2] 翟建雄,信息开放存取中的版权问题及图书馆的对策[J].法律文献信息与研究,2006(4):1-28.
  [3] 王少辉,数字馆藏长期保存中的版权问题研究[J].档案管理,2006(5):37-38.
其他文献
动画或游戏中的虚拟角色的路径规划与机器人路径规划不同,它除了需要在运动空间找出一条无碰撞路径之外,更重要的是要体现出虚拟角色的生物行为特性。以人工鱼(晓媛鱼)为对象,在其活动的虚拟海洋环境中对其进行路径规划:将人工鱼抽象为一个有限状态机,采用人工势场方法。为体现人工鱼的生物行为特性,引入基于视觉和嗅觉的模糊判断。经动画仿真,得到了满意的效果。
提起文艺复兴,大家最先想到的可能是著名画家达芬奇、米开朗基罗、拉斐尔,他们冲破黑暗中世纪的枷锁,带领人们迈进了人文主义的新时代。文艺复兴时期弘扬人文主义精神,提出以
县级种子公司的改革,必须以运行机制,分配制度、人事制度为切入点。公平竞争上岗,合理分流下岗人员,是改革成败的关键。未来种子行业竞争的焦点是科技和人才的竞争,依靠科技,加强联
近年来,我市性病发病率逐渐上升,为了解其发病特征,遂对全市1994~1999年性病发病情况进行了统计分析,现将结果报告如下.
由易学思维——无穷变易——蜕变——分形去认识艺术审美中合自然的内核,建立一种动态过程衡量机制。跳出“抽象概念”,从更广更科学的角度去观照艺术和美。
提出了一种基于网格和分形维数的聚类算法,它结合了网格聚类和分形聚类的优点,克服了传统网格聚类算法聚类质量降低的缺点,改进了分形聚类耗时较大的问题。此算法首先根据网格密度得到初始类别,再利用分形的思想,将未被划分的网格依次归类。实验结果证明,它能够发现任意形状且距离非邻近的聚类,且适用于海量、高维数据。
卫星网控在投入使用前必须对其进行严格的测试。根据领域工程思想提出了卫星网控通用仿真测试平台,实现卫星网控仿真测试软件的复用。通过应用证实,该平台提高了卫星网控仿真测试软件的生产率,有效保障了网控软件的成功研制。
抵欧以还,时与此邦硕彦,往还论艺,彼辈深诧中国画理六法论之精微,举以相质,口舌綦烦。制作之暇,往往札记若干条,漫无条理,聊为答客之需耳。今年初春,德国法兰克福中国学院(China-instit
艺术设计专业中的表现技法课程,是一门专业必修课程。研究了如何将表现技法课程设计得更加符合专业和社会的需求,如何使其在专业中发挥最大价值。
为了探讨熏蒸对种子发芽率有无影响,笔者在小麦种子整个贮藏期内,按试验设计定期抽取样品进行发芽试验,现将实验记录等资料整理成稿,仅供借鉴。