基于书目信息抓取的农家书屋阅读推荐研究

来源 :企业文化 | 被引量 : 0次 | 上传用户：xiaofengwuxuan123

【摘要】

：

【作者】

：

高亮

【出处】

：

企业文化

【发表日期】

：

2013年5期

【关键词】

：

书目信息农家书屋阅读推荐

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　摘要：该文将书目信息抓取的思想融合到农家书屋数字化的阅读平台中，设计了书目信息抓取软件的模型，节约了网站建设的开发成本。根据不同书目的阅读点击率，提供了按照书目热度排名的大众化推荐，改善了农民读者的阅读感受，为将来的个性化服务提供一定的数据基础。
　　关键词：书目信息农家书屋阅读推荐
　　1引言
　　随着农家书屋数字服务平台的书目资源更新，图书数量急剧增长，农民读者对书目信息的要求越来越高。数字农家书屋网站建设的经费和人力有限，如何在条件受限的情况下，降低建站成本，提升开发效率，保证图书资源的动态更新，又能合理的为农民读者作出阅读推荐，其中的书目信息抓取技术就成为了农家书屋数字化建设中的关键共性技术。当前互联网的专业图书网站都有着丰富的书目信息，如亚马逊和当当网，除了提供书目的书名、作者、出版社外，还附有封面、内容简介、目录、价格、ISBN等详细的书目信息。这些书目信息对于农民读者借阅和网站开发者来说，都有着重要的参考价值。国内有部分OPAC系统通过豆瓣网的开放接口，远程调用该类接口后，可将在豆瓣网的书目信息显示在本系统中。但是这类远程调用存在明显的缺陷，需要在网络可用的情况下进行远程调用，调用需申请开通，访问速率和频率受限，信息抓取渠道单一，只是简单的信息扩展，仅限于信息的调用，缺乏对这些书目信息的再加工，整合利用。数字农家书屋针对这类问题设计了基于书目信息抓取的阅读推荐，通过调用当当网和豆瓣网的书目信息，并保存到农家书屋数字化平台的本地数据库中，支持在线和离线的浏览方式阅读数字图书，并根据各类别图书的点击率提供了阅读热度排行榜，同时缓解了书目信息的信息过载，成为了农民读者的阅读向导，提升了用户的体验满意度。
　　2系统设计
　　2.1系統结构设计
　　书目信息抓取软件采取分层和模块化的设计方式，层次化分为数据层和业务逻辑层。其中，数据层包括参数管理器和数据存取器两个模块；业务逻辑层包括网页抓取器和抓取管理器两个模块。各个模块的功能实现如下：
　　1）参数管理器，完成对参数文件中的系统参数进行读写操作，包括数据库连接参数、抓取线程、超时设置、网页抓取器等设置。
　　2）数据存取器，对数据库中抓取到书目信息进行读写操作，并对数据库连接池进行管理。
　　3）网页抓取器，对网页进行抓取、解析、提取书目信息。因不同网站的URL和结构不同，为了对不同网站进行书目信息的抓取，需设计一个公共的网页抓取器接口，再对不同网站设计各自的类，根据参数文件来定义不同的网站类，调用各自的类进行书目信息的抓取。
　　4）抓取管理器，生成和分配书目的抓取ID序列，并进行多线程管理。调用网页抓取器来抓取网页的书目信息，保存数据库。可以通过参数文件对抓取的网站范围、书目ID范围、线程数等进行设置管理。
　　2.2系统数据设计
　　书目信息抓取软件主要包括书目、作者、图片和附注四张表。书目用来保存网站来源、题名、出版社等信息；作者主要保存作者信息；图片保存封面、插图等图片类文件；附注保存内容简介、目录、摘要等信息。
　　3系统的功能实现和测试
　　3.1网页抓取器的实现
　　1）网页URL的获取，从专业图书网站动态抓取书目信息，这类网站一般都提供有分类浏览的功能，但其只能显示有限的书目信息条数，常规方法难以获取完整的URL。其实网页的URL有着固定格式，存有详细书目信息的网页也是如此，是由书目的ID生成。这类ID值为一连串的整数值，因此，抓取网页中的URL可以从最小的图书ID算起，代替URL中的ID值，取得抓取的初始ID值，再循环递增加一，确定最大图书ID，在算出的ID范围内进行抓取。
　　2）书目信息在解析网页中的位置确定。想要提取出书目信息，就要确定这类信息在网页中的位置。位置特征值主要从四个方面确定：书目信息在网页中的固定位移和长度；书目信息的前后是否有固定内容；HTML元素的属性值；书目信息是否有固定的表达值。
　　3）先设计一个公共接口，该接口再定义两个方法，分别实现抓取器类和生成书目对象。当当网和豆瓣网通过各自的抓取器类来实现。主要采用Neko HTML开发包设计抓取程序。该开发包就是一个简单的HTML扫描器和标签补偿器，将HTML文档解析为XML格式的DOM树，再使用XML接口从DOM树中提取相应的数据。
　　3.2抓取管理器的实现
　　1）读取设置参数，包括线程数、超时设置、书目ID范围、抓取器类。
　　2）计算书目抓取ID范围，生成起至的书目ID值。
　　3）根据抓取器类命名网页抓取对象。
　　4）初始化线程队列，按照书目ID序列依次抓取，将成功抓取的信息保存到数据库中，对于超时的抓取则放弃，重新获取该书目网页的URL再次抓取，最终完成全部的书目信息抓取。
　　5）任务结束则释放资源。也可在多台PC上运行该软件。设置不同抓取网站，抓取书目类别和ID范围，进行多线程抓取，节约抓取时间，提高效率，也不会造成抓取冲突。
　　3.3无用图片识别
　　在抓取书目信息是，如果没有相应的图书封面，大多以一张风格一样的图片说明替代，但这类图片大量保存在本地，浪费抓取时间和磁盘空间，识别这类图片，避免下载和保存是很必要的。可以通过文件名进行判断，或者通过MD5码判断。
　　3.4系统运行测试
　　书目信息抓取软件通过一般商务PC运行测试后，发现多线程的运行方式可以显著提高整体的抓取速度，但线程设置过高时，抓取效率则下降。且抓取速度受网络质量影响较大，高峰期的抓取速率明显低于空闲期。
　　3.5阅读热度排名
　　书目信息抓取软件将相应的数据保存到本地数据库后，读者通过对不同图书的点击阅读会形成热度不同的书目列表。将这些书目列表按照各个类别和总的阅读排行榜展现给农民读者，从而形成书目阅读的流行度排名，这类排名属于热度排名，相对于个性化推荐而言，这类推荐则属于大众化推荐，为读者提供了一个阅读向导的作用。从数字农家书屋的分阶段性建设来看，这类大众化推荐的存在是必要的，但随着移动互联网的发展，未来在农家书屋数字化平台上推出个性化的阅读推荐系统是一个趋势。

其他文献

改善农村金融服务促进“三农”经济快速发展探析

【摘要】在我国金融体系当中，农村金融发挥着重要的作用，同样也在为“三农”提供服务过程中，其价值逐渐突显出来。基于此，文章将农村金融服务作为重点研究对象，阐述其在促进“三农”经济快速发展中的具体应用，希望有所帮助。　　【关键词】农村金融服务改善 “三农” 经济发展促进作用　　现阶段，农村人口比重极高，所以“三农”问题也备受关注。全面改善农村金融服务，已经成为新时期农村经济发展的关键环节。通过构建

期刊

农村金融服务改善“三农”经济发展促进作用

新时期新阶段如何加强和改进企业思想政治工作

摘要：思想政治工作做好经济工作和其它一切工作的生命线，是企业发展的根本。随着经济体制、经济结构的变化，经济发展、社会生活方式、社会组织形式、就业岗位和就业方式日趋多样化，企业职工的活动方式、交往方式、思维方式和价值取向都发生了很大的变化，给企业思想政治工作带来了许多新的问题。新时期新阶段，面对新情况、新问题，如何积极探索企业思想政治工作的新路子，是我们亟待认真研究和加强改进的问题。　　关键词：新时

期刊

新时期加强改进企业思想政治工作

病原菌临床检验在呼吸道感染患者治疗中的应用价值探析

目的:讨论病原菌临床检验在呼吸道感染患者治疗中的应用价值,根据临床研究结果:对呼吸道感染患者的临床用药提供统计依据.方法:选取2018年7月-2019年6月来我院就诊的97例呼吸

期刊

病原菌呼吸道感染临床治疗应用价值

数学及信息技术在金融领域的应用浅析

【摘要】本文用通俗易懂的语言简要回顾了数学及信息技术在金融领域的应用，分析了集中应用数学及信息技术的金融科技的发展变化和作用，深入探讨了数学及信息技术在我国金融领域应用的不足，对下一步如何扩大应用提出了针对性的建议。　　【关键词】数学信息技术金融领域　　一、数学及信息技术的重要地位　　数学是一门研究数量关系与空间形式（即“数”与“形”）的学科，是探寻世界本质最有力的工具。正如毕达哥拉斯所说，上帝使

期刊

研究接受心理做好思想工作

当前，在企业进行干部人事、劳动用工和工资分配制度改革过程中，由于涉及广大职工的切身利益，将在职工思想上激起涟漪、心理上产生震荡，导致企业的内部环境显得有所紧张，这给企业思想政治工作带来了挑战。在新形势下，思想政治工作只有找准方位、改进方法、加大力度，才能收到成效。目前企业开展思想政治工作感到最头疼的是职工不接受，往往是说而不服，服而不信，信而不行，没有接受，谈何教育，何来效果？为此，笔者认为，做好

期刊

接受心理企业思想政治工作职工思想开展思想政治工作切身利益内部环境劳动用工加大力度干部人事改进方法改革过程分配制度头疼教育工资方位

加强和改进国有企业思想政治工作的思考

国有企业在党和国家乃至全面建设小康社会中发挥着举足轻重的重要作用。党的十八大作出了文化强国的重大战略调整，对做好新形势下的思想政治工作提出了新任务、新要求。加强和改进国有企业思想政治工作，是贯彻落实党的十八大精神的内在要求，是凝聚思想共识、促进和谐稳定的迫切需要，也是坚持科学发展、实现富民强国的重要保证，任何时候、任何情况下都只能加强、不能削弱。　　一、国有企业思想政治工作的现状和特点　　近年来，

期刊

企业思想政治工作国有企业企业发展战略结合战略调整小康社会文化强国生产要素科学发展基础工程和谐稳定富民强国发展资源党和国家八大精神新

浅谈会计环境

摘要：会计与会计环境息息相关，受到了政治、经济、文化、法律等因素的影响。尤其是在我国经济体制改革的深入进行的关键时候，会计环境也在无时无刻的发生着巨大的变化，就需要分析会计环境，并寻找各种可能的策略。　　关键词：会计环境经济　　环境相信很多人并不陌生，有广泛的主题与内涵，任何事物的产生与发展都离不开环境的影响，地球、自然、生态环境与人类生存更是倍受人们的关注，但这多半是自然科学的论题。会计与

期刊

会计环境经济

论新时期如何做好思想政治工作

摘要：本文通过实例阐述如何做好新时期思想政治工作。　　关键词：新时期做好思想政治工作　　思想政治工作是以人为对象、帮助人们确立正确的立场、观点、方法，提高人们认识世界和改造世界的能力，动员人们自觉地为实现当前和长远的目标而努力奋斗的工作。思想政治工作的重要意义在于对人们思想政治改造和有效的激励，提高人们的思想觉悟、调动人们工做积极性。下面，就两个方面来探讨一下在新时期新背景新形势下，如何做好思

期刊

新时期做好思想政治工作

艾灸神阙穴在预防阴道分娩产后出血中的疗效体会

目的:讨论艾灸神阙穴在预防阴道分娩产后出血中的疗效,根据统计分析结果为艾灸神阙穴提供临床数据,以支持预防阴道分娩产后出血的临床治疗工作.方法:选取2018年7月-2019年6月

期刊

艾灸神阙穴产妇阴道出血临床疗效

金融引领与“一带一路”

【摘要】随着我国社会经济的快速发展，习近平总书也相继在近几年提出了新的发展目标，包括12年的中华民族伟大复兴中国梦，13年的一带一路（丝绸之路经济带和21世纪海上丝绸之路的简称）战略，有效的为我国提供了有利的“走出去”的空间，并通过良好的策略来更好的实现中国梦。文章就主要以“一带一路”的建设路径进行分析，并发挥金融引领作用，更好的促进“一带一路”战略目标的有效实现，进而更好的推动我国社会经济稳定发

期刊

金融引领“一带一路”

基于书目信息抓取的农家书屋阅读推荐研究

与本文相关的学术论文