Drupal数据采集在构建特色数字资源中的实践

来源 :现代图书情报技术 | 被引量 : 0次 | 上传用户：wyoo00oo

【摘要】

：

【目的】解决特色数据库建设过程中数据抓取困难、多类型数字资源难以整合等问题。【应用背景】特色资源信息生命短暂,陕西省已建特色库平台差异较大,支持RSS接口有限,数据格

【作者】

：

李丹闫晓弟魏青山

【机构】

：

西安交通大学图书馆,

【出处】

：

现代图书情报技术

【发表日期】

：

2015年Z1期

【关键词】

：

Drupal 源数据数据采集数据格式数据采集技术特色数据库建设 XPath 数据清洗网页资源平台

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

【目的】解决特色数据库建设过程中数据抓取困难、多类型数字资源难以整合等问题。【应用背景】特色资源信息生命短暂,陕西省已建特色库平台差异较大,支持RSS接口有限,数据格式复杂。【方法】利用Drupal Feeds,XPath Parser,Crawls,Image Grabber等Web数据采集技术,结合数据清洗、剔除手段,实现Web数据采集的系统化和专业化。【结果】对Feeds RSS采集,HTML/XML网页分析自动采集,特别是数据采集中需要针对不同特色资源修改规则及采集网页中流媒体等问题进行探讨。【结论】丰富陕西省特色数字资源平台的数据来源,部分解决数据采集困难、数据格式不规范、数据来源途径有限的问题。【Objective】 To solve the problems of data capture difficulty and integration of multiple types of digital resources in the process of characteristic database construction. Application background The life of featured resource information is short, and the platform of featured libraries built in Shaanxi Province is quite different. The support for RSS interface is limited and the data format is complicated. 【Method】 Web data collection technology, such as Drupal Feeds, XPath Parser, Crawls, Image Grabber and so on, combined with data cleaning and culling methods, was used to systematize and specialize web data collection. 【Result】 Feeds RSS was collected, and HTML / XML web page analysis was automatically collected. In particular, data mining needed to be modified for different characteristics of resources and streaming media in web pages. 【Conclusion】 Enriching the data source of Shaanxi characteristic digital resource platform partially solves the problems of difficult data collection, non-standard data format and limited sources of data sources.

其他文献

我们的学院多么美好

请下载后查看，本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.

期刊

些些电视纪录片一院中央民族学院护丝一好象尸过些海浪苗木

EVM simulation and analysis in digital transmitter

The error vector magnitude(EVM) is extensively applied as a metric for digital transmitter signal quality compliance in modern communication systems.This articl

期刊

transmitteramplifieroscillatordistortionsimplifynormalizedquadratureanalo

引导青年积极探索人生的意义——上海市农场局团委召开现场会推广前卫农场三队经验

最近,上海市农场局团委在前卫农场三队召开“让生活更有意义”专题教育现场会,推广这个团支部的经验。会上,团市委的同志宣读了团中央给三队团支部的信,并转赠了团中央给的

期刊

团委团支部前卫专题教育人生的意义一台国营农场中国青年报个人收入机械化程度

国家现行室内空气质量标准(摘录)

物质名称　最高允许浓度检测标准　甲醛 0 .0 8m g/ m3GB/ T 1612 7　氡 10 0 Bq/ m3(新建房 )2 0 0 Bq/ m3(已建房 )GB/ T 1614 6GB/ T 1614 6　二氧化碳 0 .10 % ( 2 0 0 0

期刊

空气质量标准最高允许浓度细菌总数可吸入颗粒物幅射

服务型政府视角的政务信息化融合测度研究

以服务型政府为视角,阐述了政务信息化融合的内涵;借鉴信息化融合理论及相关评价方法,描述和分析了政务信息化融合的表现特征;论述了政务信息化融合测度指标体系的构建及其原

期刊

政务信息化电子政务信息化融合政府视角测度指标体系综合评价法服务型政府层次分析法综合评价评价指标

留学生汉语阅读焦虑感研究

外语学习中的阅读焦虑感是与一般的外语学习焦虑感既有联系又相区别的一种特殊的焦虑情绪。本文通过对 3 0名欧美和 60名日韩留学生的调查 ,分析了他们各自的汉语阅读焦虑感

期刊

汉语阅读焦虑感日本学生外语学习焦虑教学对策韩国学生对外汉语教学韩国留学生认知基础学习过程

电算化质量会计系统设计

在质量会计理论和方法体系研究的基础上，针对质量会计业务量大、数据结构复杂的特点，进一步开发了利用计算机进行质量会计业务核算系统．该系统操作简单、功能齐全，为进行质量会计

期刊

质量会计业务核算质量成本会计系统会计电算化会计核算软件帐务处理电算化系统电算会计转帐凭证

浙江省召开6CDJ—250型高压静电栋梗机技术座谈会

浙江省农机局主持的《6CDJ—250型高压静电拣梗机》技术座谈会,于一九八○年十月六日在临安召开,参加会议的有高等院校,科研部门、精制茶厂,及省、市有关领导机关等二十四个

期刊

技术座谈会省农机局高压静电科研部门茶厂领导机关五十临安一九精制工艺

李春昱与中央地质调查所——纪念著名地质科学大师李春昱院士百年华诞

已故中国科学院学部委员(院士)、中国地质科学院地质研究所研究员李春昱先生是杰出的地质学家、大地构造学家。他是民国时期我国地质科学事业奠基阶段卓越的第二代领导人之

期刊

中央地质调查所李春昱著名地质学家地质系中国科学院学部百年华诞大地构造学李春显奠基阶段黄汲清

花兰叉热锻工艺优化

花兰叉热锻模具内裆部位磨损严重。当持续使用模具生产2000件左右时,锻件尺寸超差,更换模具影响生产。基于Archard磨损模型,通过分析锻件的金属流动规律,总结了模具磨损过快

期刊

热锻模具花兰叉热锻模具锻件尺寸制坯模具磨损模具寿命材料利用率模具生产

Drupal数据采集在构建特色数字资源中的实践

与本文相关的学术论文