VFP技术在网页数据采集中的应用

来源 :计算机光盘软件与应用 | 被引量 : 0次 | 上传用户:lylh0628
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:本文阐述了基于VFP技术的网页数据采集系统,针对高校数字化资源建设的需求现状,提出解决方案,介绍了一个基于VFP技术的网页数据采集爬虫的一种工作流程和爬行算法,从链接和网页内容的分析和提取进行爬行控制,给出了具体实施的核心程序。经过证明,能够高效的完成网页数据采集,是一种经济、实用、稳定和高效的网页数据采集方案。
  关键词:VFP;数据采集;高校数字资源建设
  中图分类号:TP311.52
  随着信息技术对高校教育发展的变革,数字化资源建设在高校学习资源建设,构建学习型组织中扮演着重要角色。数字资源建设是满足现代化教学所需的一项重要教学基础资源,是学校、教师和学生进行学习,交流,分享,创新的重要原动力。各高校都把数字化资源建设当作重点工作开展。然而不少高校面临着数字资源建设经费不足,除了购置外部资源外,同时也要内部开发一些数字资源。对于数字资源的建设,各高校的数字资源建设有共性需求,也有个性的需求,并非外部采购能够解决。在这样的前提下,笔者尝试运用Visual FoxPro(以下简称VFP)技术构建可采集网页数据的系统,用以采集无版权问题的在线学习资源,将不同来源的学习资源汇聚于同一数据库,来构建主题数字资源库。
  1 高校数字化资源采集需要VFP技术
  1.1 满足基础服务需求的角度选型
  从提供基础服务角度看,选用何种技术进行开发首先是从需求出发,是否能满足实际工作需要,系统是否能运行稳定、高效。而不仅仅是追求先进性。并非最先进的就是最能满足需要的。笔者进行的数据采集只是数字资源建设前期的数据整理阶段的阶段性的工具,在时间节点范围能能够满足高校对数据的抓取工作。因此,在需求明确导向前提下,用最经济的手段来实现基础服务的稳定和高效运行是最合理的。VFP兼有开发工具和数据库两方面特征,能够做到与操作与数据的无缝衔接,在前期的数据采集与整理上完全能够满足用户需求。
  1.2 存量用户与技术衍生性
  VFP数据库在过去十年中在高校的普及应用率较高,不少教学服务部门的管理系统都是基于VFP开发的,如不少高校的教务系统,学工系统都是基于VFP开发等。因此,高校中的VFP存量用户较多,在新系统建设中,首先要考虑的系统对接的兼容性,后续增加的系统最好能和之前的系统能够无缝对接。而且,由于VFP的简单易学,在系统使用和维护中,不少老师也逐渐摸索、学习,逐渐掌握了VFP的基础开发技能。因此,VFP来开发数据采集系统是一个可以被应用环境接受和用户认可的工具。
  1.3 VFP自身的技术优势
  VFP是开发工具同时其本身也是数据库。VFP数据库发展到现在已经相当成熟,VFP系统小巧,相比Oracle等数据库,其不会占用太多的存储空间。相比其他数据库,VFP的应用程序开发的效率较高,相比一些开发语言,VFP本身强大的查询功能。所以VFP是集开发和数据库的综合体,简单易学,操作灵活。同时,VFP互操作性和对网络支持性较强。
  2 网页数据采集系统设计
  2.1 VFP技术介绍
  VFP是Microsoft公司推出的数据库开发软件,提供多种可视化编程工具,最突出的是面向对象编程。支持结构化查询语言(SQL)命令和函数。由于其函数丰富、灵活方便、问世较早,在国内一段时期广为流行。目前最新的版本是9.0。时至今日,由于其稳定高效、易学易用,仍有大批高校将其作为小型数据库使用,不少网络教学管理系统前台软件也选用VFP开发。
  2.2 系统设计目标
  我们将VFP开发的网页数据采集系统应用于学校数字化资源建设子项目——开源版权的学习视频内容的采集,具体来说,是针对国外多所名校提供的开源版权视频源网址进行分析和数据爬取,最终将开源版权的文字和视频数据提取、索引并保存入学校的资源库。
  2.3 系统功能结构
  VFP开发的网页数据采集系统采用了模块化的设计,它由一些核部件和插件模块构成。核心部件可以配置,系统部件由管理控制台、抓取顺序控制器、中央控制器、流控制处理器、多线程控制组成。管理控制台允许操作者进行参数设置和任务管理。抓取顺序控制器控制爬取活动的排序和相关属性。抓取任务通过排序后将任务信息传递给中央控制器进行初始化。中央控制器吞吐队列的URL信息和完成的URL信息,并将任务指令传递给采集工作的核心工作区——流控制处理器。核流控制处理器的任务处理是呈流式运作的,包括预读、提取和写入三个部分。流控制处理器的工作是多线程了,保证了整个采集的高效率。
  在采集的核心工作区——在流控制处理器中,工作的流程是这样的:首先在接到中心控制器传送来的队列URL后,开始预读,预读主要是做一些预处理工作,对处理进行延迟和重新处理。接着,进行提取工作,提取主要是获得http资源,进行ip转换,发出http头请求和接收响应,进而抽取目标HTML的标签。最后进行写入,写入的工作是存储爬取日志,返回爬取到的内容和抽取特性,过滤并作写存储的动作。这一流程完成后,流控制处理器会提交完成的URL给中央控制器,做最后的维护。(见图1)
  图1 系统功能图
  3 系统实现
  3.1 程序运行的硬件环境
  操作系统为Microsoft Windows XP或更高,内存为1G或更高,硬盘占用约230MB,数据爬取采用4MB ADSL宽带。
  3.2 核心程序节录
  3.3 实验结论
  我们将VFP开发的网页数据采集系统应用于学校数字化资源建设子项目——开源版权的学习视频内容的采集,针对国外多所名校提供的开源版权视频源网址进行分析和数据爬取,并测试VFP开发的网页数据采集系统的性能,为后续的改进提供测试。我们确立四个指标,从数据采集的正确率、召回率、覆盖率和程序效率四个方面进行测试。正确率是指VFP开发的网页数据采集系统能否正确的提取URL,正确率越高,爬取的效果越好;召回率是指程序爬虫探测到的数据与能够爬取回来的数据的比值,召回率越高,爬虫的效果越好。覆盖率是指对指定网站采集的覆盖率,覆盖率要全;程序的效率是说VFP开发的网页数据采集系统采集的速度和稳定性。经过全天24小时无故障,不间断的运行,累计采集网页数据300多万页。数据采集的正确率、召回率、覆盖率和程序效率均得到理想的效果。
  4 结束语
  本文阐述了一个基于VFP技术的网页数据采集爬虫的一种工作流程和爬行算法,从链接和网页内容的分析和提取进行爬行控制,给出了具体实施的核心程序,测试结果比较满意。基于VFP技术的网页数据采集系统本身虽然属于轻量级,但针对高校数字化资源建设的需求现状,本文提出解决方案经过证明,能够高效的完成网页数据采集,是一种经济、实用、稳定和高效的网页数据采集方案。其对高校的数字化资源建设起重要作用。但是本系统的性能仍需提高,尤其在URL的优先权选择上需要进一步改进。
  参考文献:
  [1]张敏,孙敏.基于Heritrix限定爬虫的设计与实现[J].计算机应用与软件,2013,30(4):33-35.
  [2]王永国,张士江,谢倩.基于Visual FoxPro环境ACCESS数据库操作的实现[J].计算机技术与发展,2011,21(1):95-99.
  [3]孙庚,冯艳红,于红,史鹏辉.一种基于Heritrix的网络定题爬虫算法——以渔业信息网络为例[J].软件导刊,2010,9(5):47-49.
  [4]王映,于满泉,李盛韬,王斌,余智华.JavaScript引擎在动态网页采集技术中的应用[J].计算机应用,2004,24(2):33-36.
  [5]马爱芳,仲少云.基于VFP的资料室图书管理系统的设计[J].现代情报,2004,(3):104-108.
  作者简介:林振洲(1978.4-),男,江苏宿迁人,硕士研究生,工程师,研究方向:教务信息化、实验教学。
  作者单位:南京财经大学经济管理实验教学中心,南京 210023
其他文献
摘 要:随着计算机技术的不断发展,以及三维建模在各个领域的研究与应用,三维建模技术在建模方法、建模对象等方面发生了很大的变化。从最初费时费力的基于几何的手动建模,发展到运用基于图像的建模与绘制等多种方法,对比较复杂的人脸、肢体等进行三维建模。利用三维建模技术精确地描绘现实事物以实现三维物体的真实再现,进而为用户创造一个身临其境、形象逼真的环境。本文主要介绍了三维建模技术的发展、两种建模技术(Sol
期刊
摘 要:《C语言程序设计》是计算机专业一门重要的专业基础课。然而,对于基础较差的高职学生来说,学习难度大,学习兴趣难以培养。 “自主、合作、探究” 的学习方式是课程改革的目标,为了适应课改要求,小组合作学习作为一种新的学习方式应时而生。本文通过分析建立学习小组的优势及合作学习中应注意的事项,体现学习小组在教学中的作用:增强学习信心,培养学习兴趣,在互帮互学中取长补短、共同提高,使学生感受到学习的快
期刊
摘 要:本文以对计算机基础教学状况的调查为基础,对参与式课堂教学方法及其效果进行了研究。参与式教学模式是提高高校课堂教学有效性的重要途径,确立学生的主体地位,注重能力的培养,应重视让学生全程、全方位参与,综合运用多种方式对学生考评。调查表明,参与式课堂教学方法对于活跃课堂气氛、提高教学的针对性与实效性具有非常重要的作用,同时也存在需要改进之处。  关键词:参与式教学;网络自主学习平台;计算机基础;
期刊
摘要:视图和存储过程是SQLSERVER重要的数据库对象。在进销存管理信息系统开发中应用视图和存储过程技术能收到提高所开发系统的安全性、提高执行效率、方便代码管理等效果。笔者就如何在.NET环境中开发通用进销存管理系统,以业绩提成模块为例结合应用视图和存储过程技术提出自己的设想。  关键词:存储过程;视图;进销存系统;开发;应用  中图分类号:TP311 文献标识码:A 文章编号:1007-959
期刊
摘要:随着我国政府部门信息化建设的发展,对于业务数据处理的要求也不断提高。在此背景下,本文提出了一套基于J2EE平台架构的工商综合业务系统构建方案,分别对系统体系架构、系统应用功能设计进行了研究,从而实现工商行政管理各个业务部门数据信息的实时共享和统一管理,解决“信息孤岛”的实际问题,切实提高工商行政管理的工作效率。  关键词:J2EE平台;工商综合业务系统;总体设计  中图分类号:TP311.5
期刊
摘要:本论文中,分析移动IPv6技术在无线局域网的应用。移动IPv6是指对IPv6无线网络中移动节点动作的管理,然而,一个移动节点只有当切换过程完成后才能在新的链接节点上接收IP数据包,因此,许多移动IPv6的应用目的是降低切换延迟和减少数据包的丢失。无缝连接要求用户和应用程序不出现数据包的丢失或任何明显的通信中断。它不仅仅对于数据传输延迟具有重要意义,同时也对tcp连接有着重要作用,因为它对数据
期刊
摘要:在自主学习网络平台加入定制的Lucene全文搜索引擎,实现了针对各种类型教育资源的全文索引,检索功能。通过在网络平台上的应用测试,证明了在自主学习网络平台上构建一个全文检索引擎是成功的,可以对自主学习平台站内网页中各种教学资源进行全文检索。  关键词:LUCENE工具;搜索引擎  中图分类号:TP311.5 文献标识码:A 文章编号:1007-9599 (2013) 01-0191-02
期刊
摘要:在计算机迅速普及和计算机网络飞速发展的形势下,高职院校要依托区域经济,突出办学特色,计算机网络技术专业要以就业为导向,以岗位需求为依据,调整人才培养方案,培养实践能力突出、具有创新精神和创造能力的高端技能型专门人才。  关键词:高职高专;计算机网络技术专业;人才培养模式;高端技能型  中图分类号:TP391.9文献标识码:A文章编号:1007-9599 (2013) 06-0000-02  
期刊
摘要:本文主要研究的是Photoshop时间轴动画,通过本文的学习,可使初学Photoshop的朋友快速的掌握Photoshop动画制作基本功能,以及在Photoshop中如何使用时间轴功能编辑GIF动画的基本技巧。  关键词:网幅广告;Banner;Photoshop;时间轴动画  中图分类号:TP317.4文献标识码:A文章编号:1007-9599 (2013) 06-0000-02  Ban
期刊
摘要:建设政府网站是创建透明型政府的必要措施,是打造服务型政府的关键环节,是营造民主型政府的重要手段。尤其是在经济开发区这类特殊的政府单位,政府网站的建设更是突出了特殊经济政策及建设管理模式作为网站主要功能定位,既符合我省重点抓工业建设,提高就业率的基本要求,也符合向综合型城市的转变的省情。  关键词:政府网站;功能定位;招商引资;项目建设  中图分类号:TP315文献标识码:A文章编号:1007
期刊