论文部分内容阅读
摘要:基础教育网络资源存在着资源分散建设与管理、使用率不高等问题。本文研究分析了云服务对基础教育网络资源的管理优势,依托云服务,提出基础教育网络资源挖掘策略,进而实现搜索引擎和缓存系统,有效地解决了广州市基础教育网络资源利用率低的问题。
关键词:网络资源;搜索引擎;缓存
中图分类号:G443 文献标识码:A 论文编号:1674-2117(2015)07-0073-04
● 引言
基础教育网络资源建设是实现基础教育信息化的重要环节,也是建设基础教育公共服务体系的重要内容。近年来,国家各级教育部门投入了大量人力、物力和财力开展基础教育网络资源的建设,在资源的种类、内容、数量和质量等方面均取得了显著的发展,形成了海量的网络资源。用户能否快速、准确查找到所需的资源,对资源的利用率有较大的影响。因此,资源提供者应该对挖掘策略进行探讨。
云计算具有超大规模的存储和计算能力,资源和结构具有动态伸缩性,并且通过虚拟化技术和庞大的资源池按需提供服务,这些特点非常适合在网络环境下存储和挖掘快速增长的网络资源。本研究在云服务支持的环境下,采用搜索引擎挖掘和缓存挖掘策略,实现对基础教育网络资源的挖掘,可以使用户从海量资源中快速获取所需的网络资源,从而提高资源的利用率。
● 问题的提出
广州市现有12个区,基础教育阶段中小学校超过2000所,在校学生近200万人,教职工约15万人。为满足广大师生学习和工作的需要,引领教育发展的方向,广州教育信息化建设始终走在全国的前沿。从2002年开始建设广州教育科研网,铺设光纤总长度约25000公里,接入单位近2000家,联网电脑数在30万台以上,覆盖城乡各级各类学校,成为目前国内规模最大的基础教育光纤城域网。在完善硬件建设的同时,广州注重教育网络资源的建设,从2004年启动“教育e时代”工程开始,市教育信息中心先后购买或建设了多种类型的教育资源。各区也结合自身的优势,探索建设具有区域特色的资源库。详见表1。
到目前为止,广州市、区两级教育部门积累的教育网络资源超过100T。形成了共建共享、内容丰富、形式多样的教育信息资源体系。随着资源总量的增大和类型的增多,随之产生了非结构化、异构等问题,导致资源的查找、索引比较困难,优质资源淹没在海量资源中,造成网络资源使用率低。如何利用挖掘技术有效地提高资源的获取速度,从而提高资源使用率呢?
● 云服务支持的基础教育网络资源挖掘策略
基础教育网络资源包括素材类教学资源,如文本、图形/图像、音视频等媒体素材,以及集成型教学资源,如课件、研究性学习专题、网络课程等。具有内容丰富、数量庞大、增长迅速、覆盖面广等特点。因格式和种类繁多,采用传统数据挖掘方法对此类资源进行挖掘的效果不佳。广州市基础教育网络资源挖掘策略是在云计算环境下,采用搜索引擎和Web缓存两种挖掘策略,来为广州市教育科研网内部用户查找教育资源提供服务。
1.广州市教育搜索引擎
广州市教育搜索引擎是在参考国内外其他学者研究的基础上,经过实践探索自主研发基于NUTCH实现的全网检索引擎。在教育网络资源挖掘检索方面,该引擎首次采用行业搜索引擎和“垂直”搜索引擎技术,依据自主用途排位的排序算法,通过爬虫和分词关键技术实现对网络资源的挖掘,并对中文分词做个性化处理。其机理图如图1所示。
2.缓存挖掘策略
缓存技术具有减少网络带宽消耗、降低服务器压力、减少网络延迟等特点。在广州教育科研网出口网关处部署代理缓存服务器,可以充分利用教科网内带宽充足、运行稳定的优势,针对基础教育网络资源采取缓存挖掘策略,以实现对资源的监控、重定向和缓存。缓存技术策略不仅作为教科网内部用户与网内资源服务器之间的桥梁,也是用户与外网资源服务器之间的桥梁。其部署结构图如图2所示。
● 云服务支持的基础教育网络资源挖掘的实现
1.教育网络资源搜索引擎挖掘策略的实现
研究采用云服务下的搜索引擎为工具,以广州市、佛山市、中山市的网络学习资源为研究对象,依据以下八部分关键技术来实现,其实现过程分析如下。
(1)教育网络资源网络地址集合分析
广州市基础教育网络资源的地址集合由广州市年度教育信息化调查获取的网络地址、广佛同城化教育信息化专项建设时佛山市提交的网络资源地址、中山市教育网络资源地址三部分组成。搜集整理的网络地址集合如表2所示。搜索引擎机器人以搜集的这三部分网络资源网址为入口,理论上,通过超链接的方式,能链接到绝大部分网页。
(2)集合地址内容及状态更新操作
利用搜索引擎inject操作,调用搜索引擎的核心包crawl对上述教育网络资源地址集合库进行网络地址状态的检查、更新和分析,其主要的操作有:①对每个网址进行格式化和过滤,消除非法的网络地址,设定每个网址的状态,按照一定的方法进行初始化分值;②合并消除重复的网址;③将网址的状态、分值存入crawldb数据库,与原数据重复部分需更新。通过本步骤的操作,将上述教育网络资源网址整理出如表3所示。
(3)创建抓取列表并生成对应目录
本步骤实现创建抓取网址的列表,并以时间为名存放在segments目录下。其操作实现分为:①从上述crawldb数据库中取出网址并进行过滤;②对网址进行排序,通过网址、链接数和hash宣发综合进行降序排序;③将排列列表写入segments目录中。至此,教育搜索引擎基本完成了网址内容抓取的所有准备工作。
(4)页面内容抓取
页面内容抓取功能是将网址打开后的具体内容抓取出来,存放在对应的segment目录下。其过程分为:①按照segments目录下的抓取列表执行抓取动作;②抓取过程中页面中的其他网址可能改变,此时更新crawldb数据库中的网址;③为提高抓取速度,抓取程序启动多线程;④抓取操作过程中调用解析程序解释抓回来的数据。通过网络资源库网址页面的内容抓取,至此将所有目标资源库的内容已经抓取到广州市基础教育网络资源搜索引擎库中。
关键词:网络资源;搜索引擎;缓存
中图分类号:G443 文献标识码:A 论文编号:1674-2117(2015)07-0073-04
● 引言
基础教育网络资源建设是实现基础教育信息化的重要环节,也是建设基础教育公共服务体系的重要内容。近年来,国家各级教育部门投入了大量人力、物力和财力开展基础教育网络资源的建设,在资源的种类、内容、数量和质量等方面均取得了显著的发展,形成了海量的网络资源。用户能否快速、准确查找到所需的资源,对资源的利用率有较大的影响。因此,资源提供者应该对挖掘策略进行探讨。
云计算具有超大规模的存储和计算能力,资源和结构具有动态伸缩性,并且通过虚拟化技术和庞大的资源池按需提供服务,这些特点非常适合在网络环境下存储和挖掘快速增长的网络资源。本研究在云服务支持的环境下,采用搜索引擎挖掘和缓存挖掘策略,实现对基础教育网络资源的挖掘,可以使用户从海量资源中快速获取所需的网络资源,从而提高资源的利用率。
● 问题的提出
广州市现有12个区,基础教育阶段中小学校超过2000所,在校学生近200万人,教职工约15万人。为满足广大师生学习和工作的需要,引领教育发展的方向,广州教育信息化建设始终走在全国的前沿。从2002年开始建设广州教育科研网,铺设光纤总长度约25000公里,接入单位近2000家,联网电脑数在30万台以上,覆盖城乡各级各类学校,成为目前国内规模最大的基础教育光纤城域网。在完善硬件建设的同时,广州注重教育网络资源的建设,从2004年启动“教育e时代”工程开始,市教育信息中心先后购买或建设了多种类型的教育资源。各区也结合自身的优势,探索建设具有区域特色的资源库。详见表1。
到目前为止,广州市、区两级教育部门积累的教育网络资源超过100T。形成了共建共享、内容丰富、形式多样的教育信息资源体系。随着资源总量的增大和类型的增多,随之产生了非结构化、异构等问题,导致资源的查找、索引比较困难,优质资源淹没在海量资源中,造成网络资源使用率低。如何利用挖掘技术有效地提高资源的获取速度,从而提高资源使用率呢?
● 云服务支持的基础教育网络资源挖掘策略
基础教育网络资源包括素材类教学资源,如文本、图形/图像、音视频等媒体素材,以及集成型教学资源,如课件、研究性学习专题、网络课程等。具有内容丰富、数量庞大、增长迅速、覆盖面广等特点。因格式和种类繁多,采用传统数据挖掘方法对此类资源进行挖掘的效果不佳。广州市基础教育网络资源挖掘策略是在云计算环境下,采用搜索引擎和Web缓存两种挖掘策略,来为广州市教育科研网内部用户查找教育资源提供服务。
1.广州市教育搜索引擎
广州市教育搜索引擎是在参考国内外其他学者研究的基础上,经过实践探索自主研发基于NUTCH实现的全网检索引擎。在教育网络资源挖掘检索方面,该引擎首次采用行业搜索引擎和“垂直”搜索引擎技术,依据自主用途排位的排序算法,通过爬虫和分词关键技术实现对网络资源的挖掘,并对中文分词做个性化处理。其机理图如图1所示。
2.缓存挖掘策略
缓存技术具有减少网络带宽消耗、降低服务器压力、减少网络延迟等特点。在广州教育科研网出口网关处部署代理缓存服务器,可以充分利用教科网内带宽充足、运行稳定的优势,针对基础教育网络资源采取缓存挖掘策略,以实现对资源的监控、重定向和缓存。缓存技术策略不仅作为教科网内部用户与网内资源服务器之间的桥梁,也是用户与外网资源服务器之间的桥梁。其部署结构图如图2所示。
● 云服务支持的基础教育网络资源挖掘的实现
1.教育网络资源搜索引擎挖掘策略的实现
研究采用云服务下的搜索引擎为工具,以广州市、佛山市、中山市的网络学习资源为研究对象,依据以下八部分关键技术来实现,其实现过程分析如下。
(1)教育网络资源网络地址集合分析
广州市基础教育网络资源的地址集合由广州市年度教育信息化调查获取的网络地址、广佛同城化教育信息化专项建设时佛山市提交的网络资源地址、中山市教育网络资源地址三部分组成。搜集整理的网络地址集合如表2所示。搜索引擎机器人以搜集的这三部分网络资源网址为入口,理论上,通过超链接的方式,能链接到绝大部分网页。
(2)集合地址内容及状态更新操作
利用搜索引擎inject操作,调用搜索引擎的核心包crawl对上述教育网络资源地址集合库进行网络地址状态的检查、更新和分析,其主要的操作有:①对每个网址进行格式化和过滤,消除非法的网络地址,设定每个网址的状态,按照一定的方法进行初始化分值;②合并消除重复的网址;③将网址的状态、分值存入crawldb数据库,与原数据重复部分需更新。通过本步骤的操作,将上述教育网络资源网址整理出如表3所示。
(3)创建抓取列表并生成对应目录
本步骤实现创建抓取网址的列表,并以时间为名存放在segments目录下。其操作实现分为:①从上述crawldb数据库中取出网址并进行过滤;②对网址进行排序,通过网址、链接数和hash宣发综合进行降序排序;③将排列列表写入segments目录中。至此,教育搜索引擎基本完成了网址内容抓取的所有准备工作。
(4)页面内容抓取
页面内容抓取功能是将网址打开后的具体内容抓取出来,存放在对应的segment目录下。其过程分为:①按照segments目录下的抓取列表执行抓取动作;②抓取过程中页面中的其他网址可能改变,此时更新crawldb数据库中的网址;③为提高抓取速度,抓取程序启动多线程;④抓取操作过程中调用解析程序解释抓回来的数据。通过网络资源库网址页面的内容抓取,至此将所有目标资源库的内容已经抓取到广州市基础教育网络资源搜索引擎库中。