一种基于Web页面的多媒体资源库

来源 :计算机光盘软件与应用 | 被引量 : 0次 | 上传用户:wyslymx2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:互联网的飞速发展,为广大用户提供了庞大的信息资源,但要从这么大的资源库中寻找到自己需要的内容却是非常难。本文提出一种利用搜集器来搜集互联网中的多媒体资源,并且从中提取有利于资源描述的文本信息,建立多媒体资源库,为师生提供检索服务。
  关键词:多媒体资源库;Web页面;信息提取
  中图分类号:TP311.52文献标识码:A文章编号:1007-9599 (2011) 04-0000-01
  Multimedia Resource Library Based on Web Page
  Cao Yuan,Li Haiyan
  (Blue Sky University,Nanchang330098,China)
  Abstract:The rapid development of the Internet,to provide customers with a huge information resources,but from such a large resource library to find the content it is very difficult.This paper presents a collection of devices used to collect the Internet,multimedia resources,and to extract the text is conducive to resource description information,a multimedia resource library for teachers and students to provide search services.
  Keywords:Multimedia resource library;Web page;Information extraction
  互联网的飞速发展,为广大用户提供了庞大的信息资源,但要从这么大的资源库中寻找到自己需要的内容却是非常难。用户经常会使用像Google、Baidu、Yahoo!搜索引擎来帮助寻找自己要的资源。但其超大规模的分布式数据源、异构的数据及信息的检索质量不高等问题造成用户很难找到真实要用的信息,使其无法直接为高校师生提供信息服务。为了解决这一问题,本文设计并开发了基于Web的多媒体资源库,为用户提供多媒体信息资源的检索服务。
  一、多媒休资源库相关技术
  (一)数据库技术:数据管理是现代计算机的一项重要应用,对数据进行分类、组织、编码、存储、检索和维护的利用。数据库技术为应用程序提供了更为标准和开放式的接口。
  (二)面向对象技术:面向对象技术对于复杂知识单元的结构表示,多媒体资源库的构件化集成、信息处理模块的整和等都是至关重要的。
  (三)网络技术:计算机网络将地理位置不同并具有独立功能的多台计算机系统通过通信设备和线路连接起来,以功能完善的网络软件实现网络资源共享的系统。
  (四)人工智能技术:人工智能从学习者的结构特征、知识的表示等方面来进一步培养学习都能从庞大的知识库从寻找到有价值的,值得学习的资料。
  二、基于Web页面多媒体资源库的设计
  本系统首先对Web中存在的多媒体资源的页面进行搜索,然后对搜索到的网页进行预处理与结构分析,再从网页中提取多媒体资源的相关文本,相关文本进行拼音及英文翻译转换、中文分词、关键词过滤提取等操作,最终形成对多媒体资源进行描述的信息库。
  (一)搜集多媒体资源网页。利用网络资源搜索器Baidu或Google等搜索与多媒体相关的Web页面,利用页面的标签等属性计算机内容相似度。这个过程中包括将HTML代码保存在一起,组建一个资源库,利用布尔模型决定搜索器的爬行主题和爬行方向,提高搜索引擎的准确率。 <br>  (二)分析多媒体资源网页和定位多媒体区域。获取charset的属性值,判断网页的编码语言和编码类型,例如从代码“<meta http-equiv="Content-Type" content="text/html;charset=gb2312"/>”中就可以得知该网页的编码代码为GB2312编码,而从代码“<meta http-equiv="Content-Type" content="text/html;charset=utf-8"/>”中可能得知该网页的编码代码为UTF-8编码。得知编码类型后将不同的编码类型统一转换成GB2312编码。VC的两个函数WideCharToMultiByte()和MultiByteToWideChar()就能将UTF-8编码转化成GB2312编码。接着定位多媒体区域,利用网页结构图判断多媒体资源的表格区域,将与资源描述相关的文本定位,尤其是那些导航文本对于资源的搜索非常重要。通过一定的算法将干扰的文本区域或干扰文本剔除,保留有利用价值的文本。 <br>  (三)提取多媒体资源相关文本信息。提取那些用于描述多媒体资源的文本信息。如网页重要标签“<title>……”之间的内容,网页头部关键词keywords和description,标记为的内容。这些都能高概括性区分不同网页,精度高。这种网页结构分析或区域分析能更有效地降低干扰,提高文本提取的精确度。大多数网站的页面都提供了多媒体资源导航,例如英语学习网站:英语之声>>听力训练>>动画听力>>字母训练。从导航文本上就可知道字母听力训练是关键字(四)入库文本信息。提取的相关文本信息,只是做了一个关键字的选择,还要将这些关键字入库到数据库,这部分工作就是信息入库工作。
  三、实验与分析
  利用多媒体资源搜集器对20个网站进行搜索试验,共搜索了250个页面,通过提取到的关键字来计算提取率和准确率两个硬性指标,来衡量文本提取的准确性。测试结果如下表所示:
  从表中可以看本系统对Web中多媒体资源的相关文本提取效果较好。但本系统是只是针对表格定位标签里的文本信息进行定位分析、存取,存在比较大的误差,造成少数没有使用表格定位的但由于部分网页没有使用表格来定位的网页里的多媒体资源信息没有被提取分析出来。
  四、结束语
  进行网络中多媒体资源的搜索及其相关文本的提取对描述网上多媒体资源的信息具有重要意义。将本文提出的方法与多媒体内容分析相结合,全面准确的提取网络中多媒体资源的有关信息,可提高多媒体资源的查准率和查全率,能够更有效的促进多媒体资源更好的利用,从而为高校师生提供更好的多媒体资源检索服务。
  参考文献:
  [1]韩旭,曹永存,王辉,林旺.构建基于Web的非物质文化遗产多媒体资源库[J].情报杂志,2009,28,6
  [2]张锦原.校园网多媒体资源库的建设[J].黑龙江科技信息,2009,23:58-58
  [3]安然,杨征,陈媛媛.校园多媒体教学资源库建设的思考[J].科技资讯,2009,18:201-201
  [作者简介]曹源(1974-),男,江西上饶人,本科,江西蓝天学院计算机教师,研究方向:计算机网络;李海艳(1982-),女,江西南昌人,本科,江西蓝天学院计算机教师,研究方向:计算机网络。
其他文献
摘要:本文以慈利县中医医院影像工作站工作实际,在分析现有不足基础上,提出PowerBuilder结合C++开发医院B超影像工作站的系统设计思路。  关键词:中医医院;B超影像;工作站;系统  中图分类号:TP311.52 文献标识码:A文章编号:1007-9599 (2011) 01-0000-02  PowerBuilder with C + + B-ultrasonic Develop Hos
对“互联网+”下企业集团所面临的整合风险与依赖风险及形成机制进行了分析,认为传统风险管理模式已经无法满足现阶段集团风险管理的实际需求,并提出了集成化风险管理模式,最后
建设"丝绸之路经济带"和"21世纪海上丝绸之路",是中国实施新一轮开放的重要战略。青岛地处"一带一路"延伸交汇处,具有扩大开放的独特优势。分析了青岛融入"一带一路"的优势和瓶颈因素
该文研究一种新的基于四面体反射镜的空间运动体光电定位方法及相应的光电检测系统.与John C.和Bonni J. A.提出的方法相比,用该方法使定位测量算法由15个方程的联立方程组简
该文研究了自行火炮在行进间发射时的行驶平顺性问题。用Kane方法建立了自行火炮行进间发射时的动力学方程,并编制了计算机软件,对某自行火炮在随机路面上工作行进间射击进行了
文章介绍了多媒体网络化自主学习的特点,从我国的大学英语教学现状出发,论证了多媒体网络教学环境中学生自主学习的I必要性,并且系统介绍了一些利用多媒体技术提高大学生英语自
为了适应信息技术、多媒体教学法与高校新课程方案的深层次整合,将计算机和网络两大信息主流元素引入教学已成为大势所趋。多媒体课件实现文字、音频、视频、图像等多种手段的
水利工程的质量监管与控制是一项长期的系统性工程,涉及的细节性的问题参透方方面面,在满足社会发展人们对于审美需求的同时,应该依靠科技的进步,提高工程的质量,最终以高效率、高
以京、津、冀地区普通高校大学生为研究对象,采用问卷调查法和统计分析法,探究其课外体育活动现状及影响身体素质状况的因素.研究表明:京津冀地区普通高校大学生对参与课外体
计算机和通讯网络的普及和发展从根本上改变了人类的生活方式与工作效率。但网络中还存在着不可避免的信息安全隐患,在网络广泛使用的今天,我们更应该了解网络安全,做好防范措施