论文部分内容阅读
随着教育信息化的进一步发展,教育资源在提高教学质量、充分发挥信息化教育的优势等方面发挥着越来越大的作用;教育资源建设,作为教育技术学的一个重要研究领域,成为教育信息化的基础。目前,网络和多媒体技术的迅速发展,使得网络上的多媒体资源,尤其是音频、视频和动画,也日益丰富,成为教育资源建设的重要来源。但是想通过浏览网页的方式手动的从这样一个分散、异构并且动态更新的浩瀚资源库中找到自己需要的多媒体资源也越来越困难。面向教育的多媒体主题搜索器在这样的背景下应运而生,它能够从互联网这个浩瀚的资源库中自动的或者人尽可能少的参与下搜集到这些教育多媒体资源,最终建立一个教育资源库。本论文以教育多媒体资源建设为出发点,以教育领域包含多媒体的网页为研究对象,设计并实现了一个面向教育的多媒体主题搜索器。主题搜索器的设计包括体系结构设计和主题搜索算法设计这两大部分;其中,体系结构的设计是基础,主题搜索算法的设计是核心;而要设计出高性能的主题搜索算法,必须首先进行页面解析、中英文分词等页面预处理工作,本文以上述思路来组织。主要研究工作和研究成果包括以下几个方面:1.在分析主题搜索器研究现状的基础上,提出一种一层控制、三层过滤(链接类型过滤、链接内容过滤、网页内容过滤)、四层存储(临时页面存储、目标页面存储,中间链接存储、更新存储)的体系结构。2.通过分析教育多媒体在网上的分布特点,在Java Swing自带的HTML解析器类Parser的基础上设计并实现一个HTML页面解析器,用于提取Web页面的主题信息。结合中文分词辞典,实现了基于最大正向匹配的中文分词算法,对提取的主题信息进行中文分词、无关词过滤。结合中英文翻译辞典,实现了快速的英文分词算法,对提取出的主题信息进行英文分词、中英文翻译和无关词过滤。3.在分析主题搜索算法的基础上,对经典Fish算法进行改进,提出一种基于增量学习的主题搜索算法,它综合考虑了网页的内容特征和结构特征,并且在搜索的过程中进行动态学习,以适应不同的搜索环境。4.按照论文提出的主题搜索器的体系结构和主题搜索算法实现一个面向教育的多媒体主题搜索器。最后指出系统的不足之处和需要进一步研究的方向。使用JCreator Pro为程序开发工具和Microsoft Access 2003数据库,在Windows XP操作系统下,设计并实现了面向教育的多媒体主题搜索器系统;并以教育视频为例,对该系统进行实验。实验结果表明,本文提出的主题搜索器的体系结构和基于增量学习的主题搜索算法提高了目标资源的查准率,提高了搜索效率。