论文部分内容阅读
网络多媒体教育资源是指存在于Internet中的多媒体教学资源。随着网络与多媒体技术的发展,Web中的多媒体教学资源,尤其是音频、视频和动画,也日益丰富,成为教育领域的重要组成部分。如何快速、准确地找到特定主题的多媒体教学资源,使其在信息化教育中充分发挥作用,是教育技术工作者亟待解决的问题,也使得传统的搜索引擎面临着巨大的挑战,各类多媒体搜索引擎也随之应运而生并受到广泛的关注。主题搜索器的搜索算法,是搜索引擎的核心,它决定了搜索引擎的搜索效率和质量。本文从主题网页和包含多媒体的网页在Web中分布的特点出发,围绕提高多媒体主题搜索效率的问题,提出一种基于URL链接规则的多媒体主题搜索算法。本文首先介绍了在HTML文档中,与多媒体资源有关的文本信息和HTML标签,深入分析了主题页面和包含多媒体资源的网页在Web上的分布特征。在分析和比较现有的主题搜索算法的优缺点的基础上,归纳了提高搜索效率的几个关键因素。本文对主题搜索领域中传统的主题搜索算法进行了详细的分析,在深入分析主题页面在Web上的分布特征与主题相关性判别算法的基础上,对PageRank、Shark-Search两种典型的主题搜索算法进行相关参数的改进,同时将网页内容相似度和网页链接相似度加入到算法的计算过程中,并将改进后的Topic-PageRank算法、Shark-Search算法应用于多媒体主题搜索领域。针对传统的主题搜索算法不能简单的应用于多媒体主题搜索领域的问题,本文基于包含多媒体的网页往往呈现出“资源相邻性”的特点,提出了一种基于URL链接规则的多媒体主题搜索算法,即从种子网站列表中自动学习出代表“多媒体资源区域”的URL正则表达式,并用这些正则表达式来指导主题搜索器对网页的抓取。在详细介绍URL数据结构、URL距离的度量以及URL正则表达式的学习和指导过程的基础上,对PageRank算法进行改进,实现基于URL链接规则算法在链接方面的相似度计算。为了验证基于URL链接规则多媒体主题搜索算法的高效性,本文采用统一的系统体系结构和软、硬件平台,对Topic-PageRank算法、改进的Shark-Search算法和基于URL链接规则的算法输入相同的种子页面集、限定同一搜索深度进行实验测试。文章从查全率和查准率两个角度,对三种算法进行比较。实验结果表明本文的工作是相当有效的,尤其是提出的基于URL链接规则的多媒体主题搜索算法,具有相当的创新性和实际应用价值。