论文部分内容阅读
计算机和网络技术的普及应用和迅速发展,不仅改变了传统教学的模式和教学环境,而且使教育资源数字化、网络化成为必然趋势。正是在这种趋势下产生了大量的教学资源。现阶段,由于教育资源分布广泛、数量众多、形态各异,从而导致这些信息资源之间缺乏互操作性,众多资源成为“信息孤岛”。
为了更加有效的利用教育资源,文章提出通过建立面向教育资源的垂直搜索引擎让教育资源在网络中真正流动起来,实现资源的高度共享。文章以当前高校校园网教育资源环境为背景,对垂直搜索引擎的关键技术进行了深入的研究。主要工作如下:
1)文章从研究和设计的角度对搜索引擎的相关技术进行了详细的分析和讨论,论述了目前搜索引擎的发展趋势;然后介绍了垂直搜索引擎产生的背景、特点,并分析了垂直搜索引擎的原理及其各个部分的主要功能。
2)给出了一个基于教育资源的垂直搜索引擎的总体设计方案。
3)分析了传统主题爬行器爬行算法的优缺点和高校校园网信息资源分布特点,在此基础上通过将隧道算法、网页噪音提取技术和网页页面分块技术有机结合,提出了一种改进的主题爬行策略:动态隧道穿越算法;设计并实现了基于该算法的主题爬行器;针对四所高校门户网站的教育资源搜索实验表明,新的算法能够在保证主题网页召回率的前提下,降低无关网页的访问率提高搜索效率。
4)基于Web页面信息存在冗余的特点,结合教育资源的元数据标准,提出了一个半自动化的信息抽取方案。