论文部分内容阅读
随着现代信息技术的高速发展,网络已经成为知识获取与利用的重要途径。网络中的资源异常丰富,然而分布也十分广泛,组织性很差。面对海量的网络资源,如何快速、有效地获取人们感兴趣的主题资源成为知识获取的一个重要问题。主题资源的自动获取主要通过对网络超链接的采集来实现,而主题资源获取的关键问题之一就是对网络中超链接是否采集的评价方法。本文设计了一个基于贝叶斯网络的主题超链接评价系统,主要实现了在web教学资源获取的过程中对超链接是否采集进行评价,以指导网络爬虫进行有方向地爬行和采集。首先,本文介绍了web主题资源获取的概念和意义,对主题资源采集的相关理论与技术进行了阐述和比较,对网络主题资源的分布形态进行了探究,并重点分析了影响网络超链接建立的影响因子。接着,本文介绍了贝叶斯网络的基本概念、应用领域以及相关的理论与技术,并提出了基于贝叶斯网络的web超链接评价方案。首先将网络超链接的影响因子抽象化为贝叶斯网络中的变量;然后经过网络结构的学习、参数学习,建立起关于超链接可采集度评价的贝叶斯网络;最后利用该网络对新的超链接是否采集进行评价和预测。然后,针对Web主题资源采集中超链接的评价问题,根据实际情况选择并改进了贝叶斯网络构建过程中的方法与技术,通过将先验知识与测试数据相结合,将二者的优势融合在一起,减少了计算量,提高了算法效率。最后,实现了基于贝叶斯网络的超链接可采集度评价系统。从多个站点下载了5000多个超链接用于效果测试。实验结果表明,贝叶斯网络可用于超链接可采集度的评价,并能取得良好的效果。