论文部分内容阅读
如何在浩如烟海的Web信息中更好地找到用户关心的信息,是搜索引擎面临的一个极大的挑战。主题爬行器通过将下载页面限定在特定的主题领域,来提高搜索引擎的效率和提供信息的质量。其思想是在爬行过程中按预先定义好的主题有选择地收集相关网页,避免下载主题不相关的网页,其目标是找到对用户更准确、有用的信息。
本文以一个下载招聘网页的主题爬行器系统的设计和实现为背景,对有关技术进行研究。为了实现主题相关性的判别,系统使用隐Markov模型对招聘网页进行建模,并利用这一模型和Vierbi算法判断一篇网页是否主题相关,即是否为招聘网页。之后,本文还将这一方法与基于文本分类的方法进行了比较。结果表明,这一方法要好于基于文本分类的方法。在爬行器爬行过程中,系统使用朴素贝叶斯文本分类算法学习指向招聘网页的链接的文本特征,并根据学习的结果对待下载的链接所指向的网页是否为招聘网页进行预测,优先选择下载那些主题相关的网页。实验表明,这一爬行算法在下载主题相关网页的效率上要好于广度优先算法和BestFirst算法。
由于系统中文本分类的算法起着非常重要的作用,本文对支持向量机、K最近邻、朴素贝叶斯等常用文本分类算法进行了比较和分析。另外,本文还讨论了系统所使用的基于JavaCC的文本分析、HTML分析、基于文档向量模型的网页表示、基于多线程的下载调度等技术。