论文部分内容阅读
随着Internet的迅速发展,网络上的Web资源以膨胀性的方式增长,面对庞大的Web网页资源,传统的全文搜索引擎,难以保证搜索结果的精确度和召回率。于是,人们提出使用主题搜索引擎来解决这个问题,网络中的Web网页是按类别来组织的,将搜索引擎建立在其中的一个或几个类别的网页资源之上,这样就缩小了搜索的范围和规模,可以有效的发挥搜索引擎的功能,其中网页资源的获取由主题爬虫来完成。主题爬虫下载的网页资源的主题类别是根据需求来定义的,一般应用于主题搜索引擎的主题类别是根据常用的分类来描述的,同样,也可以根据用户的需求来定制,如根据用户感兴趣的内容可以定制个性化的主题爬虫。本文以常用的金融类别为目标主题,该主题类别特征是包含多个子主题,如股票、基金、期货等,而且网络中的数据资源丰富,建立金融网页库可以用于聚类分析,数据挖掘等,在实际应用中对这些数据的分析可以作为人们进行投资的参考,有很好的应用前景。本文研究的目的是如何实现一个金融主题爬虫系统,能全面的获取网络中的金融主题网页资源,而且尽量提高获取网页库的主题精确度。经过分析,主题爬虫研究的重点是对网页和链接的主题相关性分析,主要从文本(包括网页内容文本和链接锚文本)和链接结构两个方面来分析,其中对前者的分析,通过建立文本分类器,判断文本与主题的相关性;后者主要是利用PageRank算法和HITS算法来评价链接与主题的相关性;根据网页和链接与主题的相关性,来对它们进行过滤。本文对网页进行分块,提取网页链接块锚文本,根据对链接块锚文本的主题相关性评价的结果作为块内各链接与主题的相关性,并针对这种文本的处理提出主题相关性密度算法。对网页内容文本的主题相关性的评价使用朴素贝叶斯算法进行处理。根据最后的实验数据分析,我们可以发现,这两种方法在文本分类上都能使金融主题的召回率达到90%以上,应用于主题爬虫中可以保证下载网页的主题覆盖率,而且系统实验获得金融网页的主题精确度在85%以上;这就说明本文提出的主题相关性密度的方法在链接块锚文本的应用上是很有效的。