论文部分内容阅读
摘 要:相比通用搜索引擎,专注于某一具体领域的主题搜索引擎可以带来更高精度的信息采集,为用户带来更好信息检索服务。主题爬虫作为主题搜索引擎核心模块,提高检索信息的领域相关度就显得尤为重要。
关键词:主题爬虫 Web社区
一、引言
搜索引擎迄今为止已经是第三代了,主要是以理解用户需求为核心,致力于解决如何能够理解用户发出的查询词背后包含的真正需求。研究表明,即使最杰出的大型的综合搜索引擎 Google,它对 Web 的覆盖率也仅仅只有 40%左右,并呈逐日下降趋势,那些包含大量与查询不相关或相关性很小的内容的通用搜索引擎已经不能满足用户的需求了。为了满足特定用户,特定兴趣,特定领域的信息检索,面向主题的搜索引擎应运而生。但是由a于网络发展太快,即使是特定主题,包含的信息量仍然是巨大的,因此,从大量的信息中提取出与某一特定主题相关的Web页面变得非常必要。
Web社区可以有效的发现与某一特定主题密切相关的页面集合,为了提高搜索引擎检索结果的召回率和准确率,提高搜索引擎核心部分的主题爬虫的主题相关度是设计的关键,这也是主题搜索引擎核心竞争能力。
本文简单介绍了目前主题爬虫采用的技术策略,并将Web社区发现技术创新性的加入了主题爬虫模块设计中,同时分析比较了目前的Web社区发现技术。
二、相关研究
主题爬虫采集信息需要按照一定的采集策略,相比耗费过多的计算空间与时间,没有主题相关性的判断,不适宜面向主题的检索的盲目检索策略,主题爬虫通常采用启发式方法,利用领域知识得到启发信息,选择“最有价值”的链接进行优先访问,从而使搜索效率进而准确率大为提高。
启发式搜索策略每次通过选择最有希望的链接进行优先访问,采用估价函数确定希望程度的判斷,可以看出估价函数对启发式搜索的性能有决定性的影响,而如何评价链接价值,研究者们提出了许多评价方法,归纳起来大致可分为两类:主要是根据主题(如,关键词、主题相关文档)与链接文本的相似度来评价链接价值的内容评价采集策略和以PageRank和HITS等算法为代表的分析确定链接重要性的基于链接结构评价的采集策略,相关研究表明,基于网页内容分析策略优点是具有较好的理论基础而且计算简单,适合简单实现并应用于主题爬虫系统。但是由于这类算法没有涉及链接结构的有用信息,导致在主题链接的预测方面存在不足。同时,基于链接分析的搜索算法的特点是考虑了链接结构和页面之间的引用关系,不考虑页面内容。所以就缺乏与主题的相关性,会出现主题泛化和主题漂移现象。所以,可以将这两种策略相结合,形成一个综合评价价值策略,既克服了两者各自的缺点,也提高了检索的准确率。
互联网正朝着社区化的方向发展, 用户希望获得个性化、可信任的信息。由于社区中网站的内容所涵盖的领域专业性和关联性较强, 因此识别、分析和利用网络社区信息成为下一代搜索引擎技术发展的关键。同时考虑到WEB主题信息存在Hub特性,即Web 上存在这样的页面,他们具有较多的链出超链接,并且这些超链接趋向于同一主题。这正好符合了Web社区的概念:Flake教授根据图形理论,将Web社区定义为在图中具有这样一些特性的页面的集合:社区内的页面之间的链接(在两个方向)的密度要大于社区之间页面链接的密度,称之为FLG社区。通常Web社区是指具有相同兴趣、爱好或者关注特定主题的一组用户所建立起来的一组网页或站点,从图论角度讲,Web社区是整个Web图的一个子图,子图内部成员间更相似,链接更紧。研究表明,这些社区是Web组织中非常重要的信息,反映了Web中普遍存在的、复杂的聚团关系和层次关系,可以为用户提供可靠、及时的信息,所以,发现了和主题相关的社区,可以减少搜索引擎在需要处理的信息量方面的负荷,从而在处理信息搜索可以在一个更小较小的范围内对信息进行更加深入的分析匹配,从中采集到的信息准确率和相关性都会提升。目前,社区发现技术主要是分为三类:基于HITS的算法,基于有向二分图的技术和流量的算法。通过比较分析这些技术,流量算法的特点是计算时间主要是受网络检索页面的时间影响,它是一种在线算法,数据源是动态的。而基于HITS和有向二分图的技术在计算前要准备好数据源,计算时间主要是受数据量,CPU性能和迭代次数因素影响。而且,杨楠,林松洋等人提出基于HITS算法和流量的算法适用于面向主题的,有向二分图的技术适用于无主题发现,结合本文主题爬虫设计,放弃有向二分图的技术,同时由于WEB环境时刻变化,网页也不断的更新,所以采用在线算法得到的信息时效性和准确性更强,所以采用流量算法比较合适。综合比较,本文选择以张宪超,徐雯等人提出的一种结合文本和链接分析的局部Web社区发现技术为基础,原因在于该算法修改了最大流算法的赋予网页之间的链接不公平的权重、排序策略单一等缺点,而且该算法利用的基于链接和内容的分析方法适用于本文的主题分析模块,节约了开发成本也增强了主题爬虫系统的兼容性,并对该算法中计算特征权重TF-IDF算法进行一些改进,目的是对于长文档所有单词普遍比短文档的值高进行抑制,同时在计算网页间相关度时利用主题中心向量算法和利用PageRank算法对社区成员排序,减少计算复杂度,使该社区识别算法更加准确,更有效率。
参考文献:
[1]张俊林.这就是搜索引擎——核心技术详解[M].电子工业出版社,2012.
[2]赵光甫. WEB主题信息搜集技术研究[D].江西理工大学,2008.
[3]翁岩青.网页抓取策略研究[D].哈尔滨工程大学,2010.
[4]王晓宇,周傲英. 万维网的链接结构分析及其应用综述[J].软件学报,2003,14(10): 1765-1780.
[5]罗林波, 陈绮, 吴清秀.基于Shark-Search和Hits算法的主题爬虫研究[J].计算机技术与发展,2010,20(11): 76-79.
[6]基于PageRank与Bagging的主题爬虫研究[J].计算机工程与设计,2010,31(14): 3309-3312.
[7]Chakrabarti S, van den Berg M, Dom B. Focused crawling: a new approach to topic-specific Web resource discovery [J]. Computer Networks, 1999, 31 (11~16): 1623-1640.
[8]张玲,林亚平,陈治平,童调生.基于综合价值的 Web 主题信息搜集策略研究[J].系统仿真学报,2005,17(2):323-326.
[9]贾春鑫.面向主题的双约束网页采集方法的研究和实现[D].上海交通大学,2011.
[10]段晓东, 王存睿, 刘向东等. 基于粒子群算法的 Web 社区发现[J]. 计算机科学, 2008, 35(3): 18-21.
[11]Flake G W, Lawrence S, Giles C L, et al. Self-organization and identification of web communities [J]. Computer, 2002, 35(3): 66-70.
[12]桂挡平.基于链接相似度的 Web 社区发现算法研究[D]. 大连理工大学, 2008.
[13]杨楠, 弓丹志, 李忺, 孟小峰. Web 社区发现技术综述[J]. 计算机研究与发展, 2005, 42(3): 439-447.
[14]杨楠, 林松祥, 高强,孟小峰.一种从马尔可夫聚类簇发现潜在WEB社区特征的方法[J]. 计算机学报, 2007, 30(7):1086-1093.
[15]张宪超, 徐雯, 高亮, 等. 一种结合文本和链接分析的局部 Web 社区识别技术[J]. 计算机研究与发展, 2012, 49(11): 2352-2358.
作者简介:何琼(1980—)女,湖北人。助理研究员。研究方向:知识管理。
※基金项目:北京知识管理研究基地(71F1710913).
关键词:主题爬虫 Web社区
一、引言
搜索引擎迄今为止已经是第三代了,主要是以理解用户需求为核心,致力于解决如何能够理解用户发出的查询词背后包含的真正需求。研究表明,即使最杰出的大型的综合搜索引擎 Google,它对 Web 的覆盖率也仅仅只有 40%左右,并呈逐日下降趋势,那些包含大量与查询不相关或相关性很小的内容的通用搜索引擎已经不能满足用户的需求了。为了满足特定用户,特定兴趣,特定领域的信息检索,面向主题的搜索引擎应运而生。但是由a于网络发展太快,即使是特定主题,包含的信息量仍然是巨大的,因此,从大量的信息中提取出与某一特定主题相关的Web页面变得非常必要。
Web社区可以有效的发现与某一特定主题密切相关的页面集合,为了提高搜索引擎检索结果的召回率和准确率,提高搜索引擎核心部分的主题爬虫的主题相关度是设计的关键,这也是主题搜索引擎核心竞争能力。
本文简单介绍了目前主题爬虫采用的技术策略,并将Web社区发现技术创新性的加入了主题爬虫模块设计中,同时分析比较了目前的Web社区发现技术。
二、相关研究
主题爬虫采集信息需要按照一定的采集策略,相比耗费过多的计算空间与时间,没有主题相关性的判断,不适宜面向主题的检索的盲目检索策略,主题爬虫通常采用启发式方法,利用领域知识得到启发信息,选择“最有价值”的链接进行优先访问,从而使搜索效率进而准确率大为提高。
启发式搜索策略每次通过选择最有希望的链接进行优先访问,采用估价函数确定希望程度的判斷,可以看出估价函数对启发式搜索的性能有决定性的影响,而如何评价链接价值,研究者们提出了许多评价方法,归纳起来大致可分为两类:主要是根据主题(如,关键词、主题相关文档)与链接文本的相似度来评价链接价值的内容评价采集策略和以PageRank和HITS等算法为代表的分析确定链接重要性的基于链接结构评价的采集策略,相关研究表明,基于网页内容分析策略优点是具有较好的理论基础而且计算简单,适合简单实现并应用于主题爬虫系统。但是由于这类算法没有涉及链接结构的有用信息,导致在主题链接的预测方面存在不足。同时,基于链接分析的搜索算法的特点是考虑了链接结构和页面之间的引用关系,不考虑页面内容。所以就缺乏与主题的相关性,会出现主题泛化和主题漂移现象。所以,可以将这两种策略相结合,形成一个综合评价价值策略,既克服了两者各自的缺点,也提高了检索的准确率。
互联网正朝着社区化的方向发展, 用户希望获得个性化、可信任的信息。由于社区中网站的内容所涵盖的领域专业性和关联性较强, 因此识别、分析和利用网络社区信息成为下一代搜索引擎技术发展的关键。同时考虑到WEB主题信息存在Hub特性,即Web 上存在这样的页面,他们具有较多的链出超链接,并且这些超链接趋向于同一主题。这正好符合了Web社区的概念:Flake教授根据图形理论,将Web社区定义为在图中具有这样一些特性的页面的集合:社区内的页面之间的链接(在两个方向)的密度要大于社区之间页面链接的密度,称之为FLG社区。通常Web社区是指具有相同兴趣、爱好或者关注特定主题的一组用户所建立起来的一组网页或站点,从图论角度讲,Web社区是整个Web图的一个子图,子图内部成员间更相似,链接更紧。研究表明,这些社区是Web组织中非常重要的信息,反映了Web中普遍存在的、复杂的聚团关系和层次关系,可以为用户提供可靠、及时的信息,所以,发现了和主题相关的社区,可以减少搜索引擎在需要处理的信息量方面的负荷,从而在处理信息搜索可以在一个更小较小的范围内对信息进行更加深入的分析匹配,从中采集到的信息准确率和相关性都会提升。目前,社区发现技术主要是分为三类:基于HITS的算法,基于有向二分图的技术和流量的算法。通过比较分析这些技术,流量算法的特点是计算时间主要是受网络检索页面的时间影响,它是一种在线算法,数据源是动态的。而基于HITS和有向二分图的技术在计算前要准备好数据源,计算时间主要是受数据量,CPU性能和迭代次数因素影响。而且,杨楠,林松洋等人提出基于HITS算法和流量的算法适用于面向主题的,有向二分图的技术适用于无主题发现,结合本文主题爬虫设计,放弃有向二分图的技术,同时由于WEB环境时刻变化,网页也不断的更新,所以采用在线算法得到的信息时效性和准确性更强,所以采用流量算法比较合适。综合比较,本文选择以张宪超,徐雯等人提出的一种结合文本和链接分析的局部Web社区发现技术为基础,原因在于该算法修改了最大流算法的赋予网页之间的链接不公平的权重、排序策略单一等缺点,而且该算法利用的基于链接和内容的分析方法适用于本文的主题分析模块,节约了开发成本也增强了主题爬虫系统的兼容性,并对该算法中计算特征权重TF-IDF算法进行一些改进,目的是对于长文档所有单词普遍比短文档的值高进行抑制,同时在计算网页间相关度时利用主题中心向量算法和利用PageRank算法对社区成员排序,减少计算复杂度,使该社区识别算法更加准确,更有效率。
参考文献:
[1]张俊林.这就是搜索引擎——核心技术详解[M].电子工业出版社,2012.
[2]赵光甫. WEB主题信息搜集技术研究[D].江西理工大学,2008.
[3]翁岩青.网页抓取策略研究[D].哈尔滨工程大学,2010.
[4]王晓宇,周傲英. 万维网的链接结构分析及其应用综述[J].软件学报,2003,14(10): 1765-1780.
[5]罗林波, 陈绮, 吴清秀.基于Shark-Search和Hits算法的主题爬虫研究[J].计算机技术与发展,2010,20(11): 76-79.
[6]基于PageRank与Bagging的主题爬虫研究[J].计算机工程与设计,2010,31(14): 3309-3312.
[7]Chakrabarti S, van den Berg M, Dom B. Focused crawling: a new approach to topic-specific Web resource discovery [J]. Computer Networks, 1999, 31 (11~16): 1623-1640.
[8]张玲,林亚平,陈治平,童调生.基于综合价值的 Web 主题信息搜集策略研究[J].系统仿真学报,2005,17(2):323-326.
[9]贾春鑫.面向主题的双约束网页采集方法的研究和实现[D].上海交通大学,2011.
[10]段晓东, 王存睿, 刘向东等. 基于粒子群算法的 Web 社区发现[J]. 计算机科学, 2008, 35(3): 18-21.
[11]Flake G W, Lawrence S, Giles C L, et al. Self-organization and identification of web communities [J]. Computer, 2002, 35(3): 66-70.
[12]桂挡平.基于链接相似度的 Web 社区发现算法研究[D]. 大连理工大学, 2008.
[13]杨楠, 弓丹志, 李忺, 孟小峰. Web 社区发现技术综述[J]. 计算机研究与发展, 2005, 42(3): 439-447.
[14]杨楠, 林松祥, 高强,孟小峰.一种从马尔可夫聚类簇发现潜在WEB社区特征的方法[J]. 计算机学报, 2007, 30(7):1086-1093.
[15]张宪超, 徐雯, 高亮, 等. 一种结合文本和链接分析的局部 Web 社区识别技术[J]. 计算机研究与发展, 2012, 49(11): 2352-2358.
作者简介:何琼(1980—)女,湖北人。助理研究员。研究方向:知识管理。
※基金项目:北京知识管理研究基地(71F1710913).