基于Web社区发现算法的主题爬虫设计研究

来源 :经营管理者·中旬刊 | 被引量 : 0次 | 上传用户：winchard

【摘要】

：

【作者】

：

何琼

【出处】

：

经营管理者·中旬刊

【发表日期】

：

2017年5期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　摘要：相比通用搜索引擎，专注于某一具体领域的主题搜索引擎可以带来更高精度的信息采集，为用户带来更好信息检索服务。主题爬虫作为主题搜索引擎核心模块，提高检索信息的领域相关度就显得尤为重要。
　　关键词：主题爬虫 Web社区
　　一、引言
　　搜索引擎迄今为止已经是第三代了，主要是以理解用户需求为核心，致力于解决如何能够理解用户发出的查询词背后包含的真正需求。研究表明，即使最杰出的大型的综合搜索引擎 Google，它对 Web 的覆盖率也仅仅只有 40%左右，并呈逐日下降趋势，那些包含大量与查询不相关或相关性很小的内容的通用搜索引擎已经不能满足用户的需求了。为了满足特定用户，特定兴趣，特定领域的信息检索，面向主题的搜索引擎应运而生。但是由a于网络发展太快，即使是特定主题，包含的信息量仍然是巨大的，因此，从大量的信息中提取出与某一特定主题相关的Web页面变得非常必要。
　　Web社区可以有效的发现与某一特定主题密切相关的页面集合，为了提高搜索引擎检索结果的召回率和准确率，提高搜索引擎核心部分的主题爬虫的主题相关度是设计的关键，这也是主题搜索引擎核心竞争能力。
　　本文简单介绍了目前主题爬虫采用的技术策略，并将Web社区发现技术创新性的加入了主题爬虫模块设计中，同时分析比较了目前的Web社区发现技术。
　　二、相关研究
　　主题爬虫采集信息需要按照一定的采集策略，相比耗费过多的计算空间与时间，没有主题相关性的判断，不适宜面向主题的检索的盲目检索策略，主题爬虫通常采用启发式方法，利用领域知识得到启发信息，选择“最有价值”的链接进行优先访问，从而使搜索效率进而准确率大为提高。
　　启发式搜索策略每次通过选择最有希望的链接进行优先访问，采用估价函数确定希望程度的判斷，可以看出估价函数对启发式搜索的性能有决定性的影响，而如何评价链接价值，研究者们提出了许多评价方法，归纳起来大致可分为两类：主要是根据主题（如，关键词、主题相关文档）与链接文本的相似度来评价链接价值的内容评价采集策略和以PageRank和HITS等算法为代表的分析确定链接重要性的基于链接结构评价的采集策略，相关研究表明，基于网页内容分析策略优点是具有较好的理论基础而且计算简单，适合简单实现并应用于主题爬虫系统。但是由于这类算法没有涉及链接结构的有用信息，导致在主题链接的预测方面存在不足。同时，基于链接分析的搜索算法的特点是考虑了链接结构和页面之间的引用关系，不考虑页面内容。所以就缺乏与主题的相关性，会出现主题泛化和主题漂移现象。所以，可以将这两种策略相结合，形成一个综合评价价值策略，既克服了两者各自的缺点，也提高了检索的准确率。
　　互联网正朝着社区化的方向发展，用户希望获得个性化、可信任的信息。由于社区中网站的内容所涵盖的领域专业性和关联性较强，因此识别、分析和利用网络社区信息成为下一代搜索引擎技术发展的关键。同时考虑到WEB主题信息存在Hub特性，即Web 上存在这样的页面，他们具有较多的链出超链接，并且这些超链接趋向于同一主题。这正好符合了Web社区的概念：Flake教授根据图形理论，将Web社区定义为在图中具有这样一些特性的页面的集合：社区内的页面之间的链接（在两个方向）的密度要大于社区之间页面链接的密度，称之为FLG社区。通常Web社区是指具有相同兴趣、爱好或者关注特定主题的一组用户所建立起来的一组网页或站点，从图论角度讲，Web社区是整个Web图的一个子图，子图内部成员间更相似，链接更紧。研究表明，这些社区是Web组织中非常重要的信息，反映了Web中普遍存在的、复杂的聚团关系和层次关系，可以为用户提供可靠、及时的信息，所以，发现了和主题相关的社区，可以减少搜索引擎在需要处理的信息量方面的负荷，从而在处理信息搜索可以在一个更小较小的范围内对信息进行更加深入的分析匹配，从中采集到的信息准确率和相关性都会提升。目前，社区发现技术主要是分为三类：基于HITS的算法，基于有向二分图的技术和流量的算法。通过比较分析这些技术，流量算法的特点是计算时间主要是受网络检索页面的时间影响，它是一种在线算法，数据源是动态的。而基于HITS和有向二分图的技术在计算前要准备好数据源，计算时间主要是受数据量，CPU性能和迭代次数因素影响。而且，杨楠，林松洋等人提出基于HITS算法和流量的算法适用于面向主题的，有向二分图的技术适用于无主题发现，结合本文主题爬虫设计，放弃有向二分图的技术，同时由于WEB环境时刻变化，网页也不断的更新，所以采用在线算法得到的信息时效性和准确性更强，所以采用流量算法比较合适。综合比较，本文选择以张宪超，徐雯等人提出的一种结合文本和链接分析的局部Web社区发现技术为基础，原因在于该算法修改了最大流算法的赋予网页之间的链接不公平的权重、排序策略单一等缺点，而且该算法利用的基于链接和内容的分析方法适用于本文的主题分析模块，节约了开发成本也增强了主题爬虫系统的兼容性，并对该算法中计算特征权重TF-IDF算法进行一些改进，目的是对于长文档所有单词普遍比短文档的值高进行抑制，同时在计算网页间相关度时利用主题中心向量算法和利用PageRank算法对社区成员排序，减少计算复杂度，使该社区识别算法更加准确，更有效率。
　　参考文献：
　　[1]张俊林.这就是搜索引擎——核心技术详解[M].电子工业出版社，2012.
　　[2]赵光甫. WEB主题信息搜集技术研究[D].江西理工大学，2008.
　　[3]翁岩青.网页抓取策略研究[D].哈尔滨工程大学，2010.
　　[4]王晓宇，周傲英. 万维网的链接结构分析及其应用综述[J].软件学报，2003，14（10）： 1765-1780.
　　[5]罗林波，陈绮，吴清秀.基于Shark-Search和Hits算法的主题爬虫研究[J].计算机技术与发展，2010，20（11）： 76-79.
　　[6]基于PageRank与Bagging的主题爬虫研究[J].计算机工程与设计，2010，31（14）： 3309-3312.
　　[7]Chakrabarti S， van den Berg M， Dom B. Focused crawling： a new approach to topic-specific Web resource discovery [J]. Computer Networks， 1999， 31 （11～16）： 1623-1640.
　　[8]张玲，林亚平，陈治平，童调生.基于综合价值的 Web 主题信息搜集策略研究[J].系统仿真学报，2005，17（2）：323-326.
　　[9]贾春鑫.面向主题的双约束网页采集方法的研究和实现[D].上海交通大学，2011.
　　[10]段晓东，王存睿，刘向东等. 基于粒子群算法的 Web 社区发现[J]. 计算机科学， 2008， 35（3）： 18-21.
　　[11]Flake G W， Lawrence S， Giles C L， et al. Self-organization and identification of web communities [J]. Computer， 2002， 35（3）： 66-70.
　　[12]桂挡平.基于链接相似度的 Web 社区发现算法研究[D]. 大连理工大学， 2008.
　　[13]杨楠，弓丹志，李忺，孟小峰. Web 社区发现技术综述[J]. 计算机研究与发展， 2005， 42（3）： 439-447.
　　[14]杨楠，林松祥，高强，孟小峰.一种从马尔可夫聚类簇发现潜在WEB社区特征的方法[J]. 计算机学报， 2007， 30（7）：1086-1093.
　　[15]张宪超，徐雯，高亮，等. 一种结合文本和链接分析的局部 Web 社区识别技术[J]. 计算机研究与发展， 2012， 49（11）： 2352-2358.
　　作者简介：何琼（1980—）女，湖北人。助理研究员。研究方向：知识管理。
　　※基金项目：北京知识管理研究基地（71F1710913）.

其他文献

消费者线上线下渠道迁徙行为剖析

摘要：随着网络零售平台的发展，电子商务快速发展，网络购物成为一种新的购物趋势。本文通过实证研究从消费者、渠道以及产品三个方面论证了消费者渠道迁徙的影响因素。　　关键词：线上线下渠道迁徙消费者渠道产品价格　　一、引言　　随着电子商务的快速发展，网购已成为一种新的购物趋势。根据CNNIC发布的第39次《中国互联网络发展状况统计报告》，截至2016年12月，全国开展在线销售的企业比例为45.3

期刊

推广小型农业机械对农村经济发展的积极影响探索

摘要：近年来，随着我国经济的快速发展，人们越来越重视农业经济发展。在农业经济发展中，推广小型农业机械的应用不但能够提高农业资源的利用率，还能够保证农村经济稳定发展。因此，本文主要分析推广小型农业机械对农村经济发展的影响，希望能给相关工作人员提供一定的参考和帮助。　　关键词：小型农业机械农村经济发展探索　　农业作为国民经济中的重要支柱，其经济发展也逐渐引起了人们足够的重视。在农村经济发展中，小

期刊

基于社会化媒体的企业品牌提升策略研究

摘要：随着信息时代的来临以及网络技术的发展，互联网在渗透人类日常生活的同时也改变着人们的生活习惯，并形成了基于互联网的新型的商业运作模式。当越来越多的消费者开始利用网络以获取商品信息的时候，提升网络品牌也就顺应潮流的增强企业竞争力的方式之一。传统企业利用互联网有效开展网络品牌建立和提升活动已经成为提升自身品牌价值和竞争力的关键所在。本文通过研究现有品牌的网络提升方法，结合其他学者的分析，将多种品

期刊

农村土地经营权流转制度研究

摘要：土地承包经营权流转制度在土地承包经营权制度中为重要部分，经过了由原来的禁止流转到后来的允许流转并制定流转制度这一发展过程。但是在不断的践行中，我国农村土地承包经营权流转制度在多方面均存在某种程度的不足，致使农民权益遭到损害，流转纠纷频出，制约农村经济健康发展。因此，需科学完善流转制度。本文主要以农村土地承包经营权流转制度的发展为切入，分析流转制度在发展中存在的不足，并提出了完善相关法律、完

期刊

家庭档案建设的几点思考

摘要：改革开放以来，人民群众的物质水平和精神文化水平日益提高，越来越多的人开始建设家庭档案。通过建设家庭档案，能够增强家庭成员的凝聚力，利于构建和谐稳定的家庭，构建文明社会。通过解读多个家庭的档案，还能映射出我们这个时代和社会的进步，便于从中获取精华，吸取教训，促进社会发展。本文通过对建设家庭档案的讨论，分析建设家庭档案的社会意义，同时提出了一些建设家庭档案的措施。　　关键词：家庭档案社会意义

期刊

大智移云时代的会计信息化变革

摘要：大智移云，这个概念是最近新兴的一个名词，随着科技的发展，越来越多的行业都会与信息化相结合，利用大数据等新兴统计方法来更加深入的了解与分析，而大智移云也正是高速发展的产物。而在财务領域，利用会计信息化的数据，了解整个企业运行的财务状况，企业的经营成果，以及整个公司的现金流量状况，这些都可以在会计报表中体现出来。除了大量的数据收集以外，更重要的是学会如何把大量的数据统筹起来，通过技术分析，将各

期刊

探索新形势下依法治档的新途径

一、引言　　追求“幸福”是人类永恒的主题。曾几何时，我们将经济增长和幸福画上等号，认为只要经济上去了，人民就幸福了。但是改革开放后我国经济持续高速增长，并未带来人民幸福感的同步增加，反而付出了资源、环境和社会的沉重代价。目前，我国已进入社会经济的转型期，传统的粗放型的发展模式难以为继，推动科学发展、落实以人为本、增进民生福祉、增强人民的幸福感成为客观必然。如何让人民共享经济发展的成果，让老百姓过的

期刊

光催化燃料电池TiO2多孔光阳极光传输数值模拟研究

光催化燃料电池能够利用太阳能通过光/电/化学反应直接将废水中蕴含的化学能转化为电能，实现降解废水中污染物的同时产生清洁能源，对太阳能利用和废水资源化利用具有重大意义。目前，已有研究主要针对光阳极催化材料和结构开展研究以提升电池性能。而光催化燃料电池光阳极具有复杂的微纳多孔结构，涉及到耦合光电化学反应的能质传输过程，深入认识其中的能质传输特性及其与光电化学反应的耦合机制对设计和优化光阳极结构及运行参数，进而提升光催化燃料电池性能起着至关重要的作用。正是由于光阳极具有复杂的微纳多孔结构，难以通过实验直接获得其

学位

光催化燃料电池TiO2多孔薄膜光阳极光传输辐射传输理论电化学反应传输特性吸收效率入射光强孔隙率

档案管理模式改革在医院档案管理中的应用

摘要：随着医疗卫生体制的改革，我国医院在发展进步的同时，对于档案管理工作也提出了相应的变革要求。本文首先概述了医院档案管理的重要性，然后指出管理工作存在的问题，最后阐述了档案管理模式改革的有效途径，以供参考。　　关键词：医院档案管理重要性改革　　一、医院档案管理的重要性　　档案管理是医院管理的一部分，反映出医院的发展历史，包括基建资料、人事资料、科研资料等。管理工作的重要性，体现在以下几个

期刊

机器学习辅助有机光伏材料评估与设计

由于化石燃料储备有限以及日益严峻的环境问题，在过去的数十年中对可再生能源的需求急剧增加。太阳能的高效利用有望成为解决能源与环境问题的一个关键突破口。在太阳能的众多利用形式中，太阳能电池提供了一种经济的方式，能够直接将太阳能转化为电能。传统的硅基太阳能电池在制备过程中需要复杂的工艺且成本昂贵，而电池的刚性则限制了其在可穿戴、柔性器件中的应用。在新一代太阳能电池中，有机太阳能电池具有轻质、柔性、可连续溶液法制备等优势，因而受到广泛关注。
　　开发设计具有高光电转换效率的新型有机分子是目前有机太阳能电池领

学位

机器学习模型辅助有机光伏材料评估有机太阳能电池材料分子新材料体材料子结构转换效率数据库光电转换

基于Web社区发现算法的主题爬虫设计研究

与本文相关的学术论文