论文部分内容阅读
随着互联网信息的快速增长,搜索引擎面临着巨大的压力。通用搜索引擎返回的信息量较大,但对于用户特定的查询来说,信息质量却不高,为了解决该问题,主题爬虫诞生了。对于传统的主题爬虫而言,爬虫间没有相互交流,而是彼此独立爬行的。研究发现,只提高主题爬行虫独立爬行的能力,很难提高系统执行效率,因此,人们开始研究多爬虫系统。在多爬虫系统,如果爬虫间没有即时交流,就会造成重复爬行现象,所以研究爬行虫间协作是非常必要的。论文的主要研究内容包括以下几点:1.爬行虫协作能力的改进和竞争能力的提出。对于爬行虫的协作能力的衡量:一是爬行虫是否具有继续爬行的能力;二是爬行虫是否具有相对较强的协作能力。对于爬行虫的爬行能力,本文用爬行虫的剩余爬行时间和剩余存储空间这两个因数来衡量;对于爬行虫的相对协作能力,本文结合爬行虫的历史协作情况和现在相对协作能力来衡量。对于Agent的竞争能力,本文用爬行虫的历史竞争次数、历史竞争成功次数、每次竞争中对手的个数、每次竞争中打败对手的个数和当前对手的竞争能力的大小来衡量。2.本文提出了诱惑爬行虫参与协作的诱惑因子函数和兴趣函数。为了让Agent主动的参与竞争,本文基于系统整体和参与竞争的Agent互利共赢的思想提出了诱惑因子函数和兴趣函数。对于诱惑因子函数,本文用邀请者所能拿出的最大价值的资源和竞争能力来衡量。对于兴趣函数,本文用资源与主题的相似度、资源与协作者所执行的任务的相近程度来衡量。3.本文提出了多Agent的竞争(Multi-Agent Competition,MAC)模型,MAC模型基于市场匹配中构造一组清仓价格的思想,让参与竞争的C-Agent与需要完成协作的资源形成完美匹配。4.本文提出了多对一关系(Many-to-One,MTO)模型和多对多关系(Many-toMany,MTM)模型。在爬行虫的竞争与协作活动中,多个邀请者Agent(Invite Agent,IA)与一个被邀请者Agent(Invited Agent,IDA)够成了MTO模型;多个IA与多个IDA够成的MTM模型。最后,文章为了验证本文所提出的多Agent竞争与协作的理论知识,系统基于JADE平台实现了本文提出的爬行虫。并采用对比试验的方式,比较查准率和查全率来衡量本文的爬行虫的研究的必要性。最终实验证明,该研究能够提高爬虫的智能性。