聚焦爬行系统的设计—算法视角

被引量 : 0次 | 上传用户:ftlfh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
爬虫是一类网络信息采集系统,它从一些给定的URL(称为种子URL集合)出发,通过下载URL对应的网页、分析页面内容、并跟随其中的链接来递归遍历整个Web。聚焦爬虫是一类特殊的爬虫,其主要目标是在有限的时间与网络带宽限制下尽可能多的采集与指定主题相关的高质量网页,忽略与主题无关或低质量的链接。目前,聚焦爬虫已在主题搜索引擎、数字图书馆建设和站点结构分析等方面取得越来越广泛的应用。 本文首先介绍了聚焦爬虫模型,对该领域中重要而富有创新性的研究成果做一个大致的介绍;接着深入探讨了聚焦爬行研究中的几个关键要素,包括如何设计好的Web分析算法来评估网页与主题的相关性与重要性(核心问题)、如何选择搜索策略以使URL访问顺序最优,如何获取好的种子URL集合,如何更好的表示主题。基于这些讨论,本文提出了一种可利用之前爬行数据自动改进其分析算法、主题表达与种子URL集合的聚焦爬虫,并深入讨论了其首次爬行和再次爬行算法。实验结果表明该算法的收获率(准确率)在大多数情况下优于基于宽度策略、基于PageRank和基于内容相似度分析的爬虫。
其他文献
<正>在这个夏天,您很想和家人一起"在路上",享受一次温馨而美好的亲情之旅,却又担心家庭旅行会有很多的潜在危险,尤其是带孩子一同出行的时候,为此,我们特别推出"家庭出游22
期刊
广西锑矿储量、产量排在全国第二位,随着近年开采资源保证程度较低,严重制约广西锑工业发展,迫切需要寻找锑矿潜力区,通过综合研究,在广西划分2个锑成矿带7个锑成矿远景区,并
<正>12011年江西茶叶生产情况根据江西省农业厅市场与涉外处《农业统计信息》第5期提供的数据,2011年度,全省年末实有茶园60360hm2,其中当年采摘面积为45304hm2,当年新增面积
灌溉和土地耕作是城市园林建设的重要环节和任务。园林苗圃的灌溉要科学灌水,采取有效的方法和措施;土地耕作要把握好耕地、耙地、镇压等环节的技术问题。
通过对油液监测技术的简单介绍和该技术应用于设备管理的分析 ,说明了该技术应用于企业设备管理后 ,可产生可观的经济效益。
当前,对高校教师评价的研究过于重视整体研究、抽象研究,缺乏分类研究、具体研究。分类评价高校教师,能够更加调动其工作积极性,激发其内在的潜力。高校教师分类评价的理论依
干部教育评价是对干部教育质量的价值判断,是对干部教育培训活动是否满足了学员需要的评判,因而应当重视学员需要。学员的需要有其共性和个性,在干部教育评价中要从评价前的
通过测量放在样品盒内压实后8个不同高度的土壤标准物质,得到高纯锗γ谱仪的γ射线能量效率曲线,并用蒙特卡罗程序MCNP 4C进行相应计算。结果表明,实际测量值与蒙特卡罗方法
采用气管炎菌苗片配合中药汤剂(杏仁、陈皮、半夏、南星、黄芩、白僵蚕、白茯子、全蝎、蜈蚣等)治疗小儿哮喘32例,有效率90%。哮喘发作期以中药治疗为主;缓解期辅以气管炎菌苗
立足公共配套总量供给不足、品质普遍欠佳、空间发展失衡三大基本矛盾,紧紧围绕城市升级推动产业转型的基本观点,强调城市配套要突出"以人为本",并从配套人口、统筹整合、空