基于Heritrix的面向特定主题的聚焦爬虫研究

来源 :2011嵌入式技术开发论坛 | 被引量 : 0次 | 上传用户：xrf1988

【摘要】

：

　　通过分析Heritirx开源爬虫的组件结构，针对Heritrix开源爬虫项目存在的问题，项目设计了特定的抓取逻辑和定向抓取包含某一特定内容的网页的类，并引入BKDRHash算法进行URL散

【作者】

：

朱敏罗省贤

【机构】

：

成都理工大学信息科学与技术学院,四川成都,610059

【出处】

：

2011嵌入式技术开发论坛

【发表日期】

：

2011年12期

【关键词】

：

网页信息搜索数据挖掘多线程抓取网页搜索引擎聚焦爬虫技术 BKDRHash算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　通过分析Heritirx开源爬虫的组件结构，针对Heritrix开源爬虫项目存在的问题，项目设计了特定的抓取逻辑和定向抓取包含某一特定内容的网页的类，并引入BKDRHash算法进行URL散列，实现了面向特定主题的网页信息搜索，达到了提高搜索数据的效率以及多线程抓取网页的目的。最后对某一特定主题的网页进行分析，并进行网页内容抓取，采用HTMLParser工具将抓取的网页数据源转换成特定的格式，可为面向主题的搜索信息系统以及数据挖掘提供数据源，为下一步研究工作做好准备。

其他文献

肾康注射液联合用药治疗肾小球肾炎合并急性间质性肾炎患者的临床价值分析

目的探讨肾康注射液联合用药在肾小球肾炎合并急性间质性肾炎患者中应用的临床疗效。方法 78例肾小球肾炎合并急性间质性肾炎患者,依据治疗药物不同分为对照组和观察组,各39

期刊

肾康注射液联合用药肾小球肾炎急性间质性肾炎临床价值

人工免疫算法与系统集成的研究

生物免疫系统是一个复杂、并行、鲁棒的自适应系统，以其智能的信息处理能力而逐渐备受关注。为使研究人员能全面了解人工免疫常用算法原理及其应用和免疫系统与其他智能系统的

期刊

人工免疫系统免疫算法系统集成artificial immune system immune algorithm system integration

培养小学生数学核心素养的教学问题

数学作为义务教育阶段的基础课程，其教学的主要任务不单单是引导学生掌握有价值的数学知识，还要使学生在知识、技能、情感等发展中形成适应未来社会发展需求所必需的能力和品质。在立德树人的教育背景下，受多种因素的影响，学生的数学核心素养培养还存在诸多问题，严重限制着小学数学有效教学的实现。　　在新课改实施以来，一些教师对新课改理念产生了错误的认知，在组织课堂教学活动的时候，出现了过分强调教学形式、忽视数学本

期刊

义务教育阶段立德树人数学核心素养核心素养培养社会发展需求数学有效教学培养小学生有价值的数学

玩什么别玩暧昧

电视里，一个女孩和男孩在校园相遇，电光石火，从此都把对方放在了心上。青春飞扬的年龄，两个人相伴走过，一起学习、逛街、看电影、参加辩论会，如影随形，那种惺惺相惜的情怀任谁都看得出来，所有人都把他们归为了情侣的行列。可事实却是，他们在一起谈天论地，政治、经济、文学、艺术，什么都谈，唯独不谈感情，就像约好了似的。谁都没有出口表达过一个爱字。　　转眼间，毕业了，两个人一起在不属于自己的城市奔波求职，相互鼓

期刊

医学心理学心理卫生男人女人

基于FLEX的信息系统框架研究

FLEX已经成为RIA的主要开发技术,可以通过Parsley、mate等IOC框架提高开发质量,但缺少通用的FLEX的开发框架。首先阐述了FLEX技术与传统WEB开发技术的区别,以及当前FLEX常用

期刊

RIAFLEX系统框架RIA FLEX system framework

糖尿病周围神经病变患者采用甲钴胺、格列美脲治疗的临床疗效观察

目的比较甲钴胺与格列美脲治疗糖尿病周围神经病变（DPN）患者的临床疗效。方法 90例DPN患者依据治疗药物不同分为观察组与对照组,各45例。对照组采用格列美脲治疗,观察组采用甲

期刊

糖尿病周围神经病变甲钴胺格列美脲

基于Heritrix的面向特定主题的聚焦爬虫研究

与本文相关的学术论文