过滤型网络爬虫的研究与设计

来源 :厦门大学 | 被引量 : 0次 | 上传用户:lcm0153
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络爬虫是一个可以从因特网上自动提取网页的系统,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。通用搜索引擎的网络爬虫一般是从几个种子URL链接开始进行全盘爬行,而专业领域搜索引擎的网络爬虫除了通用网络爬虫的基本功能外,还能够对链接以及页面内容进行识别,因此称作聚焦网络爬虫。聚焦网络爬虫并不追求大的覆盖,而将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。聚焦网络爬虫已经成为搜索引擎技术领域的一个研究热点,对于专业领域的搜索产生重要的作用。本论文从聚焦的另一个角度——“过滤”上来研究网络爬虫技术,称这种类型的网络爬虫为“过滤型网络爬虫”。论文首先介绍了网络爬虫所起的作用以及网络爬虫技术的发展现状;接着在从两个方面来研究过滤型网络爬虫技术:(1)从链接过滤上,提出了链接群体的概念,根据不同的网站类型将链接群体分为单模式链接群体和多模式链接群体,同时在分析了传统的链接过滤算法的基础上,提出了基于规则匹配的链接过滤算法;(2)从内容过滤上,主要从以下三个方面来研究:(a)提出了一种基于网站内容特征的网站类型辨识方法,(b)使用一种基于标签权重的网页文本特征词选择算法,在此基础上构建网页文本的空间向量模型,并将该向量模型跟已经设定好的主题向量模型进行相似度计算,从而形成基于向量空间模型的主题过滤算法,(c)在分析非结构化数据分类过程的基础上,使用了基于朴素贝叶斯分类器的主题类别过滤算法;最后设计并实现了一个过滤型网络爬虫系统,并详细介绍了系统的整体设计流程、系统结构以及系统几个关键模块和关键技术。
其他文献
目的口腔种植修复和常规修复在牙列缺损治疗中的疗效。方法选取我院2016年4月~2017年4月这一时间段收治的64例牙列缺损作为本次研究对象,依据不同的治疗方法分为两个组别,甲
AMD在买下显卡公司ATI之后就一直在寻求CPU和显卡处理芯片的融合,将CPU和GPU融合推出Fusion技术的APU芯片成为AMD的目标。AMD今日首次在华展示了APU芯片,并透露首款产品将在明
Aeroflex宣布在其灵活的PXI模块化测试平台中增加两款全新3020系列高功率紧凑型射频信号发生器。3020系列紧凑型、高精度PXI模块化射频信号发生器集成了双通道任意波形发生器
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
基于理论分析和开放式调查的结果,通过系统过程编制了中学生价值观问卷,对来自北京、河北和广西等地971名中学生的价值观测量数据进行了分析。结果发现,中学生价值观由目标价
在全球经济下滑,企业纷纷收缩投资之时,日本东芝公司却宣布将投资300亿日元,新建一家锂离子电池工厂,以满足产业机械和汽车业等的需求。据日本媒体最新报道,东芝的新充电电池工厂
如何看待"正统观"是研究中国古代北方各个游牧民族历史以及研究中国古代北方民族关系史时必须引起注意并且把稳方向的。中国的历史是自古以来生活在这片土地上的各个民族共同
目的探讨老年牙齿缺失及牙体大部分缺损患者接受保留修复治疗后的恢复情况。方法将94例牙齿缺失及牙体大部分缺损患者分为观察组(保留修复)和对照组(种植修复)各47例,观察两
【正】 概况西德的专利事业始于1949年10月。1945年以前是德国专利,二次大战结束时,大批德国申请案得以批准但尚未公布的专利被掠往美国,收入美国 PB 报告中。德国在德意志帝