基于模板化网络爬虫技术的Web网页信息抽取

被引量 : 30次 | 上传用户:wynneyehui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于模板化网络爬虫技术的Web网页信息抽取与以往传统的网络爬虫技术不同,传统的网络爬虫技术大多数为专用网络爬虫,即针对不同的网站以及网站内不同的频道,需要专门的为各个频道编写出专用的网络爬虫。这样传统的网络爬虫,随着网上的内容日益增长,以及网页内容的不断更新,它必定会给网络爬虫的开发者和维护者带来很大的工作量与复杂度,会使网络爬虫编写工作容易出错,也会给用户的操作带来困难。在这样的背景下,基于模板的网络爬虫技术应运而生,它要求程序员在配置文件(在数据库中)中写好某网站的程序运行模板,程序在调用时,根据网站的某些固定特征,在模板库中进行匹配,找出符合的模板,继而准确高效的运行程序。基于模板的网络爬虫技术,既会给程序员简化工作,也可以简化用户的操作。基于模板化网络爬虫技术的Web网页信息抽取技术根据网页特征,从配置文件中读出存储在数据库中的模板库后,自动的根据程序中的网站入口地址匹配模板,使程序高效运行。本文通过针对3个博客网站,3个论坛网站,1个微博客网站,以及38个新闻网站进行了相应的模板及程序的编写,实现了用基于模板化的网络爬虫技术对上述网站进行Web网页的信息抽取,经过在舆情系统中实际运行测试后得出结论,该方法能根据自动提取出的模板快速、准确的对Web网页进行信息的自动抽取。本文的主要工作包括:1、基于模板化网络爬虫技术的Web网页信息抽取,这一课题对这一技术的工作过程进行详细说明;2、对引用网站的网页进行分析,引入了正则表达式的概念及用法,总结出了针对38个网站的网页模板;3、给出了基于模板的网络爬虫技术的基本结构及其运行方式,并详细描述了爬虫的爬取过程;4、运用基于模板的网络爬虫技术设计实现,并使之在舆情系统中运行测试。
其他文献
<正>我国《劳动法》和《劳动合同法》都规定,建立劳动关系,应当订立书面劳动合同。这是用人单位和劳动者的法定义务,任何一方都不得违反。之所以作出如此规定,主要有以下几个
洪湖是长江中游具有代表性的湿地区域, 由于江湖联系阻隔, 洪湖湿地生态系统呈现出一定的退化态势: 湿地面积萎缩, 湿地资源遭到过度利用, 湿地水质恶化, 环境污染日益严重,
9月份,一线城市土地市场的高烧在业界引起广泛关注,上海连拍三块土地,溢价率均超过100%。北京朝阳区孙和乡西甸村和北甸西村地块,楼板价均超过了5万元/平方米,深圳伴随房价疯
写向上级领导汇报本地经济社会发展情况的文稿,是基层党委、政府文秘人员的一项经常性工作。汇报稿怎样在有限的时间里,让领导听得清楚、明白、满意,关键是要在找准“重点、
对西藏林芝地区的藏式庭院景观进行了调查,结果表明:(1)藏式庭院注重观花花卉,以具有农业气息的园艺植物为主,力求自然及管护简易,不注重修剪;(2)造景注重花卉的形、色、花期及视
现今医药市场的规模不断扩大,整个行业都在进行激烈的竞争。振东集团研究的抗癌行业也日趋白热化,怎样在新的竞争环境下,巩固自己的市场占有率,及开拓新的市场,是振东集团面
背景:精神分裂症是一类最为常见的严重的精神疾病,其发病率在1%左右,主要特征表现为思维、情感与行为障碍以及精神活动与环境的不协调。在以往精神分裂症易感基因的研究中,采
利用纤维质资源生产单细胞蛋白饲料的现状与展望(甘肃省畜牧学校武威733006)张登辉纤维质资源包括各类植物秸秆,皮、壳、芯、糠渣类、本屑等.这些资源所含的木质纤维素高(40%左右),还含有大量
地表冻融过程强烈影响着地气能量交换、地表径流、作物生长和碳循环等陆地表层过程,利用微波遥感监测地表冻融循环及其相关的地表信息对气候的响应和反馈显然极其重要。随着S
法官作为司法系统的终端,需要系统的支持和合理配置,才能向社会输出合格的“产品”,而法院正是这一系统的操作平台。本文从基层法院和法官关系的现实困境这一特定视角,通过贴