基于多用户的Web信息采集系统的设计与实现

被引量 : 0次 | 上传用户:dudulee
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web信息的急速增长给信息的提取和有效使用带来了巨大挑战,特别是对于众多的企业用户,如何从大量的网站页面中把需要的有用信息提取出来是它们迫切需要解决的问题。本课题是针对这些企业用户开发的基于多用户的Web信息采集系统,它实现了可视化的采集规则设置界面,并以C/S方式把用户的采集任务放在远程服务器上运行,从而减轻了用户在采集规则设置和采集任务维护方面的负担。本课题系统包括客户端和服务器端两部分组成,服务器端包括采集服务器和中心服务器。用户通过客户端进行采集项目设置并把采集项目上传至中心服务器,中心服务器把采集任务分配给采集服务器进行信息采集,采集服务器在采集完成后把采集结果通过Email、Ftp等方式发送给用户。本课题系统构架采用C/S结构和B/S结构相结合的方式,主要使用Python程序语言开发,在客户端使用Javascript和DOM技术实现了采集项目设置的可视化,使用XML-RPC协议同服务器进行通信。在采集服务器端使用Html51ib对页面进行清理,以XPATH的方式对页面信息进行采集、提取,实现了对各类页面(包括一些非标准和HTML5页面)的页面清理、信息提取功能。在中心服务器端使用数据库结合多进程的方式完成采集任务的分发和控制,并利用Django框架完成了一个Web界面的后台管理模块为管理员提供用户账号、采集任务的管理功能。同时在服务器端配置了Cacti对服务器系统状态进行监控,以确保系统的稳定性和可靠性。本课题系统采集规则设置完全可视化,不需要编写脚本,操作简单;采集任务在远程服务器上运行,不需要用户自己维护,可以为用户提供稳定的、持续的信息采集服务。目前系统已完成测试和试运行,试用效果良好,能够为用户提供稳定的采集服务,同时在易用性和运行成本方面与同类软件相比具有优势,适合进行大规模市场推广。
其他文献
“伤痕文学”作为新时期文苑中的第一束花朵,她的花开花谢都具有重要意义。在过去的三十年中,对“伤痕文学”产生和消亡的研究成果众多,本文在前人研究的基础上,立足于具体的
农地整理是增加耕地面积,提升耕地质量,提高土地利用率和产出率的重要举措。我国自开展农地整理以来,取得了显著成绩。1997~2009年,全国整理农用地1333.33万hm2,补充耕地约305
国家形象是一个国家(包括个人、组织和政府)在国际范围内得到的其他国家的综合评价和总体印象。当前的国际舆论是由西方媒体主导的。美国媒体对国际舆论有着举足轻重的影响。
目的:通过比较猪、牛、羊胆汁中胆酸类成分和对发热小鼠清热作用的差异,为胆南星炮制辅料的筛选提供参考依据。方法:采用HPLC-CAD法检测三种胆汁中胆酸类成分(胆酸、去氧胆酸、
目的:观察综合护理干预在抑郁症患者康复治疗中的效果。方法:将收治的86例抑郁症患者按不同护理方案随机均分为对照组(药物治疗+常规护理)和观察组(药物治疗+综合护理干预),
马克思主义是一种科学的理论,是我们进行社会主义现代化建设的指导思想。同时,马克思主义作为一种科学的信仰,也是武装大学生思想的重要武器。大学生是祖国的未来和民族的希望,他
<正>民国36年(1947年)4月1日据统计,民国34年11月至是年2月底,善后救济总署广西分署各期配发的粮食共60345吨,主要用于救济及工赈。至3月底,计发衣服539092件,军毯16350张,蚊
目的探究热毒宁注射液治疗急性气管-支气管炎的临床效果。方法选取本院2012年1月—2013年11月收治的急性气管-支气管炎患者100例,将其随机分为对照组和试验组,各50例。对照组
随着汽车制造水平的提高和人们对汽车舒适度要求的提高,汽车的振动与噪声特性已成为衡量一个汽车品牌的重要指标之一。本文以某型大客车为研究对象,利用有限元法和边界元法,
唐代是我国历史上诗歌非常发达的朝代,本文对唐代咏蝉诗进行了较为系统的梳理,研究唐代咏蝉诗的主题内容、艺术特色以及其展现出来的唐代不同时期的社会风貌。首先,本文追溯