基于网络爬虫的网站信息采集技术研究

被引量 : 0次 | 上传用户:NobelHsu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅速普及发展,它已经逐渐融入人们日常生活的方方面面。其中Web是人们在互联网上互相沟通、获取外界信息的重要途径。作为一个很有价值的信息来源,Web凭借其直观便利的使用方式以及丰富的内容表达能力,可以为用户提供多种形式的信息,例如文本、音频、视频等。随着时间的推移,互联网的信息规模及其用户群体规模也在快速增长。互联网用户的需求正在变得越发多样化,如何为用户快速地提供其所感兴趣的信息是目前的一大难题。如今自媒体已经在互联上逐渐开始兴起,并且其规模越来也庞大,其中不乏各行各业优秀代表人物,因而开始受到越来越多的关注。因此本文提出运用一定的技术手段实现对百度百家这一自媒体平台完成采集其站点内的文章内容。然后对所采集的文章内容进行重新组织,以利于对这些内容的二次利用。围绕这一目标,本文提出了基于网络爬虫的网站信息采集技术的整合方案的设计与实现。本文提出的基于网络爬虫的网站信息采集技术的整合方案包括信息采集、信息抽取、信息检索这三部分。其中信息采集是基于Heritrix爬虫的扩展(结合HtmlUnit)所实现,负责完成对目标站点的网页采集;信息抽取是基于Jsoup和DOM技术所实现,负责完成从网页中抽取文章信息保存至数据库中,将非结构化信息转化成结构化信息;信息检索是基于Lucene索引工具以及SSH2架构所实现,负责向呈现所采集的文章信息,便于用户浏览。
其他文献
目的:探讨剖宫产术后子宫切口愈合不良的相关因素、诊治方法、预防措施.方法:对我院2002~2004年收治的剖宫产术后子宫切口愈合不良的临床资料进行回顾性分析.结果:11例中以产
在社会主义初级阶段,由于受经济发展水平的制约,政府尚无包办卫生事业的能力,事业发展需要与政府投入不足的矛盾将长期存在.而解决这一矛盾的有效途径就是动员全社会积极参与
科研经费管理一直是科研项目管理中的重要组成部分,随着国家加大科研经费投入,科研经费管理呈现日趋复杂的局面。经济、政治和历史等客观因素导致我国科研经费投入存在不平等
政府采购在我国施行以来,在加强事业单位支出管理、提高资金使用效益,强化宏观调控等方面彰显成效。但随着采购范围和规模的不断扩大,认清风险、通过建立健全内控制度合理防
背景:骨盆骨折多为高能量损伤所致,随着影像学技术的发展及对骨盆解剖结构和生物力学的深入研究,内固定和外固定材料在骨盆骨折损伤修复中逐渐被应用。目的:综述骨盆骨折后外固
目的探讨合理的闭合性喉外伤治疗方法。方法回顾分析2000~2005年间我院收治的闭合性喉外伤1l例的临床资料。结果在Ellis理性情绪行为治疗方法的辅助治疗下,11例闭合性喉外伤中
随着传统化石能源逐渐匮乏价格高企,以及人类对环境保护问题愈发关注,可再生能源以其无污染、建设周期短、投资灵活、资源丰富等特点逐渐得到了人们的重视。在政策的鼓励下,
近年来,伴随着社会婚姻关系的复杂化,夫妻之间的财产矛盾纠纷日渐突出。随着经济社会的不断发展,我国相关法律制度不断建立和完善,从很大程度上解决了以往法律规定不合时宜、
时代不断在发展,我国的幼儿教育事业也在蓬勃不断地发展,在发展的过程中越来越现代化的教学设施和与时俱进的教学模式已经取代了旧时期的教学方法,虽然在教学改进当中取得了
作为国内外大中型企业最普遍采用的一种培训方式,企业内训不仅能为企业提供所必须的现代管理知识和岗位生产技能,还具有提升企业团队凝聚力、培训效果明显、节约培训成本等优