一种通用的网页内容抽取模块的设计与实现

被引量 : 0次 | 上传用户:flyerhan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
经过数十年的飞速发展,互联网已经成为最主要的信息存储容器,而互联网中绝大部分信息都以HTML页面形式存在,然而HTML页面中信息本身与信息的展现方式(HTML代码)混杂在一起而没有明确的界限,如果脱离了页面信息也就失去了使用价值。本文介绍了一种可以将页面中的信息成功抽取并结构化存储的方案,旨在赋予互联网网页中信息二次利用的价值。本文针对结构化页面提出了一种通用的内容抽取方案。结构化页面根据不同展现形式可分为三类:静态简单页面,静态自相似页面和动态页面。本文针对不同类型页面采用并实现了三种抽取方法:(1)静态简单页面的抽取主要基于XML配置文件,通过配置节点信息以及字段描述,完成页面信息的抽取。(2)静态自相似页面主要是指列表类的页面,关键在于抽取出列表里面的信息,找到页面中每个列表项的位置,完成列表内信息的抽取。(3)动态页面主要是指在用户浏览时页面的展示信息与展示方式会动态发生变化的页面。需要模拟浏览器环境先将动态页面静态化,再按照静态页面抽取方法抽取。最后本文以新闻详情页测试了静态简单页面的抽取结果,以动态加载的新闻列表页测试了静态自相似页面以及动态网页的抽取效果,并测试了系统抽取大量页面时的时间耗费情况。
其他文献
从规范论的角度而言共同犯罪的规定是一种制裁规范,而不属于行为规范的范畴。但在这一制裁规范的内部,同样必须具备能够发动该制裁规范的行为规范。对于主犯而言,"共同故意"
<正>艺术圈的江山有时候真的很稳固,成名艺术家占据艺术榜单多年已是习以为常。然而,无论是圈内专业人士还是媒体人士,有时候真的很希望会有黑马涌现。这一次,第八届AAC艺术
以川藏交通走廊冻融侵蚀灾害为研究对象,采用冻融指数比和月平均气温为指标建立了该走廊冻融侵蚀风险评价方法和体系,得到以下结论:川藏交通走廊(西藏境)需要进行工程措施处
为更好地促进杂志的发展,加强编辑部与论文作者及广大读者的沟通,鼓励更多优质论文作者投稿,提升杂志的影响力,不断提高办刊质量,《交通信息与安全》编辑部制订了杂志年度优
<正>北京市首个小微湿地保护修复示范项目近日在北四环中路北辰中心花园建成,面积4 100m~2。通过地形地貌恢复、湿地植被恢复、生态护岸等手段,使原本景观欠佳、黄土裸露的场
目的利用信息化手段实现临床微生物检验流程及重要操作节点的智能化控制,统一判断规则,杜绝操作流程中的人为差错。方法按照质量控制要求,分析流程中的质量控制节点,重置临床
随着用户对网络带宽需求的不断增长,光接入网已经步入了飞速发展的时代。数据业务的比重增大,业务类型的多样化,使得现有的接入网已经无法负担如此巨大的数据传输任务。下一
泵站技术供水系统作为主水泵正常运行的基本保障,其供水方式有多种形式,本文针对淮安市杨庙南站的运行特点,通过对电机推力轴承及上、下导轴承冷却器用水量、水泵调节机冷却
大学生意识形态安全教育对维护整个国家的意识形态安全意义重大,但是当前,我国大学生意识形态安全教育现状令人堪忧:一方面,多元的思想价值观影响着我国大学生的价值选择,致使
目的:1.观察益气解毒活络中药复方对早期糖尿病肾病模型大鼠的药效学指标(空腹血糖、糖化血红蛋白、肌酐、尿素氮、血β2微球蛋白、24h尿微量白蛋白及肾脏病理)变化的影响,探讨该