网页数据的自动化抽取技术

来源 :福州大学 | 被引量 : 0次 | 上传用户:dsfsfsg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web技术的迅猛发展,使得Web网页成为信息发布的主要载体也是人们获取信息的主要渠道之一,大量的数据以Web网页形式存储在互联网上,因为HTML编码风格各异,使得人们无法直接从Web网页中抽取出结构化数据,造成了资源的极大浪费。为了能够获取互联网中庞大的数据,人们提出了各种网页数据抽取方法。根据抽取目标的不同,可将网页数据抽取分为两种类型:(1)网页正文内容抽取,主要针对文章类型网页中的正文内容进行抽取。(2)网页结构化数据抽取,主要针对网页中存在的实例对象进行抽取。本文针对这两种不同的抽取目标分别提出了对应的抽取方法。针对网页正文抽取,因为Web网页中除了包含正文内容外,还包含导航条、广告、版权声明等与主题无关的噪音信息。这些庞大的噪音信息给网页正文抽取带来了巨大的挑战。因此,本文提出一种基于网页聚类的正文信息抽取方法,该方法主要有两个部分组成:第一,基于网页的结构特征对网页进行聚类;第二,面向相似网页集合的正文内容块的位置特征生成。采用该方法可以从多种类型的网页中抽取正文内容信息。针对网页结构化数据抽取,目前主要采用DOM树路径来作为抽取规则。然而,基于DOM路径的抽取规则使得在网页结构发生细微变化时无法准确定位抽取。因此,本文提出一种基于合并树的包装器半自动生成方法,该方法主要由三个部分组成:第一,合并树构建与抽象树的生成;第二,合并树中的节点定位与包装器生成;第三,目标网页的合并树重建与数据抽取。采用该方法使得在网页结构发生细微变化的情况下依然能够准确抽取出结构化数据。本文针对提出的这两种方法,分别实现了相应的原型系统并进行大量的实验,实验结果表明方法的可行性和有效性。
其他文献
<正>近年来,河南省法院系统从事关法院公信力、事关法院事业兴衰成败、事关法院生死存亡的高度狠抓党风廉政建设和反腐败工作,使法官队伍的工作作风和精神面貌有了较大转变,
目的探讨妊娠合并子宫肌瘤孕期、分娩期合并症及临床处理方法。方法随机选择我院30例妊娠合并子宫肌瘤分娩孕妇做观察组。选择同期分娩的无子宫肌瘤的孕妇32例为对照组,进行
互联系统区间低频振荡问题日益受到关注,本文基于MATLAB的PSB工具箱,对SVC在抑制电力系统低频振荡方面做了进一步研究。根据静止无功补偿器(SVC)抑制低频振荡的原理在传统控
红外型末制导导弹在飞行过程中光学头罩与大气产生发生剧烈摩擦,从而引起气动加热效应。随着导弹速度的进一步提高,气动加热效应对探测性能的负面影响越发明显。本文以球形整流
论文介绍了现有的医疗保险系统数据模型的特点,构建了Web Services的医疗保险系统数据模型,解决了基于现有分布式体系结构的医疗保险系统难以实现信息共享和功能共享问题。
期刊
本文结合抗震设防区划的研究和编制工作,介绍了基于GIS的抗震设防区划管理系统构造及其应用与发展和进一步完善等策略问题。
<正>《中国中医药报》2018年8月6日讯:2018年7月31日~8月2日,国家中医药管理局办公室组织人民日报、中国改革报、中华工商时报、健康报、中国中医药报等中央主流媒体记者前往
为研究SPF鸡感染禽网状内皮组织增生症病毒(REV)后白细胞介素2(IL-2)mRNA表达的动态变化,本研究应用荧光定量RT-PCR方法,对SPF鸡感染REV后主要免疫器官的IL-2mRNA转录水平进行了初
本刊讯内江经济开发区积极做好第十四届西博会的签约项目筹备工作,全力挖掘签约项目,今年拟在西博会上签约的项目有9个,投资总额35亿元,其中产业项目占投资总额的65.7%。拟签约的9