基于标签树的列表页面数据抽取技术研究

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:dengliguo1971
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随Internet的飞速发展,Web已经成为一个巨大的、共享的、分布式的信息资源集合,如何从浩瀚的Web信息资源中自动获取用户感兴趣的数据记录或有用的信息,已成为人们深入探讨的课题。目前,大多数Web数据都以非结构或半结构化的形式呈现,缺乏对数据本身的描述,不包含清晰的语义,模式也不太明确,这使得应用程序无法直接解析并利用Web上的海量信息。为了避免“数据爆炸,知识匮乏”的尴尬,从海量的半结构化Web数据中抽取出结构化的、与主题相关的数据,向用户提供增值服务(如监控股市的及时行情、比较各个网站的商品价格、跟踪合作伙伴或竞争对手的动态、集成企业内外部的各种信息等),各种Web数据抽取技术应运而生,并日渐发挥出强大的作用。因此,Web数据抽取技术有着明显的优势和广阔的前景,是数据提取技术、人工智能信息检索、自然语言理解技术在网络信息处理中的应用,是当今多个领域的研究热点。本论文探讨了针对由模板生成的列表页面,如何检测其通用模板,并将嵌入在模板中的数据抽取出来,实现了列表页面数据的自动抽取。首先,简要叙述了半结构化数据、Web数据抽取、列表页面的概念;接着,深入研究了Web数据抽取技术的发展历史、现有技术,并在对各种技术比较后,指出现有技术的优缺点、未来可能的发展方向;然后,详细介绍了作者前一阶段的学术成果——自动抽取Web数据的树对齐算法,它是本论文所提出的基于标签树的列表页面数据抽取系统的研究基础和核心部分。本论文实现了此算法,完善了树对齐之前和之后的相关流程,形成了完整的Web数据抽取系统;最后,详细介绍了本论文所提出的基于标签树的列表页面数据抽取系统的设计、实现与实验,该系统构造标签树、挖掘主数据区域、识别数据记录、生成记录模式,逐步缩小目标区域大小,从而抽取用户感兴趣的数据记录或有用的信息。实验证明,该系统能够有效地处理列表页面,抽取数据信息,能够适应广泛的实际需求,并具有深入推广的应用价值。
其他文献
梁-柱结构是结构工程中常见的构件,无论是在机械工程、土木工程、水利工程以及航空航天工程,还是在一些高科技领域,都能够找到梁-柱结构的应用背景。随着高科技的不断发展,梁
科技时代带来信息的飞速增长,计算机与网络技术的飞速发展使整个应用领域的数据和信息十分巨大,更甚于人类的参与,使得数据与信息系统中的不确定性更加显著、因此,对于图片视
安全是任何网络系统都关心的问题;对于缺少基础设施的资源约束型无线传感器网络来说,安全显得尤为重要。长期以来,无线传感器网络安全的研究是无线传感器网络研究中的研究热
远程复制又名远程镜像,是维持数据一致和灾后恢复的基础,也是数据容灾的核心技术。它在本地生产中心与物理上分离的备份中心建立远程复制连接,在备份中心存储并维护数据镜像。当
Internet的普及和应用十分迅速,已成为人们获取信息和知识的重要途径。互联网体系结构具有开放、异构和分布式等特点,互联网上的信息具有海量、冗余、更新快等特点。搜索引擎
森林资源是社会发展的重要物质基础,其可再生性对经济发展、社会进步和环境的稳定具有重要意义,是其它资源所不能代替的。随着遥感技术的快速发展及广泛应用,地物的纹理、形状等信息十分丰富。近年来,使用滤波技术对图像纹理特征进行纹理捕捉,已成为提高图像分割精度研究的主要方向之一。综合运用光谱信息和图像纹理信息提取森林植被纹理结构特征,已经成为当前遥感图像分割技术研究的一个重要方向。由于,遥感图像中森林植被树
随着信息技术不断的飞速发展,促使人们对家居环境的舒适性、安全性提出了更高的要求。此外安防技术也已经从商业领域、军事领域等逐步开始转变、渗透到了家庭领域;安防系统由
随着信息产业与数据库的迅猛发展,特别是在计算机得到广泛普及之后,人类所积累的知识和数据量正在呈指数增加。伴随而来的就是大型数据库急遽增加和海量信息存储的问题。这些
类电磁算法是一种模拟物理学中电荷间排斥-吸引规律来对现实中多维问题求解的智能算法。目前将类电磁算法的应用到实际问题中还比较少,虽然类电磁算法自诞生到现在虽不足十年
现在股民对自己所持股票的判断依据很多来自互联网,但由于现在网络信息量巨大、信息间没有相应的语义支持,使得他们难以充分利用网上的股评信息。在分析国内外语义Web基础上,