基于网站结构的Web信息抽取方法研究

来源 :北京工商大学 | 被引量 : 0次 | 上传用户：wscmjk

【摘要】

：

随着Interact的飞速发展，Web已经发展成为一个全球的、巨大的、分布和共享的信息空间，为用户提供了一个极具价值的资源。但因Interact所固有的开放性、动态性与异构性，使得用户

【作者】

：

朱英

【机构】

：

北京工商大学

【出处】

：

北京工商大学

【发表日期】

：

2007年期

【关键词】

：

信息抽取网站结构数据密集型网站聚类算法模板推导

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着Interact的飞速发展，Web已经发展成为一个全球的、巨大的、分布和共享的信息空间，为用户提供了一个极具价值的资源。但因Interact所固有的开放性、动态性与异构性，使得用户很难准确快捷地从WWW上获取所需信息。如何快速准确地从浩瀚的信息资源中找到所需信息成为困扰网络用户的一大难题，这就是所谓的RichData-Poor Information。针对这一问题，出现了Web信息抽取技术。Web信息抽取系统从Internet上抽取的信息不仅可以直接提供给用户，还可以作为构建智能查询系统和数据挖掘系统的基础，有着广阔的应用前景。本文在概述Web信息抽取以及分析现有系统的基础上，针对数据密集型网站，设计并实现了一种新的基于网站结构的Web信息抽取方案。该方案主要包括四个步骤：(1)网站结构树生成：从网站的拓扑结构入手，根据网页之间的链接关系，生成网站结构图；然后去掉网站结构图中的回溯边，将网站结构图转化成网站结构树；(2)页面规范化：将网站结构树的叶子结点所在的页面进行规范化，转换成格式良好的XHTML文档；(3)页面二次聚类：采用二次聚类算法对网站结构树的叶子结点根据文档的组织结构进行聚类；(4)模板推导：采用匹配算法推导出每类的模板。本文所取得的主要研究成果如下： (1)提出了由网站结构图生成网站结构树的算法。该算法的目的是去掉网站结构图中的回溯边，从而将网站结构图转化成网站结构树，其主要思路是：首先根据网页结点URL所在目录的层次关系，去掉网站结构图中的部分回溯边；然后在宽度优先遍历的过程中去掉已经遍历过的重复结点，生成网站结构树。实验证明了该算法的有效性。 (2)针对聚合聚类算法时间耗费较大从而不适合数据量大的网站的特点，本文提出二次聚类算法对此进行了改进。二次聚类算法首先将网站结构树中深度值最大的叶子结点与其兄弟结点合并为同一类，称为“一次聚类”；然后采用聚合聚类法对一次聚类的结果以及剩余叶子结点进行聚类，称为“二次聚类”。这样可以大大减少聚合聚类的工作量，提高聚类的运行速度。并且实验证明，结果基本上能够达到聚类要求。 (3)模板推导是本文研究的重点。本文引入抽象语法树(Abstract Syntax Tree，AST)和union-free正则表达式的概念，并且用AST描述的union．free正则表达式来表示模板(即包装器)，提出了一种新的模板推导方法。该方法采用树状结构的匹配算法，对表示为AST的当前包装器和DOM树形式的当前样本进行匹配操作。算法不仅能够正确推导出结构上的可选、迭代模式，而且能推导出文本模板。本文设计实现的Web信息抽取方案，可以自动推导出数据密集型网站中各类网页的通用结构模板和文本模板，从而利用该模板对同类网页的信息进行抽取，为当前Web信息抽取方法的研究提供了新的思路。

其他文献

手写体数字识别方法的研究与实现

手写体数字识别是光学字符识别技术(OCR)的一个分支,在文件资料自动录入、金融税务系统数据统计、图像文本的压缩储存、自动阅读器、盲人助读器等领域有着广阔的应用前景.本

学位

特征提取神经网络组合分类器识别率手写体数字识别

基于回答集程序的医疗辅助系统的研究与实现

临床实践指南(CPG)是一种依据医学文献库中摘录的医疗证据和领域中专家的共识创建的文档，旨在提高医护质量和减少不必要的开支。基于CPG的医疗辅助决策系统是一种推广临床实践

学位

医疗辅助系统临床实践指南回答集程序活动图软件设计

基于非均匀颜色直方图和CTAGD算法的图像检索研究

近年来，伴随着多媒体技术和计算机网络技术的飞速发展，全世界数字图像的容量正以惊人的速度增长，无论是军用还是民用设备，每天都会产生容量相当于数千兆字节的图像。而在这些数字

学位

基于内容的图像检索直方图共生矩阵高斯密度DCT

纺织织物数字水印技术的研究与实现

起源于信息隐藏技术的数字水印技术，为实现有效的知识产权保护提供了一条崭新的思路，近年来已成为多媒体信息安全研究领域的一个热点问题。纺织织物是日常必需的消费品，其品牌商

学位

知识产权信息隐藏数字水印提花织物人类视觉系统单层组织多层组织小样图张力平衡

安全协议形式化验证方法的研究

安全协议也称密码协议，是建立在密码体制基础上的高互通的消息交换协议，它运行在计算机通信网或分布式系统中，其目的是在网络环境中提供各种安全服务。安全协议是构建安全网络环

学位

安全协议形式化方法串空间模型理想秘密性

基于Topic的Blog隐含社区发现

基于Topic的Blog的隐含社区发现为Blog的应用研究开辟了一个很有前途同时也具有相当挑战性的方向。随着Internet在人们生活中的广泛应用，Blog作为一种新型的网络媒介交流工具

学位

Topic发现Blog隐含社区SPC算法Blog页面相关度

基于模型检测的类测试自动生成技术研究

高可信软件技术是软件理论研究和工程实践领域关注的焦点之一。近年来，越来越多的形式化方法被应用于提高软件质量的研究上。软件测试是保证软件产品可靠性和正确性的有效手段

学位

面向对象软件测试模型检测类内测试类间测试数据流方法变异方法

复杂背景下声纹特征提取与识别

随着互联网以及信息化的迅速发展,声纹识别技术在金融、证券、社保、电子商务、银行等远程客户服务的身份确认和公安、军队安全部门的特定人身份自动检测和认证中具有广泛的

学位

声纹识别谱熵端点检测算法Mel倒谱系数SEMG算法

面向数值模拟的交互式几何用户环境的研究与实现

通过合理建模，工程与科学计算领域很多物理现象的模拟都可归结为偏微分方程的求解。随着计算机技术和计算方法的发展，复杂的工程问题可以采用离散化的数值计算方法，并借助计算机

学位

数值模拟几何建模几何修复曲面重构非结构化网格

蜜罐网络系统的研究与实现

蜜罐技术是一种新兴的基于主动防御的网络安全技术，目前正日益受到网络安全领域的重视。蜜罐主要通过精心布置的诱骗环境来吸引和容忍入侵者的攻击，进而了解入侵者的攻击思路、

学位

网络安全蜜罐网络入侵主动防御

基于网站结构的Web信息抽取方法研究

与本文相关的学术论文