网页信息的自动抽取方法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户：s5871212

【摘要】

：

本文首先介绍了网页信息抽取的背景和发展。根据所使用方法的不同，对多项相关的研究做了概要性的叙述，介绍了这些研究的思想及其优、缺点。对于目标记录所在区域的确定，本文使用

【作者】

：

王庆伟

【机构】

：

中国科学技术大学

【出处】

：

中国科学技术大学

【发表日期】

：

2005年期

【关键词】

：

网页信息抽取 HTML标记树子树识别隐马尔可夫模型

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

本文首先介绍了网页信息抽取的背景和发展。根据所使用方法的不同，对多项相关的研究做了概要性的叙述，介绍了这些研究的思想及其优、缺点。对于目标记录所在区域的确定，本文使用基于启发式的方法来解决，介绍了三种针对这一问题的启发式，分别从节点扇出、子树大小增量和子树标记数三个方面对网页进行考察，并且将它们结合起来使用以取得更好的效果。对于记录的抽取，针对现有方法对噪声敏感的问题，本文提出了基于记录子树的最大相似度发现记录模式的思想，称为最大相似子树方法，将相似度超过一定阈值的子树识别为同类记录。这种方法在同类记录的表现模式有一定差异的情况下依然能够正确识别记录。对于记录属性的抽取，本文将隐马尔可夫模型用于网页信息抽取问题，介绍了隐马尔可夫模型的基本结构以及如何将其应用到信息抽取领域。针对本文的特定问题，确定了隐马尔可夫模型的结构，并使用训练样本学习了模型的参数。

其他文献

供应链环境下的合作伙伴关系研究

在供应链管理环境下,合作伙伴关系的构建是目标供应链研究的热点问题。本文针对供应链中的不合作行为,主要利用博弈论和信息经济学的原理和方法,对构建双赢的供应链合作关系

学位

供应链合作伙伴关系博弈论委托代理激励机制

基于TMS320C6201 DSP的连续波雷达信号处理

线性调频连续波雷达由于具有结构简单、无距离盲区、高距离分辨力、低发射功率的优点，特别适合于防撞系统、目标特性研究、测量系统等领域，目前已受到国内外的广泛重视与研究。

学位

线性调频连续波雷达数字信号信号处理信号处理系统

印刷体朝鲜文识别方法研究

朝鲜文是一种由辅音和元音基本字母构成的文字，它跟汉字有很多相似之处，因此汉字识别中用到的一些理论也可以应用到朝鲜文识别中。朝鲜文根据元音字母类型和后辅音的有无可以分

学位

朝鲜文识别字母分割辅音元音识别后处理

SCADA中开放式通讯模块的设计与实现

　本文采用OOP技术，按照软件工程的原则，设计了一种开放式通讯模型，使其不但可兼容多种通讯协议，进行数据采集，又能做到模块的快速开发，并在实验室开发的ECON变电站监控系统中得

学位

开放式通信规约变电站Tcl技术

基于嵌入式系统的E1/Etnernet适配器的设计

随着信息技术的飞速发展,作为信息载体的传输网络在各自壮大的同时,正朝着相互融合的方向进展,利用传输网络各自的优势,实施跨网业务的新技术不断涌现。本文介绍的基于嵌入式

学位

ARMFPGAE1以太网嵌入式系统

基于TS模糊模型的二级倒立摆系统仿真研究

针对复杂非线性系统的表达和控制问题一直是控制理论界的难题之一。作为一种表述方法和控制手段,模糊逻辑理论得到了大家的共同关注。本文介绍了基于Takagi—Sugeno(TS)模糊

学位

Takagi-sugeno(TS)模型模糊逼近模糊建模保性能控制基于模型的预测控制(MBPC)

ELM在机器人建模与控制中的应用研究

机器人的建模与控制一直作为机器人研究中最重要的领域之一，工业、学术等各界都给予了高度重视。机器人的发展主要是控制技术的提升，机器人系统存在着非线性、强耦合、时变及其

学位

极限学习机机器人辨识控制非线性系统

过程控制中混沌现象的PID控制研究

在许多工程实际和科学研究问题中混沌现象已经成为一个无法避免的存在，因而对混沌的控制显得越来越重要。虽然自上世纪九十年代以来，混沌控制研究得到了蓬勃发展并取得了突破性

学位

过程控制混沌现象混沌控制负反馈PID

基于状态观测器的车辆侧向控制

当前,随着科学的发展和技术的进步,汽车已成为人们生活中必不可少的现代交通工具,方便了人们的生活。但是不容忽视的一个问题是汽车数量的快速增长不仅带来了环境污染严重、

学位

侧向控制自行车模型线性矩阵不等式方法极点配置方法李雅普诺夫方法

基于继电反馈辨识的自整定控制器及其在废纸制浆DCS中的应用

废纸的回收利用，是解决造纸行业原料短缺、污染严重、耗能大等问题的一条行之有效的途径，本文结合河北银象纸业废纸制浆工程对制浆过程DCS控制系统进行了研究。工作重点有两个：

学位

继电反馈自整定控制器灵敏度DCS废纸制浆

网页信息的自动抽取方法研究

与本文相关的学术论文