网页信息的自动抽取方法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:s5871212
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文首先介绍了网页信息抽取的背景和发展。根据所使用方法的不同,对多项相关的研究做了概要性的叙述,介绍了这些研究的思想及其优、缺点。对于目标记录所在区域的确定,本文使用基于启发式的方法来解决,介绍了三种针对这一问题的启发式,分别从节点扇出、子树大小增量和子树标记数三个方面对网页进行考察,并且将它们结合起来使用以取得更好的效果。对于记录的抽取,针对现有方法对噪声敏感的问题,本文提出了基于记录子树的最大相似度发现记录模式的思想,称为最大相似子树方法,将相似度超过一定阈值的子树识别为同类记录。这种方法在同类记录的表现模式有一定差异的情况下依然能够正确识别记录。对于记录属性的抽取,本文将隐马尔可夫模型用于网页信息抽取问题,介绍了隐马尔可夫模型的基本结构以及如何将其应用到信息抽取领域。针对本文的特定问题,确定了隐马尔可夫模型的结构,并使用训练样本学习了模型的参数。
其他文献
在供应链管理环境下,合作伙伴关系的构建是目标供应链研究的热点问题。本文针对供应链中的不合作行为,主要利用博弈论和信息经济学的原理和方法,对构建双赢的供应链合作关系
线性调频连续波雷达由于具有结构简单、无距离盲区、高距离分辨力、低发射功率的优点,特别适合于防撞系统、目标特性研究、测量系统等领域,目前已受到国内外的广泛重视与研究。
朝鲜文是一种由辅音和元音基本字母构成的文字,它跟汉字有很多相似之处,因此汉字识别中用到的一些理论也可以应用到朝鲜文识别中。朝鲜文根据元音字母类型和后辅音的有无可以分
  本文采用OOP技术,按照软件工程的原则,设计了一种开放式通讯模型,使其不但可兼容多种通讯协议,进行数据采集,又能做到模块的快速开发,并在实验室开发的ECON变电站监控系统中得
随着信息技术的飞速发展,作为信息载体的传输网络在各自壮大的同时,正朝着相互融合的方向进展,利用传输网络各自的优势,实施跨网业务的新技术不断涌现。本文介绍的基于嵌入式
针对复杂非线性系统的表达和控制问题一直是控制理论界的难题之一。作为一种表述方法和控制手段,模糊逻辑理论得到了大家的共同关注。本文介绍了基于Takagi—Sugeno(TS)模糊
机器人的建模与控制一直作为机器人研究中最重要的领域之一,工业、学术等各界都给予了高度重视。机器人的发展主要是控制技术的提升,机器人系统存在着非线性、强耦合、时变及其
在许多工程实际和科学研究问题中混沌现象已经成为一个无法避免的存在,因而对混沌的控制显得越来越重要。虽然自上世纪九十年代以来,混沌控制研究得到了蓬勃发展并取得了突破性
当前,随着科学的发展和技术的进步,汽车已成为人们生活中必不可少的现代交通工具,方便了人们的生活。但是不容忽视的一个问题是汽车数量的快速增长不仅带来了环境污染严重、
废纸的回收利用,是解决造纸行业原料短缺、污染严重、耗能大等问题的一条行之有效的途径,本文结合河北银象纸业废纸制浆工程对制浆过程DCS控制系统进行了研究。工作重点有两个: