面向Web表单的信息抽取通用模型

来源 :浙江大学 | 被引量 : 0次 | 上传用户：qiaochaoqiaochao

【摘要】

：

随着互联网的发展，互联网上的信息量急剧膨胀，但网页中信息表达的格式和风格随意、自由。面对多种的信息表达方式，让计算机去自动识别或分类这些信息就变得十分有意义。为了让计

【作者】

：

张忠

【机构】

：

浙江大学

【出处】

：

浙江大学

【发表日期】

：

2007年期

【关键词】

：

信息抽取模型 Web表单

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网的发展，互联网上的信息量急剧膨胀，但网页中信息表达的格式和风格随意、自由。面对多种的信息表达方式，让计算机去自动识别或分类这些信息就变得十分有意义。为了让计算机能够自动识别获取这些信息，各种信息抽取技术就应运而生。信息抽取技术的关键技术是包装器的生成方法。包装器(Wrapper)的生成方法是当前信息抽取领域的研究热点。然而当前的包装器生成方法设计一般针对某一特定的应用领域(如股票价格信息、工作招聘信息等)，这样设计的包装器带有那一特定领域信息的特征，因此其应用都有其局限性。本文提出了一个面向Web表单的信息抽取通用模型，完整的设计和实现了模型的定义方法、训练方法、表达和存储方式及抽取方式。完整的阐述了对象模型和对象要素定义的结构和方法，并提出了一个采用此模型进行信息抽取的通用步骤。该步骤从互联网上获取包含需提取的信息的网页，然后通过网页视觉布局等信息分析得到含有具体内容的Web表单，然后建立待抽取对象的对象定义模型，最后通过该模型从抽取的Web表单中进行特定信息的抽取。在对象模型的定义时采用了专家定义和使用训练库训练两种方法相结合的方法。在最后的系统实验中，实践了使用该模型进行信息抽取的完整步骤，首先定义了两个对象模型(手机和MP3)，然后从互联网中抽取了近万个这两种产品的Web表单，最后使用定义的两个模型进行了信息抽取，通过实验显示该模型对表单式的信息有较好的抽取效果。本文主要内容总结为以下几点：1．面向Web表单信息抽取通用模型的设计与实现；2．Web页面中视觉上的主体表单的提取；3．通过定义的对象模型对表单信息进行抽取的步骤和方法。

其他文献

基于移动Agent的Web服务资源框架研究

网格技术被誉为继互联网和Web之后的第三次信息技术浪潮，网格把整个互联网整合成一台巨大的超级计算机，实现计算资源、存储资源、通信资源、软件资源、信息资源、知识资源的全

学位

网格Web服务资源框架移动AgentGlobus

Sonar v2.0：开放式说话人识别研究平台的设计、实现和推广

近年来，说话人识别(Speaker Recognition)领域各种特征信息提取手段层出不穷，模型识别技术日新月异，给实验和研究带来一定的挑战，目前已有的软件平台的在覆盖面和扩展性上已经不

学位

说话人识别Sonar教学平台基于脚本的自动评测

移植到Windows平台的嵌入式iSCSI启动端驱动实现

在计算机科学领域,数据存储一直以来都是研究的重点。网络存储由于所采用的技术和协议不同,逐渐形成了不同类型的网络存储架构,其中附网存储光纤通道存储区域网是应用最为成

学位

互联网小型计算机系统接口小型计算机系统接口设备驱动Storport驱动接口智能输入/输出分离设备驱动消息单元主机总线适配器

无线传感器网络中的数据查询技术的研究

无线传感器网络已引起了许多国家学术界和工业界的高度重视。它被认为是对二十一世纪产生巨大影响力的技术之一，有广泛的发展前景。当前传感器网络的研究和应用都是以实现数据

学位

无线传感器网络数据查询Tapestry蚁群算法Dijkstra算法查询驱动模式

可视化远程教育管理系统研究

近年来，在全球新科技革命浪潮的推动下，以现代信息技术的广泛深入应用为特征的远程教育随着互联网的普及和社会需求的增长迅速发展，已成为我国教育事业的重要组成部分。同时远程

学位

可视化信息系统形式化模型粒子群算法

动作改编技术研究

在计算机动画中，人物角色的动画通过动作数据来驱动和表达的。动作数据有很多生成方式，包括关键帧动画、动作捕捉、物理模拟、动作编辑和重用等。动作重用作为一种动作生成手段

学位

计算机动画动作重用动作改编动作位移映射逆向运动学时空约束约束优化求解阻尼非线性最小二乘序列二次规划

视觉对象跟踪与检测

自上世纪八十年代，Marr提出视觉系统框架以来，计算机视觉得到了长足的发展，涌现出不少新的研究方向，如图像分割、运动视觉分析、三维恢复重建、物体建模与识别以及立体视觉等。本

学位

视觉对象检测跟踪人体运动特征点

基于整型小波变换技术在医学图像压缩的应用研究

随着信息技术的发展，作为医院数字化核心的PACS(医学影像存储与传输系统)越来越受到人们的关注。海量的医学图像数据要求PACS系统提供巨大容量的存储空间来保存；在PACS中，图像数

学位

提升方案整型小波变换周期延拓嵌入式零树编码

AVS-M关键技术及多平台应用研究

随着无线网络技术和音视频技术的发展,移动多媒体应用在人们的生活中扮演越来越重要的角色。为有效利用有限的带宽资源,多媒体数据在传输之前必须进行压缩,同时为保证网络多

学位

AVS-M帧内预测变换量化软件优化嵌入式操作系统

面向普适计算办公环境的汉语处理技术的研究

普适计算的真正目的在于实现以人为本的计算，它使计算和通信能力无处不在地融合在人们生活和工作的现实环境中。其中人机交互的便利性和友好性是必需的，其对于系统的自然语言理

学位

普适计算自然语言理解汉语处理语义处理接口词法分析句法分析

面向Web表单的信息抽取通用模型

与本文相关的学术论文