面向Web表单的信息抽取通用模型

来源 :浙江大学 | 被引量 : 0次 | 上传用户:qiaochaoqiaochao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,互联网上的信息量急剧膨胀,但网页中信息表达的格式和风格随意、自由。面对多种的信息表达方式,让计算机去自动识别或分类这些信息就变得十分有意义。为了让计算机能够自动识别获取这些信息,各种信息抽取技术就应运而生。信息抽取技术的关键技术是包装器的生成方法。包装器(Wrapper)的生成方法是当前信息抽取领域的研究热点。然而当前的包装器生成方法设计一般针对某一特定的应用领域(如股票价格信息、工作招聘信息等),这样设计的包装器带有那一特定领域信息的特征,因此其应用都有其局限性。本文提出了一个面向Web表单的信息抽取通用模型,完整的设计和实现了模型的定义方法、训练方法、表达和存储方式及抽取方式。完整的阐述了对象模型和对象要素定义的结构和方法,并提出了一个采用此模型进行信息抽取的通用步骤。该步骤从互联网上获取包含需提取的信息的网页,然后通过网页视觉布局等信息分析得到含有具体内容的Web表单,然后建立待抽取对象的对象定义模型,最后通过该模型从抽取的Web表单中进行特定信息的抽取。在对象模型的定义时采用了专家定义和使用训练库训练两种方法相结合的方法。在最后的系统实验中,实践了使用该模型进行信息抽取的完整步骤,首先定义了两个对象模型(手机和MP3),然后从互联网中抽取了近万个这两种产品的Web表单,最后使用定义的两个模型进行了信息抽取,通过实验显示该模型对表单式的信息有较好的抽取效果。本文主要内容总结为以下几点:1.面向Web表单信息抽取通用模型的设计与实现;2.Web页面中视觉上的主体表单的提取;3.通过定义的对象模型对表单信息进行抽取的步骤和方法。
其他文献
网格技术被誉为继互联网和Web之后的第三次信息技术浪潮,网格把整个互联网整合成一台巨大的超级计算机,实现计算资源、存储资源、通信资源、软件资源、信息资源、知识资源的全
近年来,说话人识别(Speaker Recognition)领域各种特征信息提取手段层出不穷,模型识别技术日新月异,给实验和研究带来一定的挑战,目前已有的软件平台的在覆盖面和扩展性上已经不
在计算机科学领域,数据存储一直以来都是研究的重点。网络存储由于所采用的技术和协议不同,逐渐形成了不同类型的网络存储架构,其中附网存储光纤通道存储区域网是应用最为成
无线传感器网络已引起了许多国家学术界和工业界的高度重视。它被认为是对二十一世纪产生巨大影响力的技术之一,有广泛的发展前景。当前传感器网络的研究和应用都是以实现数据
近年来,在全球新科技革命浪潮的推动下,以现代信息技术的广泛深入应用为特征的远程教育随着互联网的普及和社会需求的增长迅速发展,已成为我国教育事业的重要组成部分。同时远程
在计算机动画中,人物角色的动画通过动作数据来驱动和表达的。动作数据有很多生成方式,包括关键帧动画、动作捕捉、物理模拟、动作编辑和重用等。动作重用作为一种动作生成手段
自上世纪八十年代,Marr提出视觉系统框架以来,计算机视觉得到了长足的发展,涌现出不少新的研究方向,如图像分割、运动视觉分析、三维恢复重建、物体建模与识别以及立体视觉等。本
随着信息技术的发展,作为医院数字化核心的PACS(医学影像存储与传输系统)越来越受到人们的关注。海量的医学图像数据要求PACS系统提供巨大容量的存储空间来保存;在PACS中,图像数
随着无线网络技术和音视频技术的发展,移动多媒体应用在人们的生活中扮演越来越重要的角色。为有效利用有限的带宽资源,多媒体数据在传输之前必须进行压缩,同时为保证网络多
普适计算的真正目的在于实现以人为本的计算,它使计算和通信能力无处不在地融合在人们生活和工作的现实环境中。其中人机交互的便利性和友好性是必需的,其对于系统的自然语言理