基于图模型的Web表格中视觉信息的研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户:WYH5198
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web包含了海量的文本与表格数据。现今,自然语言处理技术对于Web数量级的自由格式的文本理解仍旧是一个艰难且费时的课题。与非结构化的文本信息相比,结构化的Web表格所包含的信息更为精练,具有数据挖掘的意义。Web表格信息挖掘已成为一个热点研究问题。Web表格信息挖掘主要分为两个研究方向,一是根据已有的语料知识库来理解表格,然而这种方法受限于语料库;二是从视觉方面来挖掘表格的语义,这是本文的主要研究方向。为了研究Web表格的视觉信息,一种图结构的模型以及构造方法被提出,该模型可以存储Web表格的行列结构、单元格背景、颜色、文本字体、字号、文本样式等视觉信息,从而进一步挖掘出其中所蕴含的语义。基于Web表格的图模型,本文着重研究了两个问题。一是Web表格的视觉并列关系,它被形式化定义;本文提出了一种算法能自动抽取Web表格的视觉并列关系;实验表明所提取的视觉并列关系与语义相似度之间存在着显著的正相关性。二是Web表格的展开方向,它蕴含了丰富的语义关系,本文定义了表格展开方向的一系列视觉特征,并使用这些特征构建了几种分类器来检测表格的展开方向,实验评估表明使用随机森林分类器的准确度能达到92%以上。通过对这两个问题的研究表明Web表格视觉信息的提取将有助于其他语义分析工作。
其他文献
经过数十年的快速发展,Internet已经发展成为足以和电信网抗衡的全球性大网,而且现有IP网络正在发生着深刻的变化,逐步由单一的数据传送网络向数据、语音、图像等实时多媒体信息
粗糙集理论是八十年代初由波兰数学家Z.Pawlak提出的一个分析数据的数学理论,粒度计算是近年来新兴的一个软计算方法。本文以当前人工智能中十分活跃的研究领域——粗糙集理
Agent和多Agent系统(Multi-Agent Systems,简称MAS)正在成为人工智能研究实用化和在分布计算环境下的软件智能化的重要技术。MAS技术的研究主要集中在三个方面:Agent行为理论、
本文对网格环境下资源预约的可适应性分析以及优化进行了研究。文章首先对资源预约问题进行了详细的表述,分别建立了一个有资源预约功能和一个没有资源预约功能的应用模型,然后
随着互联网的逐渐普及和不断发展,电子政务已经成为当前政府部门完善政府管理与服务职能的重要手段。各级国税机关很多都建立了自己的网上办税网站,为纳税人提供了方便,但还存在
企业面对日益激烈的竞争环境,为了提高自身的应变能力和竞争实力,需要应用更加高效的管理系统。业务流程管理就是为适应变化的环境,以规范化的构造端到端的卓越业务流程为中心,以
互联网是一个具有虚拟的无限潜力的信息资源。然而,这种潜力只是相对地得到充分应用,因为对于机器(计算机)来说,智能地处理和整合万维网上的这类信息是困难的。近年来,研究者们提
XML正迅速取代HTML成为Web上数据表示、集成和交换的标准。与HTML相比,XML具有简单、自我描述的特点,并且实现了内容、结构和表现三者的分离,更适合于数据表示和交换。近来,XML在
计算机和网络技术的迅速发展正逐渐改变人们的工作和生活方式,网络应用已经渗入到了人们日常生活的每一个角落。网络的便利吸引了形形色色,各种层次,各种水平,各种需求的人来在网
进入90年代以来,需求工程越来越多的受到了人们的重视。需求捕获作为需求工程中的重要部分也得到了很大的发展。用例是UML中捕获需求的技术,已随着UML广泛应用于各个领域。它