基于Web结构的表格信息抽取研究

被引量 : 0次 | 上传用户:susan222
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来Internet迅猛发展,Web已随之发展为世界上规模最大最复杂的知识库,越来越多的人从Web中获取其所需信息,因此,Web信息抽取方法应运而生。Web上的数据类型多种多样,有结构化表格数据,半结构网页数据和无结构文本等等。Web表格广泛存在于网络购物、供求信息、资料检索结果等页面,从Web表格中抽取结构化表格数据,具有重要的研究意义。然而,这种半结构化的Web表格难以被用户推荐、供求分析等Web应用系统直接使用。为此,本文主要研究半结构化的Web表格信息抽取方法。由于Web网页可解析成树结构形式,经分析,Web表格信息在解析树中具有层次结构分明,类似的Web表格数据域对应的子树结构相似等特点。本文提出一个基于树编辑距离的表格数据域抽取算法EtractDRs,其中以树编辑距离度量子树结构的相似性,将结构相似度大于设定阈值的子结构合并,形成候选表格数据域,根据预定的启发式规则进行判别,得到最终的表格数据域。在上述工作基础上,最终得到所需的数据域。本文的主要工作如下:(1).有监督的学习算法,充分利用网页结构对数据进行处理,将网页解析成DOM树,采用基于路径模式的抽取方法抽取网页表格数据,无需对网页中具体内容进行分析。使用此方法思路简洁且适应性强。(2).无监督的学习算法,本文采用了一种自上而下受限的树编辑距离方法,根据网页源码编码及解析树的结构特点,网页信息结构差异采用自上而下的树比较方法最为合适。
其他文献
情绪表达冲突是在探讨情绪表达与心理健康关系问题中进一步发掘的一个新的研究领域。目前对于情绪表达冲突的研究主要集中在国外,国内才刚刚起步;并且目前针对的样本绝大部分是
经济全球化浪潮正在席卷社会生活各领域,导致世界范围的政治、经济、文化等各个方面相互交融与激荡,这种情形不仅深刻地改变了世界的生产方式和利益格局,同时来自不同国家、
在中国金融市场不断发展的过程中,多层次市场与投资品种多样化是实现我国金融市场规模化和效率化的重要手段。2008年金融危机过后,我国股市从单边下跌到现在的疲软整理,投资
对于低渗透致密砂岩储层的水平井,目前仍没有一种合理有效的测井解释方法能准确地评价此类储层的含油气性。以直接录取井筒内上返出的实物样品为基础的录井技术,能够直观有效
目的:建立原发性高血压肝气郁结证诊断量表的阈值。方法:随机选取200例原发性高血压病诊断标准的患者进行调查,通过专家咨询确定主观权重系数,利用因子分析法确定量表条目的
土方量计算一直是工程施工的难点问题,其计算方法由于受到多种条件限制,一直都难以得到比较准确的计算结果。随着计算机的不断发展,南方CASS软件可以比较准确地实现土方量的
森林作为陆地生态系统的重要组成部分之一,是物种基因的大宝库。森林不仅能为人类提供木材和其他林产品,还具有调节气候、涵养水源、保持水土、净化空气等重要的生态功能,因
马克思主义指导地位,是中国共产党人在马克思主义指导下,经过艰苦卓越的民族解放运动,建立新中国,马克思主义理论上升为国家主流意识形态后,确立的在国家意识形态领域的统治地位。
目的探讨PDCA循环结合追踪方法学在本科护生临床实习中的应用效果。方法选取2016年6月至2017年3月的本科护生270名为对照组,2017年6月至2018年3月的本科护生263名为实验组,对
根据对双关语的定义的理解,在对大量含有双关语的例句从语音、语义、词性以及其翻译手段进行分析的基础上,总结以往对双关语的归纳分类,提出了新的分类方法,并从奈达的翻译理