Web信息抽取技术综述

来源 :计算机应用研究 | 被引量 : 0次 | 上传用户:jeremy008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
快速高效地获取网页主题信息的需求使得Web信息抽取技术成为信息技术领域的研究热点。现有的Web信息抽取技术大致可以归纳为基于统计理论的、基于视觉特征的、基于DOM树结构的和基于模板的几类。由于网页文本本身具有树结构并且具有一定的相似性,基于DOM树结构和基于模板的抽取技术发展很快而且已经得到了广泛的应用。分别论述了上述几类技术在近几年来的研究进展,从自动化程度、适用范围和复杂性三个角度分析对比了几类技术的优缺点。
其他文献
景观带的设计在我们的生活中不少见,不管是公园景观、小区景观、校园景观等等,都与人们的生活密切联系。本次设计就以景观带的设计研究出发,通过实际案例寻求适合各地景观带
<正>一、品种介绍玛卡(Maea)是十字花科菜属植物,别名甜菜根或秘鲁甜参,原产南美洲秘鲁境内的安第斯高原。玛卡的食用部分肉质根短圆锥形,外皮呈紫色或
检视马克思思想发展的演变,历来的研究著作和教材都认为,马克思早期经历了一个"从革命民主主义向共产主义、从唯心主义向唯物主义"的转变过程,这时于哲学史、思想史来说是一
《德意志意识形态》中相当多的思想在马克思、恩格斯以后思想发展中、在20世纪马克思主义理论和实践的变迁中得到了拓展、深化、变革和修正。其中几个重要的思想的演变包括:"
2008年全球金融危机爆发。为有效应对金融危机,使本国从经济衰退中复苏,美国推出量化宽松货币政策。从2008年11月至2014年10月的近6年间,美联储进行了四轮量化宽松货币政策。
品牌中存在着大量的美学问题和审美规律,品牌的价值也深受审美因素的影响。品牌不仅是一个审美消费过程,也是一种美的创造、形成和感受的过程,还是美的价值创造及实现的过程
目的探索7-乙基-10-羟基喜树碱(7-ethyl-10-hydroxy camptothecin,SN-38)脂质体的体内外抗肿瘤作用。方法体外实验采用噻唑蓝[3-(4,5-dimethyl-2-thiazolyl)-2,5-diphenyl-2-
《扬州画舫录》记录了清乾隆时期皇帝南巡带动的扬州地区的风土人文、建筑园林等诸多方面的发展。其中,《工段营造录》收录于《画舫录》中,为土木建筑史料。文章首先介绍了选题
楷书被称为五体书的楷模,它的结体是以平正为主要特点,笔画尽显平正。楷书解决了草书的随意性跟汉代隶书的波画问题,它对维护书法艺术的完整系统性和延续中华几千年文明都具
客货运输是航空公司的主要经营业务,对于地域经济以及国民经济具有重大意义。20世纪80年代,随着发达国家逐渐地放松航空运输管制,航空运输并购事件也随之不断地增加。同样地,并购