基于视觉特征的WEB页面信息抽取技术的研究

被引量 : 0次 | 上传用户:a77115280
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的高速发展,Web已经成为这个世界上最大的信息来源。Web作为信息技术的载体已成为人们工作、学习、生活、娱乐的重要工具。Web的发展给人类生活带来了巨大的方便,人们可以跨越时间和空间界限来共享大量信息。而这些信息正呈指数级增长。那么,如何有效地利用这些信息成为人们的重要研究课题,因此出现了大量以Web作为信息源的技术和应用,其中Web的信息抽取技术在近年来引起了越来越多的研究者的关注。由于Web页面的信息属于半结构化的数据,缺乏严格规范的语法结构,所以传统的自然语言处理技术并不能很好地适用于Web信息抽取。Web页面被浏览器识别、解释和显示并供用户查看和理解,其中包含了大量的视觉特征,如果我们把Web页面的这种视觉信息应用于信息抽取,就可以避免使用复杂的自然语言处理技术。因此,将基于自然语言处理方式和Web页面的视觉特征有效地结合起来进行Web页面的信息抽取是本文研究的重点。本文结合自然语言处理技术和HTML页面视觉特征在Web页面信息抽取中的应用,进行了相关研究工作。首先,研究了Web信息抽取技术的发展,分析其现状,并总结了目前Web信息抽取技术存在的不足。其次,研究了Web中半结构化页面的视觉特征信息和基于视觉特征对页面分块的启发式规则。同时,提出了一种基于视觉特征的Web页面信息抽取算法(VWDREA,Vision-based Web Page Data Region Extraction Algorithm)。该方法利用网页的视觉特征规则,针对粗粒度的Web页面分块的细化问题和Web页面最小分块的重组问题,对页面块的视觉因素进行分析,最终准确确定待抽取的主题数据区域,并研究了Web页面语义块的信息采集和主题提取算法。最后,本文总结了Web信息抽取技术在实际应用中的价值及展望。
其他文献
空心钢管混凝土是一种将混凝土浇灌在钢管内经离心或预制成型并通过蒸汽养护制成的空心复合构件。它有弹塑性好、刚度大、自重轻、可工厂预制等优点。近年来国内外工程中已较
随着经济的发展,非审计服务逐渐成为注册会计师行业的主要服务项目,使得人们开始关注非审计服务与审计服务的关系,争论的焦点在于前者是否威胁审计独立性,进而影响审计质量。
目的:探讨瓣膜置换术患者围术期血浆脑钠肽(B-type natriuretic peptide, BNP)的变化规律,并初步研究围术期血浆脑钠肽浓度变化的临床意义。方法:选择20例择期行瓣膜置换术的患
本文研究的双亲性淀粉衍生物/橡胶微多相复合物可赋予橡胶制品特殊表面性能:兼具低滚动阻力和高抗湿滑性,提高抗静电性能,因此有可能用于国际上研究热点——绿色轮胎材料。在
肝脏和胰腺在人的新陈代谢中都起着举足轻重的作用:肝脏对于人体内蛋白质、糖类、脂类等很多物质的代谢有重要作用,营养素的合成、分解、转化、处理几乎都在肝脏进行,并且有
目的:观察间歇性低压低氧预处理对SD大鼠带真皮下血管网皮片周缘血管化进程、细胞增殖以及皮片成活面积的影响。皮肤移植是手外科、烧伤整形科等科室常用治疗方法,皮片一般可
目的:应用游离皮片法及扩张皮瓣法对于治疗重度颈部瘢痕粘连患者,对其术后短期、长期随访各项指标进行对比,综合评估分析两种术式优劣,指导术式选择。方法:我科自2005年到2008
本文通过一系列生产试验,尝试找出造成砖坯在抛光过程中砖面出现划痕缺陷的原因及解决办法.
交锁髓内钉的出现并广泛使用是骨折治疗领域的最大进展之一,用它来固定股骨干骨折部位的方法,可以使得患者的恢复效果比用钢板固定等方式治疗的效果好许多。但由于手术过程中
第一部分正常成人颅骨多层螺旋CT三维重组表现目的:探讨正常成人颅骨多层螺旋CT(Multi-slice computed tomography, MSCT)三维重组表现。方法:收集2009.05-07于我科行容积CT