基于结构和视觉特征的网页信息抽取技术的研究与实现

被引量 : 0次 | 上传用户:changkaiaini
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,越来越多的数据通过各个网站发布在互联网上,通过动态生成的网页呈现在用户面前。垂直搜索引擎就是从不同的网站抽取出同一类型的信息,进行整合和后期处理后供用户查询的专业搜索引擎。网页信息结构化抽取是垂直搜索中的关键技术,是垂直搜索引擎后台的关键模块。手工的信息抽取处理虽然简单、技术门槛低,但是由于信息源的多样化和潜在的改版风险,手工处理可能带来巨大的维护成本。本文提出一种基于结构和视觉特征的自动化网页信息抽取技术(WIES代表Web Information Extraction System),主要由两步完成:第一步是网页中的数据记录定位,第二步是数据记录之间的数据对齐和属性抓取。抽取技术把网页的结构化特征和视觉特征结合起来,实现了准确率很高的数据记录定位,同时,利用视觉特征过滤掉多数噪音,减少了定位算法的计算量的同时也提高了定位的精度,同时也增强了处理动态网页的能力。第二步,抽取技术在定位的数据结构上,利用改进后的树形结构对齐算法进行属性的对齐操作,对齐算法不仅健壮性强,而且效率较高,同时在多个网页标签树的对齐算法中,采用了种子树增量更新的策略,减少了多个网页标签树对齐算法中所需的运算次数,保证了算法在复杂的网页中的执行效率,基于增量更新生成的种子标签树可以进一步进行属性的对齐和提取。实验表明,基于以上两个步骤的信息抽取技术自动化程度高,从输入到输出不需要手工介入,同时信息抽取效率高,通过实际网页的测试,其定位和对齐结果都较为准确。
其他文献
随着全球化的发展,各国制度的差异需要走向制度的趋同。相互认可机制为各国制度的多样性与全球制度的融合构筑了沟通的桥梁,从而成为加快全球化进程的一项重要制度保证。在和
耕地是人类社会存在与发展的基础。人类所需要的大部分热量、蛋白质、衣物纤维以及部分工业原料都直接来源于耕地。我国人口众多,人均耕地资源非常有限,因此,在维持现有耕地水平
目的探讨风险管理理论在手术室护理中的应用与效果。方法选取2015年12月—2016年12月来该院进行手术治疗的患者104例,并按照随机的原则,将其分为实验组与对照组。对照组患者
经济全球化推动了注册会计师行业向全球发展,中国加入世界贸易组织标志着我国对外开放事业进入了一个新的历史阶段,我国与世界各国及各地区的经贸联系进一步加强,中国企业以
核心竞争力理论是迄今为止企业战略理论最高的、最有价值的成果之一。纵观那些在商战中折戟沉沙的企业,多数是他们漠视了核心竞争力培育的结果。积累、构建、保持和有效运用自
期刊
本文在主客体关系学的基础上,对当前我国农村扶贫活动进行了重新审视,认为在当前的扶贫中存在着两个主要问题导致扶贫而不能脱贫:首先是,在以往的扶贫过程中存在着严重的主客体关
在原有维吾尔族保健文化的基础上,通过探究维吾尔族保健文化发展对人们保健的影响,来建构新的思想观念,以适应现代社会的高速发展。利用科技发展进行创新,在珍惜并传承民族非
<正> 黄清旺同志是北京军区空军第十三军后勤部原副部长,1984年10月回到了阔别47年的故乡——福建省南靖县和溪乡乐土村。我们闻讯前往拜访,白发苍苍的老红军听说我们是县委
中国加入WTO对农业的发展带来了新的发展机遇和挑战。综合来看,中国农业长期以来采取以劳动密集型为主的耕作方式,土地的单位面积产出不高。改革开放以来,我国农业生产力得到了