【摘 要】
:
Web网页信息抽取是近年来广泛关注的话题。如何最快最准地从大量Web网页中获取主要数据成为该领域的一个研究重点。文章中提出了一种全自动化生成网页信息抽取Wrapper的方法
【机 构】
:
中国科学院计算技术研究所,中国科学院研究生院
【基金项目】
:
国家高技术研究发展计划(863)资助项目(2005AA142110)
论文部分内容阅读
Web网页信息抽取是近年来广泛关注的话题。如何最快最准地从大量Web网页中获取主要数据成为该领域的一个研究重点。文章中提出了一种全自动化生成网页信息抽取Wrapper的方法。该方法充分利用网页设计模版的结构化、层次化特点,运用网页链接分类算法和网页结构分离算法,抽取出网页中各个信息单元,并输出相应Wrapper。利用Wrapper能够对同类网页自动地进行信息抽取。实验结果表明,该方法同时实现了对网页中严格的结构化信息和松散的结构化信息的自动化抽取,抽取结果达到非常高的准确率。
其他文献
基于4种密度羊草种群的温室模拟试验,分析了羊草种群地上生物量与地下生物量的动态变化.结果表明:羊草种群的地上生物量与地下生物量随生长期呈增加的趋势,且随密度的增加而
针对当前高校教育教学资源存在的分布不均、更细速度慢、共享程度低等问题,提出一种数据存储更安全、访问更便捷和维护成本更低的云计算共享方案,利用eclipse3.5作为开发工具
文章从水文化的角度解读水与包头的历史、水与包头城区的发展、水与包头园林景观、水与包头的人居环境、水与包头城市的未来五个方面的关系,提出努力构筑城市亲水平台,为促进
本文提出了一种在汉英双语语料库句子对齐的基础上,自动进行汉英名词短语划分和对应的方法。该方法的主要特点在于在无需严格识别汉语名词短语的情况下,对高频短语和低频短语
从历年我国煤矿安全事故发生的情况看,绝大多数安全事故都与人为因素有关。有些即使是物的原因,但也有人为错误的因素。因此,要预防事故的发生,只有抓住人这一安全的主体,才
<正>德国的智慧城市建设,突出强调生态环保、节能减排、可持续发展的理念。这与德国的发展历史、发展目标以及总体战略密切相关。自二战以后,德国全面启动城市废墟的治理和重
隐喻在语篇中出现非常普遍 ,是语言认知和计算机语篇理解中重要的一环。但无论是其逻辑基础或实验系统的探索都处于初级阶段。本文从逻辑角度给出了隐喻逻辑的定义、建构和性
<正>为延长盐湖化工产业链,提高产品附加值,减少二氧化碳排放,发展循环经济,青海安立信能源科技有限公司计划于2014年3月底,在格尔木建设年产20万吨碳酸二甲酯项目。该项目是