论文部分内容阅读
信息抽取技术的研究旨在为人们提供一种更有利的获取信息的方式,针对互联网上web页面的异构性和动态性,本文提出了一种通用的web新闻页面信息抽取的方法。该方法克服了传统的网页信息抽取中针对不同的网站制作不同的包装器的缺点。本方法主要针对新闻页面正文、发布时间、转载情况的信息抽取,为自然语言处理的研究提供语料支持,其准确性能够很好地满足需求。