论文部分内容阅读
随着Internet的普及,web上有价值的信息日益增多,使得web数据抽取技术成为近年来的研究重点。通过分析近几年web抽取技术的研究成果,根据现有的抽取技术所面临的可维护性差和实用性不高等不足,提出一种基于表格特征的web数据抽取方法。该方法利用表格数据特征的规则表达式进行模式匹配,通过解析页面表格的HTML提取出表格数据,从而提升了抽取系统的可维护性和实用性。