论文部分内容阅读
Web信息抽取是信息抽取技术在B/S体系中的新发展,在增量信息存储与搜索中有着广泛的应用.本文阐述的基于XML的Web半结构化信息抽取,是将Web表示层作为信息源,基于XML、JTidy数据清洗及Xquare-bridge等技术及开源项目,实现Web中半结构化的隐式信息点抽取,生成结构化、语义更清晰的表示及存储形式.