论文部分内容阅读
摘要:网页文本信息的抽取是网络信息搜索的重要组成部分,通过网页文本抽取生成完备精简的语料库对网页信息的分析起着至关重要的作用。目前网页解析的技术有很多,常用的技术有基于正则表达式的静态网页文本抽取,基于HTML文件流分析的静态文本解析,基于DoM树的动态网页分析和基于sAx的动态网页分析。
全文查看链接