论文部分内容阅读
目前针对于网页分块的正文提取方法很多。一些学者提出,利用标签的数量来判断目标网页采用何种标签对网页进行结构布局,然后针对某一单一标签,对网页进行分块,这种方法针对与大多数利用标准化XHTML排版的网页是可行的,但是对于很多利用松散标准的HTML网页,其排版布局的标签分布不均,很难准确的提取正文内容;利用预先设置的搜索窗口,准确的分离正文段落和相邻的非正文段落。