论文部分内容阅读
从使用搜索引擎的角度,对于搜索引擎返回的结果,用户只关心那些包含信息的内容部分。以此为需要,本文研究了网页中信息部分识别技术,对于当今存在的各种网页中信息部分识别技术进行优缺点对比,并提出新的算法。针对网页中内容的特点,第一步将网页中的内容划分为块,第二步从划分出来的块中识别出内容。依据网页元素中的各种HTML特征和实际经验中不断调整规则和变量值,完成了对信息部分的识别,最后,通过实验证明本文提出的算法具有良好的效果。