论文部分内容阅读
本文提出了基于楼层分割对BBS页面进行信息提取的新方法,并详细表述了利用页面中固定的图标分割楼层.具体解决方案是:首先将BBS页面转换为DOM树,提取作为锚的固定图标;然后根据锚与楼层子树的映射关系,定位楼层子树的路径;最后比较子树结构框架和内容,提取有用信息.实验分析表明,基于固定图标的锚能完整地将各楼层从DOM树中分离出来.这种方法能很好地适于信息提取.