论文部分内容阅读
为了能够更好地获得和处理网页中的正文信息,本文提出基于改进的DOM树和BP神经网络的网页净化算法。该算法根据DOM树和网页内容的特征用HTMLParser把网页转换成一棵内容块树。因网页子内容块具有相当明显的数值特征,可以通过BP神经网络建立网页噪音信息过滤模型。这样使得网页净化更加模型化,也能够取得更加好的效果。