一种基于单模型的网页净化方法

来源 :计算机与现代化 | 被引量 : 0次 | 上传用户:THINKPAD_sl400
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了能够更好地获得和处理网页中的正文信息,本文提出基于改进的DOM树和BP神经网络的网页净化算法。该算法根据DOM树和网页内容的特征用HTMLParser把网页转换成一棵内容块树。因网页子内容块具有相当明显的数值特征,可以通过BP神经网络建立网页噪音信息过滤模型。这样使得网页净化更加模型化,也能够取得更加好的效果。
其他文献
以Landtech手持数据终端作为硬件平台,C语言作为开发语言,介绍手抄器软件的开发环境和开发过程,并结合一个具体的软件开发实例,详细探讨软件开发中一般会遇到的几个问题,包括数据
随着计算机及通信技术的发展,越来越多的计算机、通信硬件设备及相关的应用软件在银行里被广泛使用.这些设施不但提高了银行处理业务的速度和效率,也给银行和客户带来了极大的便
针对流动人口数量多、流动性大以及分布广泛等特点导致管理难这一问题,提出并实现一种计算机网络技术和计算机管理信息技术相结合的流动人口管理信息系统。该系统能够对流动人