正文内容提取相关论文
本文提出了一种全新的判定Web页面正文内容的方法--标签密度判定法。该方法基于Web页面由HTML标签组成这一本质特性,采用标签密度,......
目前网页上出现越来越多的广告信息,使得准确抽取网页正文信息变得越来越难.针对这一问题,文中提出了一种基于权值优化的网页正文......