论文部分内容阅读
Web页面中"噪音"是影响基于网页内容的Web分类质量的一个重要因素,快速而准确的识别网页的主题内容是提高分类准确率的关键技术之一.针对HTML的半结构化特征和DOM缺乏位置信息的不足,本文提出了一种新型的Web页面分析和内容提取框架,该框架既包括一种新型的含有位置信息的页面坐标树模型,还包括能反映空间关系的图形模型.通过将HTML文档转换为坐标树,并结合位置特征和空间关系可对网页进行分析和提取内容.对来自120个网站的5000个网页进行测试后的结果表明该方法可达到93.78%的准确率.