论文部分内容阅读
随着信息技术的迅速发展,互联网已成为社会、经济、文化、教育、娱乐等各个方面的重要组成部分.现代的人们越来越依赖互联网获取信息.但网络世界包罗万象,各种数据混杂一起,如何帮助我们提取出需要数据呢?本文介绍一种对常用网页文件的预处理方法,从中提取出网页数据并把这些信息进行分类、整理等二次加工.本方法对于Web数据清洗、文档自动摘要的形成以及文档分类等诸多领域的应用都是非常有意义的.此方法对HTML文件的解析不仅可以于提取出HTML文件的主体文本,也可以用于得到HTML文件中其他的元素的内容.