论文部分内容阅读
随着信息技术,特别是网络技术的飞速发展,网络带给人们的信息成爆炸式增长。作为Web数据挖掘的研究方向之一——中文网页自动分类在信息检索、网页文本自动摘要等方面的应用越来越广泛。它已经成为当前数据挖据研究领域的一个重点和难点问题。作为其它具体应用的基础,中文网页分类系统性能的好坏,对后续工作的开展和进行将产生巨大的影响。
本文基于对数据挖掘和Web数据挖掘技术的研究,对目前中文网页自动分类的方法、技术以及性能测评标准进行了调查分析,提出了中文网页分类系统的模型。该系统分为三大部分,它们是数据预处理部分、训练部分和分类部分。分别探讨了各个部分中的关键技术以及分类系统性能的测评方法。在整个系统中,研究的重点是词语权重和分类算法两方面。在权值计算方面,文章将词语在文本中的位置和在分类中的重要程度作为权值的两个因素,引入到经典的TF-IDF公式中,对系统中网页文本的权值计算方法进行了改进;在分类方法上,将聚类技术与KNN分类算法相结合。试验结果表明,这种方法大大提高了网页分类的效率。最后文章对中文网页自动分类技术的发展作了展望。