论文部分内容阅读
本文针对中文网页的分类问题,提出了一种基于代表样本动态生成的快速文本分类方法,并构建了一个网页分类的原型系统。主要工作包括:
1、在详细分析κ-近邻分类法两个特性的基础上,提出了一种新的基于代表样本动态生成的分类方法。这种分类法通过对原始训练样本集的训练生成代表样本,充分利用每个原始训练样本的有效信息,对已生成的代表样本进行多次调整,从而使代表样本更具有代表性。这种方法有效地压缩了原始训练样本集,提高了分类效率;同时,由于代表样本的分布更加合理,提高了分类的准确性。
2、为了把基于代表样本动态生成的文本分类技术应用到对网页的自动分类中,针对网页结构的特点,详细分析了网页标识中对分类过程有贡献的结构成分,讨论了基于Web文档的特征抽取方法和改进的TF-IDF权重计算算法。
3、综合本文在文本分类算法和利用网页信息提高分类器性能方面的研究工作,设计并实现了一个中文网页自动分类系统。系统采用模块化的结构,实验表明系统具有很好的分类性能。