论文部分内容阅读
本文主要实现了一个基于支持向量机的中文网页内容的自动分类系统,介绍并实现了局域网内通过网卡截获网络数据报并对数据报进行重组,生成了HTML页面,再结合HTML页面内容提取技术得到了纯文本文件,这些保证了系统的实时性。
文章对几种常用的中文自动分词算法进行了说明,并指出了不足之处,在此基础上提出并实现了一种新的基于Bigram的无词典分词和特征词抽取算法,这是本文的一个创新之处。此算法不仅能够提高特征词抽取的准确性、很大程度上降低了特征词的维数,提高了系统的分类性能,并且可以根据不同的训练集生成不同的特征词分词词典,具有很好的扩展性和灵活性。在介绍和比较了几种常用的文本自动分类算法的性能和适用环境的基础上,采用了支持向量机算法的序列最小最优化训练算法实现了中文网页的自动分类,提高了系统的效率和准确性。系统可以在出现较大的分类误差时,通过对分类器重新训练进行修正,不需要人工添加特征词等工作,具有很好的自学习功能,为更广泛的应用打下了基础。实验结果表明,此系统可满足一般文本分类系统的要求,并具有实时性、灵活性、可扩展性、易用性及广泛的应用性等特性。