论文部分内容阅读
随着通信技术和计算机技术、尤其是Internet的飞速发展,各种各样的信息成几何级数增长,作为传统的信息载体,文本信息更是如此。为了能在海量的文本中及时准确地获得有效的知识和信息,文本表示技术以及文本自动分类技术受到了广泛的关注。基于支持向量机(SVM)的文本分类算法,更是成为当前的一个研究热点。构建一个开放的灵活的SVM研究平台,有助于进一步推动将SVM用于中文文本分类的研究。 本文在Microsoft Windows 2000的Visual C++ 6.0和MS SQL Server2000平台下设计并实现了一个基于支持向量机的、便于重组重构并能实时统计分析各类中间结果的中文文本分类系统,并在此系统上对SVM用于中文文本分类的性状作了部分研究。 本文在传统中文文本自动分类模型框架的基础上,采用数据库作为耦合中介,松解了模块间的紧耦合,建立了SVM研究平台的系统模型框架。基于新模型,不仅可以方便高效地实现文本特征处理阶段所涉及的类别、文档、词条之间的各种统计运算,而且可以灵活地变更不同的算法模块,比较其性状,达到了研究平台的要求。 本文对文本分类的关键技术做了研究。在特征提取部分,结合了基于文档频率(DF)、x~2分布(CHI)、信息增益(IG)以及互信息(MI)等几种不同的特征选择方法,通过实验结果的比较,证明在本文的系统中基于IG的特征选择方法要优于其他方法。在文本表示部分,采用了TFIDF权重计算方法,实现了向量空间模型。在多类分类算法中,采用一对余类方法实现多类分类问题,分类结果较为理想。 本文利用构建的系统平台,对SVM的性状作了实验研究。在训练过程中,采用了计算机、艺术、教育、交通、环境、经济、医药、军事、政治、体育等10个类别的近2000篇文本,为了测试分类器的性能,选用了10个不同类别的近1000篇文本,实验结果表明该系统的查准率达到97.84%,查全率达到89.93%,分类效果较为理想。还与Rocchio、KNN等传统的文本分类算法进行了比较实验,结果证明基于SVM的文本分类系统在分类性能和分类速度上都体现了较大的优势。