论文部分内容阅读
随着互联网的高速发展,Web上的信息量高速增长,这其中文本信息占据了相当重要的位置。对这些文本信息加以搜集、分类和总结,传统的手工方法已经无法满足需要。文本自动分类、信息抽取和过滤技术因此得到了广泛的研究和应用。
面对海量的文本信息,传统的基于规则的分类方法日益显示出其效率低,准确性差的缺点。而基于统计的方法虽然可以节省人工劳动,但在标注样本数较小的情况下仍然存在着模型准确性差的缺点。由于样本的标注通常需要人工干预,是一个费时费力的过程,所以在标注样本较少的情况下,如何提高自动分类的准确率就成了迫切需要解决的问题,
针对以上问题,本文作了如下工作:
1. 提出了一种基于谱图方法降维的分类方法SBK(Spectral Based KNN)。SBK方法采用Ratio Cut目标函数,用拉普拉斯矩阵进行规范化,用K近邻算法进行分类。通过引入谱图方法,SBK方法充分利用了未标注信息的概率分布,达到了降维、去噪、提高精度的目的。通过实验,验证了SBK方法具有比传统分类方法更好的运行效率及效果;
2.对引入谱图方法前后传统特征选择方法的效果进行了比较,指出它们不具有同质性,在分类过程中同时利用特征选择和基于谱图的特征抽取算法,可达到更理想的效果;
3.针对谱图方法较大的运算开销,实验了Nystr(o)m方法在快速计算方面的效果。结合文本数据的特点,指出了此方法不理想的原因,并进而提出快速算法所需具备的特点。