论文部分内容阅读
在向量空间中,高维的和稀疏的向量不仅带来了大量的存储开销,同时也由于噪音的存在降低了检索的精度.本文讨论了两种基于向量空间模型(VectorSpaceModel,VSM)的降维方法:SimplePCA法(SimplePrincipalComponentAnalysis)和SVD法(SingularValueDecomposition).在Medline和Cranfield检索测试集上对两种方法的降维时间效率和降维后的检索性能作了比较实验,结果表明SimplePCA法可以达到与SVD法相同的降维效果.