论文部分内容阅读
词袋模型是一种向量空间模型,在此模型中,文本或图像被视作是无序的词汇集合,其中语法以及词汇之间的顺序关系都是被忽略的。通过选择或设计合适的相似性度量函数,词袋模型可以被广泛应用于文本、图像的分类、聚类及检索问题中。经过大量的研究工作,目前已经总结出多种常见且有效的相似性度量方法,包括欧几里得距离、余弦相似度、Manhattan距离以及Mahalanobis距离等。然而,文本和图像问题的词袋模型,往往具有高维度、特征冗余、一义多词、一词多义等特点,这将增加处理词袋模型时的计算复杂度,并对学习算法的精度造成干扰。本文采用一种有监督的学习方法,将词袋模型中的词语特征项聚合成词簇,通过将原始词语空间上的表达转变为新的词簇空间上的表达,进而影响文本或图像样本相似性匹配度的计算,达到消除一义多词的负面影响的作用。该方法的具体思路是:首先采用类条件概率分布描述词项的分布规律,并使用Jensen-Shannon散度刻画这些分布之间的相关性即词语项之间的相似度。在此基础上设计了一种将近义词项进行重组合并成新词簇的WCE算法,并采用一种有监督的损失函数评价模型对WCE算法产生的新词簇集进行评估。该评价模型中的损失函数和对应的相似性度量方法的选择和设计具有很大的灵活性。算法最终输出损失函数的近似最优解以及相应的词簇特征集,从而达到降维的目的。实验部分从检索和分类两个方面验证了本文的词语降维算法的有效性及合理性。通过实验发现,对于不同的数据集,该算法的降维效果以及降维结果对检索效果和分类精度的提升程度不同。对于词语特征数较少的低维词袋,该算法的降维效果并不明显。但对于高维词袋,该算法一般能取得较好的降维效果。而高维词袋中,面向图像处理问题的视觉词袋在经过降维之后,其检索效果和分类精度的提升比降维之后的文本词袋要更为明显。总体而言,对于具有较高维度的词袋,应用本文的方法能够在保持检索和分类的精度的基础上,都能达到比较理想的降维效果。