论文部分内容阅读
概率潜在语义分析是一种对双模型和同现数据进行分析的统计技术,它已经被应用于信息的检索与过滤、自然语言处理、机器学习和一些相关的领域。标准的潜在语义分析主要是基于线性代数并且对同现表格进行奇异值分解。而概率潜在语义分析则是基于从潜在的类模型中获取一个混合分解。这样我们就得到了一种更有原则性的,并且在统计方面有巩固基础的方法。为了避免过适应,我们通过缓增EM算法提出一种广泛适用的最大概似泛化模型。在大量的实验当中,我们的方法在原有的潜在语义分析的基础上做了大量和持续改进。