论文部分内容阅读
大数据时代,随着互联网技术的飞速发展,互联网上源源不断产生着大量数据,造成数据的爆炸性增长,这其中就包含大量的自然语言文本数据。文本数据是数据价值密度最大、最有利用价值的数据资源之一。因此对文本数据进行分析挖掘处理具有重要的理论研究意义和实际应用价值。文本分析的首要任务是挖掘文本的潜在语义。主题模型和嵌入模型是文本潜在语义学习中最主要的两类模型。由于两种模型之间存在的互补性,近几年,有很多研究者试图将两种模型结合。然而,现有的结合方式只是利用其中一种模型来改善另一种模型,不能通过联合学习同时提升两种模型的性能,且缺乏通用性。基于上述问题,本文研究主题模型和嵌入模型联合学习方法。论文的主要研究工作和贡献点包括:(1)研究提出了一种通用化的主题模型和嵌入模型联合学习方法和算法框架HieraVec。这种联合训练方法既可以利用主题模型提供的层次信息提升原始分布式表示向量的质量,又可以利用自然语言的分布式表达更好地完成相应的主题建模,从而达到同时提升两种模型的性能。在联合学习算法框架HieraVec中,由于框架参数的多样性,单一的参数优化方法很难同时学习所有参数,因此本文研究设计了一个旋转优化方法即三阶段参数训练模式,以此优化算法框架的参数。(2)基于HieraVec联合学习算法框架,一方面,将主题模型pLSA的多层语义信息结合进嵌入模型Doc2Vec,研究构建能够学习到文本多层级分布式表示向量的HieraVecPD算法。另一方面,将词嵌入模型Word2Vec与主题模型LDA联合训练,研究构建分布式向量加强的主题模型HieraVecLW算法。并通过多个层面的实验评估了 HieraVecPD和HieraVecLW算法学习到的分布式向量和主题模型的性能,实验证明HieraVec算法框架的联合学习方法能够同时改善主题模型和嵌入模型的性能,并具有很好的通用性。(3)在上述基本技术方法研究基础上,针对大规模语料的文本分析,研究实现基于Spark平台的大规模并行化主题嵌入模型联合训练算法和框架,并在此框架上实现了 P-HieraVecPD和P-HieraVecLW分布式算法。实验结果表明,本文提出的并行化主题嵌入模型联合训练方法和框架能够有效地解决大规模语料的文本潜在语义分析问题,并且P-HieraVecPD和P-HieraVecLW算法具有很好的数据扩展性和节点扩展性。