概率潜在语义分析及其应用

来源 :浙江大学 | 被引量 : 0次 | 上传用户:tropicalpalmetto
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息检索的很多应用都需要探究隐藏在字、词背后的涵义,简单的字面匹配由于广泛存在的同义词多义词现象,往往得不到能够和查询在含义上精确匹配的检索结果。概率潜在语义分析(即PLSA, Probabilistic Latent Semantic Analysis)通过概率的形式建立了将隐含变量与共现数据对(如词汇与文档)联系起来的模型,使用统计的方法建立了“文档-潜在语义-词语”三者之间概率分布关系,并利用这种概率进行基于统计的语义分析,从中得到同一个主题下不同词的分布参数以及同一篇文档下不同主题的分布参数,从而能够从语义的层面上而不再是以往的单纯的字面意义上去表达和理解文档。在语义空间上,能够对文档做出更精准的匹配,排序,相关性查询等操作。本文主要研究概率潜在语义分析的稀疏表达框架以及并行化扩展,主要贡献有:●提出了一种在PLSA框架下高效地引入稀疏表达的方法,通过添加稀疏度控制在两个模型参数上以解决传统的PLSA存在的过拟合以及无法提取局部特征的问题。本文实验证实本文所述方法在准确度上超越了已有的PLSA算法,并且在性能有杰出表现。●提出了在分布式处理框架下高效地训练PLSA模型的方法,分别设计实现了基于多核处理器的多线程PLSA算法,以及基于Hadoop和基于MP工的的并行化PLSA算法,讨论了在实际应用中的具体细节和问题,最后在集群上进行了实验和性能评估。●探索尝试了将PLSA用于个性化RSS文章排序的方法,通过记录用户阅读文章所消耗的时间评估用户对文章的兴趣。
其他文献
随着模型驱动开发技术的逐渐成熟以及代码自动生成技术的出现,基于模型驱动的开发方法在软件开发领域被广泛应用。模型驱动开发使得开发人员可以更多地关注于系统逻辑设计,即在
蛋白质-蛋白质对接是指在两个蛋白质分子之间试图找到最好匹配,蛋白质-蛋白质相互作用过程中通常会发生骨架构象变化,蛋白质-蛋白质骨架柔性对接就是设计相应的对接算法和协议
现代DSP(Digital Signal Processor)处理器大多使用VLIW(Very Long Instruction Word,超长指令字)体系结构,它主要通过挖掘指令级并行性,即将多条指令放在同一时钟周期发射来
电子技术、计算机技术、通信技术的飞速发展为我们的生活带来了便利,也为医疗体系的发展带来了新的机遇。无线通信技术已经在医疗监护领域取得广泛应用,主要包括远程医疗、跟
微弱信号检测是一门新兴的学科,从噪声背景中提取微弱有效信号是近代信息论中的一个重要内容,也历来是信号处理领域的核心问题和前沿课题之一。利用传统的功率谱,线性滤波等
在我国,由于人口众多、地区发展不平衡,教育资源分配也不均衡。在某些地区教育资源还是非常缺乏,东部沿海开放地区集中了大量的优势教育资源,而广大的西部地区教育资源却非常
H.264/AVC是最新的国际视频编码标准,该标准具有更强的网络适应能力,代表了未来多媒体数据压缩编码的发展趋势。及时跟踪和掌握H.264/AVC的核心技术,并结合实际应用在某些关
随着Internet的快速发展,关于某一主题的信息会通过不同渠道充斥着整个互联网。面对大量内容相近的主题文档集,有效地获取到真正需要的信息变得越来越困难。如何向用户提供全
手持设备的广泛应用对汉字输入技术的要求越来越高。本文通过对智能输入技术的研究,构建了动态自适应语言模型,并将此模型与输入系统实现技术相结合,实现了一个基于动态自适
维吾尔文是新疆维吾尔自治区少数名族的主要交流文字,为了便利当地人们交流,开展有关维吾尔文文字处理技术的研究是很有必要。在当今社会,常用电子信息设备都已经进入了平常