LDA模型的改进及在协同过滤中的应用

来源 :浙江大学 | 被引量 : 0次 | 上传用户：jayden1986

【摘要】

：

主题模型是在机器学习和数据挖掘等领域用来在一系列文档中发现隐藏主题的一种统计模型.该模型假设一篇文档中存在多个隐藏的主题，每个主题所占的比例不相同，而主题所占的比例

【作者】

：

华玉鹏

【机构】

：

浙江大学

【出处】

：

浙江大学

【发表日期】

：

2015年期

【关键词】

：

LDA模型参数估计改进处理协同过滤

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

主题模型是在机器学习和数据挖掘等领域用来在一系列文档中发现隐藏主题的一种统计模型.该模型假设一篇文档中存在多个隐藏的主题，每个主题所占的比例不相同，而主题所占的比例是通过统计每篇文档中相关单词出现的次数，根据统计得到的信息来判定当前文档所包含的主题，以及每个主题所占的比例.同时需要注意的问题是主题模型是一种词袋模型.词袋模型不考虑单词在文档中出现的先后顺序问题，其统计的仅仅是单词出现的次数.本文以LDA(LatentDirichlet Allocation)模型为主线，针对模型参数估计以及模型改进等四个方面做出了进一步的研究，取得了以下的成就:　　首先.我们针对LDA模型本身的参数估计使用了一种新的方法EP算法.LDA模型本身的参数估计在[1]中使用的是变分EM算法.变分EM算法是对模型本身进行了部分的简化，使用一种新的概率分布作为原始后验分布的近似，这样在准确性上会有一定的损失.LDA模型在[2]中采用了Gibbs采样的方法.Gibbs采样是通过采样的技巧对原始后验分布进行近似.但是为了排除初始状态序列以及相邻样本间的相关性对结果的影响，Gibbs采样需要通过迭代多次之后才开始取样以及间隔取样的方法来克服上述的问题，这样会造成模型在计算时间的上的过多消耗.本文针对上述估计方法中存在的问题，采用Minka在[6]中提出的EP算法，并对其在[10]中将EP算法用于LDA的参数估计方法进行了改进.最后为了得出其在模型预测准确性方面的优势，我们将改进后的算法与前面三种方法通过一定的标准进行了比较，得出了较好的实验结果.　　其次.我们考虑到大型电子商务之中用户除了购买商品之外，还可以对其进行评分（比如豆瓣上对电影的离散打分）.所以我们在LDA模型的基础上对模型本身进行了部分改进，加入了对可见变量（这里指商品）的评分，并且分别针对离散评分我们采用了Gibbs采样算法，针对连续评分我们采用了变分EM算法.同时为了得到改进之后模型的准确性效果，我们在论文的第五部分将其与协同过滤中常用的算法以及原始的LDA算法在特定的数据集上进行效果比较.得出了较好的实验结果，得到了改进后的模型在预测的准确性上面要优于其他算法.　　再次.我们考虑到上述改进之后的模型仍然是一个词袋模型.我们没有考虑到用户之前的购买行为对当前的影响，所以本部分我们从本质上对模型进行改进，将词袋模型改为了序列化模型.具体为:对于用户当前购买的商品，我们认为对其影响的因素由词袋模型的主题改变为序列化模型的主题，上一次购买的商品以及对该商品的评分这三个因素.同时对用户购买的当前商品的评分由词袋模型中的主题，当前购买商品修改为序列化模型中的主题，当前购买商品以及上一次购买商品以及对该商品的评分四个因素.在参数估计方面，我们对改进后的序列化模型采用了Gibbs采样算法.同样在论文的第五部分我们将该模型与LDA的词袋模型进行了预测准确性的比较，得出了较满意的结果.　　最后.为了得到上述两个改进模型在预测效果上的准确性，我们采用了在协同过滤算法中常用的MovieLens数据集，并通过交叉验证的方法与基于物品的推荐，基于用户的推荐，潜在语义分析等算法进行了比较.得出了两种改进模型在效果上总体优于其他算法，而且对于这两种模型，在小数据量上两者的效果相差无几，但是随着数据量的增大，序列化模型要优于词袋模型.最后我们给出了部分解释.

其他文献

流体力学方程与扩散方程有限点方法的若干研究

可压缩多介质辐射（磁）流体力学问题的数值方法研究是惯性约束聚变、Z箍缩(Z-pinch)、武器物理等领域的重要研究课题.目前，基于网格的拉氏方法和ALE方法是数值求解此类问题的主要

学位

二维可压缩流体力学扩散方程有限点方法数值计算

减小或消除尾矿库可供选择的途径

论述了如何有效地回收细粒尾矿，使排往尾矿库的尾矿减少，进而减小或消除尾矿库，减少占地，利于环保。这对我国的矿山企业具有很重要的参考价值。 It discusses how to effectivel

期刊

高效强力分级浓密机矿山企业筛分设备矿物加工矿粒真空过滤机恒速过滤矿山公司凝结剂

基于反射系数和离散误差的PML参数优化

完全匹配层(PML)是由J.P Berenger最先提出的一种有限差分时间域(FDTD)方法的吸收边界条件。理论上，在无穷计算区域加入PML后，任意角度和频率的外行波都能够完全被吸收。该方法

学位

有限差分时间域完全匹配层参数优化反射系数离散误差

MSZH-1型声发射指标转换器的研制

本文介绍了MSZH－1型声发射指标转换器的设计思想、主要参数设计及其工作原理。由该指标转换器与煤矿A－1型环境监测系统联网构成的井下声发射监测系统在技术及经济上都是先进合

期刊

MSZH-1环境监测系统声发射法信号持续时间煤与瓦斯突出声发射监测门槛值井下分站模拟信号输入声发射事件

时标上一类BAM神经网络模型的伪概周期解研究

本论文研究了时标上一类BAM神经网络模型的伪概周期解的存在性和全局指数稳定性，得到了一些新结果。　　我们主要研究如下时标上带有时滞的双向联想记忆(BAM)神经网络系统:{x

学位

BAM神经网络伪概周期解全局指数稳定性存在性

关于Pinched流形上的等距群

学位

等距群Pinched流形等距映射相关性质

风窗自动监测与调节系统预估控制的实现

针对风窗自动监测与调节系统过程通道的时滞性，提出了Ｓｍｉｔｈ预估控制及自适应Ｓｍｉｔｈ预估控制方案，并对ＰＩＤ参数进行了优化整定。 In view of the time lag of process channel of windshield a

期刊

预估控制过程通道自动调节自动检测自动监测调节系统控制系统预估器开采工作面参数θ

加强高校学生党员队伍先进性长效机制建设

切实加强高校学生党员队伍先进性建设是高校坚持以邓小平理论和“三个代表”重要思想为指导,认真学习《江泽民文选》,全面贯彻落实科学发展观的具体行动,是培养和造就高素质

期刊

高校学生党员学生党员队伍高校党组织邓小平理论学生党支部建设学生党组织学生党员教育三会一课入党积极分子江泽民文选

多复变数Bloch函数的系数乘子

学位

Zalcman定理的推广及其在亚纯函数正规族理论方面的应用

学位

LDA模型的改进及在协同过滤中的应用

与本文相关的学术论文