基于主题模型的用户建模研究

被引量 : 21次 | 上传用户：WSLBCW

【摘要】

：

用户建模是指通过对用户相关数据进行分析来构建用户模型,以揭示用户兴趣或特性。在信息服务系统中,基于用户的模型可以更为准确地为用户提供个性化定制服务,有效缓解随着网

【作者】

：

李文峰

【发表日期】

：

2013年01期

【关键词】

：

用户建模主题模型主题特征用户特性用户属性

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

用户建模是指通过对用户相关数据进行分析来构建用户模型,以揭示用户兴趣或特性。在信息服务系统中,基于用户的模型可以更为准确地为用户提供个性化定制服务,有效缓解随着网络信息海量增长带来的信息过载问题,更好地满足用户的个性化信息需求。本文主要研究基于主题模型的用户建模,即通过主题模型来对用户数据进行分析,由此来构建用户模型。本文分四步在主题模型中逐渐地引入用户相关信息来不断丰富用户模型：针对对用户相关文本构建半监督LDA模型,增加用户和用户特性构建用户特性主题模型,在此基础上,一方面,进一步在模型中引入标签信息,另一方面,结合用户属性信息来完善用户模型。论文工作的主要贡献包括：提出了一种结合主题特征的半监督LDA模型。在LDA中引入种子主题的主题特征作为监督信息,利用监督信息在抽样过程中影响用户相关文本的主题分布而达到半监督的目的。对于主题特征,则借助网络信息由种子词采用一种自动的方式来获取。实验表明,通过引入主题特征,一方面,和LDA相比,可以在不增加模型复杂度的基础上得到更接近用户真实兴趣的主题分类。在用户浏览历史数据上,模型的聚集-分散度可以达到1.902,较LDA相比有1.9%的提升。另一方面,也可以获得对用户相关文本的显式的主题特征描述。提出了一种基于用户特性的主题模型。在主题模型中引入用户特性这一隐变量,从而对用户和文本的观测信息采用各自独立的隐变量进行表征,由此构建用户特性的LDA模型,并通过对模型非参化,提出了用户特性的DP模型。实验表明,在引入用户特性之后,由于综合考虑用户和文本信息及其隐变量,可以得到比仅考虑单一信息或者单一隐变量的主题模型更好的文本建模效果。在CiteSeerX数据集上,用户特性LDA模型对文本建模的混淆度可以达到1118.37,较LDA有12.2%的提升。此外,也可以获得不同用户特性下主题词的分布情况,得到对用户更细致的分类。提出了一种结合标签的用户特性主题模型。在模型中,综合考虑用户、目标文本和标签信息,由此来对社会化标签系统进行建模。其中,同一文档的文本和标签共享该文档的主题分布,而用户和其标签则又同时受到该用户的用户特性的影响。从实验结果可以发现,由于用户特性的引入,使得文本和标签的建模性能都有所提升。在del.icio.us数据集上,模型对文本和标签建模的混淆度分别可以达到2736.03和70.62,较Tag-LDA有将近1.4%和18.8%的提高。此外也可以发现,在社会化标签系统中,用户特性一方面表现为用户感兴趣的主题的差异,另一方面则表现为用户用词偏好的差异。提出了一种结合用户属性的用户特性主题模型。在用户特性主题模型的基础上,引入用户属性来决定用户特性的分布。由此,除了可以得到用户属性和用户特性之间的关系,也可以获得对用户特性更加精细的划分和描述。从实验结果可以发现,用户属性的引入可以带来算法在文本建模性能上的提高。在CiteSeerX数据集上,模型对文本建模的混淆度可以达到1217.16,较用户特性主题模型有11.2%的提升。而且,通过用户属性将用户特性的分布进行分层,也使得对用户的建模和分类更加准确。

其他文献

当代成长小说中“引领者”形象的嬗变

成长小说这一文学样式，发端于西方的启蒙运动时期，其后于二十世纪初传入中国。传入初期，中国学界对成长小说的创作及其理论研究，均未得到应有的关注。直至二十世纪九十年代后，成长

学位

成长小说引领者形象嬗变成长关怀

怀牛膝连作对根际土壤微生物群落结构和功能多样性的影响

怀牛膝是一种非常适宜连作的道地性中药材，连作下牛膝产量和药用品质均有显著提高，为了全面了解怀牛膝连作对根际土壤微生物区系演变的作用效果，探讨怀牛膝连作促进的作用机理，本

学位

怀牛膝连作根际土壤微生物BiologPLFAT-RFLP生物多样性

五台山旅游形象传播研究

从目前的经济形势来看,旅游业已逐渐成为全球经济发展中规模最大的产业之一。旅游业的发展不仅能给区域经济带来利益,而且能拉动其它产业的发展,因而它具有“朝阳产业”的美

学位

五台山旅游形象旅游形象传播传播策略

服装设计与自然辩证法

服装设计是一项协调人与自然关系的实践活动,必然要遵循自然辩证法。本文从系统观、科学技术观和创新观这三个方面对服装设计进行哲学的思考,以促进人与自然的协调,科技与文

期刊

服装设计系统观科学技术观创新观

镀锌板镀后条状缺陷产生机理及改进措施

针对马钢一钢轧2#镀锌线,研究镀后工艺对镀锌板表面质量的影响,探讨镀锌板镀后条状缺陷产生的原因,并提出相应的改进措施。结果表明:连续线状或条状缺陷主要系支撑辊在光整过

期刊

镀锌板镀后条状缺陷

原地待命还是突破前进?——印刷企业如何实现长久发展

<正>我们在纠结是选择继续在书刊印刷行业还是诱利多多的包装印刷行业时,失去的不是机会,而是战机。过去的2013年对于印刷企业来说是冰火两重天,福建印刷民企老大"千帆"倒闭,

期刊

印刷企业书刊印刷印刷行业

基于居住区景观的安全性设计研究

居住区是城市社会群体存在的空间形式之一。居住区的环境景观设计体现出居住区的总体形象,它对于提升城市居住品质和城市形象起着重要作用。居住区是城市群体的生活家园,是人

学位

居住区景观盲区设计缺陷安全事故安全性设计

电子商务在现代城市会展行业中的应用

电子商务的出现和应用提高了展览活动的工作效率,使得现代城市会展行业的发展更具信息化和电子化。可以说,随着电子商务应用的逐渐广泛,将会促进会展业向全球化和国际化迈进

期刊

城市会展电子商务信息化展会

“蠲痹汤”加味治疗肩周炎40例

<正> 蠲痹汤见于《百一选方》,方由羌活、姜黄、当归,炙黄芪、赤芍、防风、炙甘草、生姜八味药物组成,功用:益气和营,祛风胜湿。笔者在临床上以本方加土元、乳香、没药、桂

期刊

加味治疗肩周炎肩关节疼痛

论中小型民营企业的营销策略及市场定位

<正> 一个小企业的营销策略现状调查分析河北共有8.9万户民营企业,注册资本500万元以下的8.7万多户。这些企业是如何营销呢?我们进行了广泛的调查。结果发现,普遍存在的问题

期刊

市场定位中小型民营企业价格定位

基于主题模型的用户建模研究

与本文相关的学术论文