基于概率生成模型的相似度建模技术研究及应用

被引量 : 0次 | 上传用户：jiangyingzhou

【摘要】

：

互联网上海量的内容和资源给人们生活带来了便利,与此同时,也带来了信息超载的负面影响。如何通过数据挖掘技术解决信息过载问题掀起了学术界和工业界的一股研究狂潮,其中基

【作者】

：

马海平

【发表日期】

：

2013年期

【关键词】

：

概率生成模型相似性建模多标签分类情境感知协同过滤推荐算法文本分类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

互联网上海量的内容和资源给人们生活带来了便利,与此同时,也带来了信息超载的负面影响。如何通过数据挖掘技术解决信息过载问题掀起了学术界和工业界的一股研究狂潮,其中基于相似度建模技术的以下两大方案应运而生：(1)将资源按照内容相似性进行归类组织管理；(2)基于在线行为的用户相似性建模,从而实现个性化的服务。然而,针对这些应用的相似度建模技术面临着共同的挑战：变量之间存在的内在结构关系需要被挖掘并利用,数据空间高维稀疏的困扰需要被消除。为此,本文开展了基于概率生成模型的相似度建模技术研究及应用。主要成果及贡献如下：首先,提出了基于概率生成模型的标签间结构关系表示方法,设计了基于内容相似性的文本多标签分类方法。文本多标签分类问题中,类别标签存在多种结构关系,然而以往的研究工作一般仅关注成对标签关系的建模,从而影响分类效果。鉴于此,为了能够学习并利用多标签间的高阶关系,本文提出了L-F-L-PAM四层概率生成模型,通过统一的框架建模类别标签上的单词概率分布以及类别之间的相关性,并给出了基于L-F-L-PAM的多标签分类算法。具体而言,在训练阶段,应用L-F-L-PAM建模已标注的训练文档并推理模型的参数,在测试阶段,基于标准的Four-Level Pachinko Allocation Model预测未标记测试文档的类别标签排序。为了提高测试阶段的运行效率,本文还提出了剪枝的Gibbs抽样算法用于测试数据模型推导。最后在大量标准数据集上的实验结果表明,该方法比基准方法取得了更好的类别排序预测结果。其次,提出了基于概率生成模型的移动用户行为习惯相似性建模方法。移动设备感知的用户丰富情境数据为更精准地刻画用户的行为习惯提供了可能。现有的相关研究工作主要集中在建模用户的位置和时间情境,而忽略了其它一些有意义的情境。尽管也有一些工作研究基于丰富情境的行为习惯挖掘方法(比如,行为模式挖掘),然而如何针对挖掘的结果建模用户相似性方面的研究较少。鉴于此,本文探索了基于行为模式向量的移动用户相似性建模方案,并针对行为模式空间的高维稀疏问题,提出了一个两阶段的解决方法。具体而言,首先在行为模式挖掘之前,将位置情境抽象到社会位置中以及将交互记录转换成交互类别,从而规范化原始的情境日志,并在规范化后的情境日志上挖掘用户行为模式,然后采用了一个概率生成模型将用户从高维稀疏行为模式空间转化到低维可解释的超级行为模式空间。最后,同基准方法相比,在真实数据集上的实验结果表明该方法能够更精准地发现行为习惯相似的用户。最后,提出了一个融合多重相似信息(用户行为习惯相似性和App类别相似性)的移动App推荐算法。本文的前两个工作表明,结合用户的情境感知行为习惯有利于理解用户兴趣；将资源进行类别分析可以帮助充分了解资源特性。基于此发现,本文基于用户使用App历史日志构建用户-App偏好矩阵,提出了一个情境感知的移动App偏好预测模型实现排序推荐。该模型在传统的PMF协同过滤推荐算法框架中,有效结合了用户的情境感知行为模式空间相似性和App的类别相似性信息。在真实数据集上的实验分析表明该技术方案提高了排序推荐效果。

其他文献

从市场需求看翻译硕士专业优化培养过程的必要性

随着社会的快速发展和国际交流的不断加深，高端翻译人才缺口很大，为顺应市场需求，翻译硕士专业学位应运而生，侧重培养高层次、专业性的应用型翻译人才。本文分析了市场对翻译人才

期刊

市场需求翻译硕士专业优化培养过程

初中音乐课堂师生互动教学指导策略漫谈

音乐课作为初中学习时最具吸引力的课程之一,其互动方式和教学指导对学生音乐课体验有着决定性作用。传统的音乐课教学模式较为被动,除音乐本身具有的吸引性外,其教学课堂缺

会议

基于单片机电阻炉炉温控制系统的设计

简要介绍了一种以单片机STC89C52为核心的电阻炉炉温控制系统,包括硬件设计和软件设计,并给出了硬件电路设计原理图和软件设计流程图。该系统性能稳定、可靠,结构简单,能实现

期刊

单片机电阻炉炉温

复合墙板与钢框架连接节点的试验研究

带复合墙板钢框架结构体系在建筑领域中得到了广泛的应用研究,复合墙板与钢框架的连接节点对这种结构体系抗震性能有重要的影响,是保证复合墙板与钢框架共同作用的关键因素,

学位

复合墙板钢框架连接节点抗震性能

指控装备多Agent远程监测与诊断系统设计与实现

针对指挥控制系统日趋复杂,装备测试诊断任务压力骤增的现状和装备智能化保障需要,提出了一种基于多Agent分布式指控装备远程智能监测诊断系统,结合某型军用指控系统,将智能

期刊

多Agent分布式指挥控制装备远程监测故障诊断

二战时期美国军官职业教育研究

职业教育指的是对受教育者施以从事某种职业所必需的知识，技能的训练，军官职业教育可以解释为对受教育者施以从事军官职业所必需的知识，技能的训练。军官职业教育最初起源于欧洲

学位

二战美国军官职业教育优劣

FDI技术溢出效应对中国内资汽车企业的影响

外商直接投资的快速发展，是20世纪90年代以来世界经济的一大重要特征。改革开放后，我国实行“以市场换技术”的策略，汽车产业作为我国的支柱产业，也成为了FDI的重要领域，引进了大

学位

外商直接投资技术溢出效应内资汽车企业

旧上海7000妓女改造获新生

夜总会,用《现代汉语词典》的说法就是:资本主义社会的大都市中供有钱的人夜间吃喝玩乐的场所。在国门敞开、改革开放的潮流中,尤其是我国加入WTO以后,夜总会也以各种姿态在

期刊

娼妓业上海市人民政府旧上海

棉花植保机械在河北省的应用

棉花植保机械化是棉花全程机械化的重要环节.近几年,河北省的植保机械发展迅猛,风送式弥雾机、高地隙喷雾机、无人机喷雾机相继在棉花植保中得以运用,但是仍存在苗期药剂浪费

期刊

植保机械全程机械化种植模式风送式棉花种植喷雾机河北省

旭阳公司用廉价煤生产优质焦炭的质量管理改进研究

近年来,随着我国消费结构的升级和工业化、城镇化进程的加快,以及国家对基础设施建设力度的加大和房地产行业的快速发展,钢铁的需求量迅速增大,焦炭的需求量也随之增大,带动

学位

焦炭质量配煤炼焦质量管理质量管理改进

基于概率生成模型的相似度建模技术研究及应用

与本文相关的学术论文