【摘 要】
:
在信息互联网高度发达的今天,解决信息过载问题已经成为互联网技术发展的方向之一。如何从网络海量信息中获取有价值的信息是研究信息过载问题的关键,而个性化推荐作为解决此
论文部分内容阅读
在信息互联网高度发达的今天,解决信息过载问题已经成为互联网技术发展的方向之一。如何从网络海量信息中获取有价值的信息是研究信息过载问题的关键,而个性化推荐作为解决此问题的关键技术,具有重要的学术意义和应用价值。协同过滤以及协同过滤的各种衍生算法以其不依赖于信息的具体内容、易于实施、可以产生新异推荐等特性被大量的互联网企业所采用,并成为一个学术研究热点。针对基于存储的Slope One模型的准确度和扩展性缺陷问题,本文研究基于模型的协同过滤算法,以有限混合模型为基础,结合传统Slope One协同过滤技术,探索新型个性化推荐方法,具体包括以下研究内容:首先,介绍了有限混合模型的统计学原理、概念和特点,详细推导其求解的算法;介绍了个性化推荐的基础概念与发展现状,分析协同过滤算法的几个常用方法的优缺点,以及有限混合模型在协同过滤上应用的优势,总结了近年来国内外学者们所做的相关工作。其次,本文利用多项式有限混合模型对数据集进行基于模型的聚类,通过引入最小信息长度法则(minimal message length criterion, MML)以缩小有限混合模型的求解迭代次数,并将聚类结果应用于Slope One平均评分偏差的改良上,从而改善了Slope One算法由于缺乏用户相似考虑导致的准确度问题。同时由于将整个推荐方案分为离线聚类和在线推荐两部分,极大地改进了Slope One的可扩展性。使用标准数据集进行模拟实验,评估新算法的准确度与效率指标,相比于标准的Slope one和基于用户聚类的Slope one,改进算法推荐的准确度大幅提升。最后,鉴于目前互联网企业的数据存量已经远远超出单机可计算的极限,本文设计了基于多项式有限混合模型的Slope One改进算法的MapReduce实现。通过实验验证了基于多项式有限混合模型的Slope One改进算法的MapReduce实现的算法有效性和算法对比单机算法的效率提升,并通过加速比的变化说明了算法的可扩展性。
其他文献
虚拟现实技术在这些年来的发展速度十分惊人,三维可视化技术被广泛地应在了许多的领域,例如计算机仿真。它能对真实世界进行三维模拟,使用户在获取信息方面变得更加轻松和直
随着我国高等教育的发展,大部分高校逐渐采用学分制教学管理模式。作为学校管理的重要环节,就业管理和服务必须与该模式相一致以协调发展。同时随着信息时代的到来和Internet
Gabor变换作为信号的一种联合时频分析工具,克服了傅里叶变换不能准确地描述一个信号的频率随时间变化情况的缺点。早在1946年,Dennis Gabor将作为傅里叶变换核的复指数函数
在康复医疗领域,现在主要以人工和机器人辅助训练两种康复方法,人工辅助训练是康复教练一对一的对病患进行康复训练的指导,但现实中往往医疗资源匮乏,机器人辅助方式又会有造
随着互联网的高速发展,其信息量和用户数也在飞速增长,人们逐渐步入了信息过载时代,信息过滤的推荐技术应运而生。近年来推荐技术在学术界成为研究热点,在工业界得到了广泛应
数据挖掘的提出和发展是最近十几年的事情,不过现实的需要使得其发展速度非常迅速。数据挖掘技术是通过计算机技术,在多个学科的知识和技术基础上,从大量的实际数据中,分析挖
PLC(Programmable Logic Controller)是一种工业自动控制设备。PLC运行语句表,然后利用I/O装置的输出电压信号控制外部机械或设备的操作。PLC具有适应面广、使用方便、可靠性高、抗干扰能力强、编程简单等特点。软件PLC提供了与硬PLC相同的功能。软PLC也提供了PC环境特有的各种优点。软PLC是一种基于PC机开发结构的控制系统。它具有在功能、可靠性、速度、故障查找等方
张铃教授和张钹院士在深入剖析了人工神经网络的机理后,提出构造性学习理论和方法,获得了成功。构造性机器学习方法是利用球形映射将神经元变换成对有限空间划分的分类器,正
近年来,随着计算机科技的迅猛发展,计算机科技中的各种新技术、新理论、新算法不断涌现,涉及范围越来越广,作为图像的识别、运算与处理基础的图像配准技术也在快速发展中。对两幅
基于属性-值的学习方法的命题化算法是关联规则挖掘算法的的传统方法,即,每一个事实都以的(属性,值)元组形式表示。这种表示形式中,属性种类是固定的,每个属性有一个给定的值