面向推荐系统的关键问题研究及应用

被引量 : 0次 | 上传用户:kooksnake
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网近年来在国内外爆炸式的发展,互联网上的数据、信息以前所未有的速度疯狂增长。因此怎样从海量数据中发现自己希望寻找的内容已经成为越来越多的用户面临的一大难题,也成为大量专家学者研究的热门课题。用户从互联网上发现并获取数据信息,一般看来经历了三个阶段:1,最初始是各类门户网站的建立,如sina、sohu、yahoo等,他们帮助用户梳理、组织各类常用的热门的资源、信息,供用户发现、浏览。但一方面梳理整合的信息毕竟是有限的,用户的需求不一定包含其中;另一方面随着数据的爆炸式增长,太多的数据会使得门户网站变得杂乱臃肿,因此这些网站也只能选择相对重要的信息检索。2,然后是搜索引擎的出现,如google,baidu等,用户能通过搜索引擎检索自己希望获取的内容;然而检索结果的准确性极依赖于用户对问题的描述,同时一般用户的描述通常是不够准确的,这会直接导致检索结果出现偏差,用户很难完全准确的找到自己所需的结果。3,最近则是推荐系统的产生,用户不再需要主动搜索,而系统会智能的通过用户的属性信息,用户的历史记录,为用户推荐用户可能会需要的信息,如taobao、netflix等会智能的为用户推荐商品、电影,这在用户需求不够明确时,能为用户精简信息。值得注意的是以上三个阶段不是一个进化的过程,而是一个相互补充,互相协作的关系。由于推荐系统能很好的解决互联网“信息过载”的问题,因此广受用户欢迎,也因此被越来越多的网站、公司使用,而与之相应的推荐算法也越来越受到学术界的重视,成为一个重要的研究领域。然而面对不同种类的数据与越来越复杂的应用场景,推荐系统会面临不同的问题,如冷启动问题和可扩展性等常规问题;又如应用场景的区别、数据分布的不一致会使得同样的算法在不同场景、数据上得到的结果相差很远;同时存在的是某些推荐算法问题的求解困难等新问题。针对以上推荐系统中存在的问题,本文深入研究推荐系统,做了以下几点研究工作:(1)基于非参数统计的相似度模型研究。协同过滤算法是推荐系统最基本也是最主流的算法,被成功的运用于大量商业模型中,取得了很好的效果。该算法主要由两步组成,其中相似度的计算是第一步也是最为关键的一步。然而1,不同应用场景的数据会有各自的特点,具有明显的差异性、分布明显不同,使用同样的相似度度量模型是不够准确的;2,传统的欧氏距离、皮尔逊相关度、余弦相似度等都有各自的局限性,已经不能直接应用于越来越复杂的场景:3,对于稀疏的数据,算出的相似度置信概率极低,直接用于推荐会降低推荐精度。基于以上原因,本文提出了一种基于非参数统计的相似度模型,基于非参数统计的思想,该模型能将不同场景的数据映射到统一的空间,去除不同数据间的差异,将其统一到相同的标准。同时由于投影后的空间具有良好的线性性,相似度度量能很好的使用线性相似度方式计算,解决上述几点问题,提高推荐精度。(2)基于时间回溯的特征预测模型研究。数据量的不足往往是各种机器学习模型面临的最大问题之一,大量的研究表明,数据对于模型结果的重要性远远大于算法对于模型的重要性。在推荐系统中,用户的历史行为是最主要的模型数据来源。传统的推荐系统可以根据用户的历史行为预测他们的属性(如爱好、年龄、性别等),也可以直接通过历史行为找到类似的用户进而进行推荐。然而一直以来的研究中,对用户历史行为的使用都是朴素、简单的,并没有注重历史行为的时间维度。本文提出了一种基于时间回溯的特征预测模型,使历史数据的利用率大大增大,从某种意义上数倍的丰富了数据量,提高预测精度。并且,本文在taobao的真实数据上使用该方法预测用户孩子的年龄,结果表明预测精度大大高于传统方法。(3)基于演化博弈的全局优化算法研究。大量的推荐算法问题,甚至数据挖掘问题,在模型的求解过程中,都会规约到求解全局优化问题。因此求解全局优化问题是推荐系统中的一个重点问题,也是难点问题。目前,常用的算法,如梯度下降法、随机梯度下降法或者牛顿法,只适合求解凸函数最优化(凸优化)问题。而本文提出的基于演化博弈的全局优化算法尝试求解连续域上的全局优化问题,剔除掉凸函数这一强限制条件。同时在求解的过程中,基于演化博弈,本文提出了一种自适应的参数调整方案,能极大的提高算法的准确性,并一定程度减少算法的收敛时间。
其他文献
<正>洗衣服是人们日常生活中再平常不过的事情。但随着生活水平的提高,人们对洗衣用洗涤用品的要求已不仅仅是洗涤去污那么简单了,而是越来越关心它是否健康安全、是否护色及
美国著名的政治学家萨缪尔·亨廷顿(Samuel P. Huntington)提出了一个关于政治稳定与现代化进程关系的经典命题:“现代性孕育着稳定,而现代化过程却滋生着动乱。”现阶段,我国
辽宁海水养殖业在全国具有重要地位。随着城市化、工业化进程推进,多元用海矛盾问题凸显,养殖空间萎缩,受技术、管理等因素制约海域资源利用效率不高,养殖生产方式传统粗放,
在上海《萌芽》杂志社刚刚拉开第二届新概念作文大赛的帷幕之际,其首届获奖作品也结集由作家出版社推向市场。这本1999年面世的文选不同于那些常见的由教育出版社或少儿出版社推出
在我国的刑事司法实践中,由于多方面原因的存在,我国鉴定人出庭作证的比例低下,有许多人只负责鉴定,不愿意出庭作证。鉴定意见蕴涵着科学成分,对事实判断有着重要的参考价值,
隋文帝和炀帝都曾修筑长城,炀帝还在太平时节兴修了一批国防工事及其它一系列大型公共工程,企图奄吞周汉成不世之功。然“功业相同仁暴异”,隋场帝超越时代,做当时人民承受不了的
在信息化越来越普及的今天,计算机技术和网络技术早已应用于各行各业,在各行各业发挥着极大的作用,使其生产效率、消费效率和管理效率都得到了极大的提高。同样,行政领域也不
为降低绿化中花境的养护和维护成本,保持其观赏效果的长期性和稳定性,同时探索花境植物配置形式的丰富性和多样性,以奉贤区金海北路上约200m的道路两侧绿化带为例,介绍了以花
随着我国网络信息技术的不断成熟,电子商务得到了良好发展空间,而跨境电商作为其衍生行业,目前仍受到一些问题的制约,本文将从发展跨境电商的重要性出发,提出加强品牌推广、