基于降维和聚类的推荐算法研究与应用

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:saood
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,网络用户数量和承载着各种信息的数据量都在快速增长。面对史无前例的数据量,用户如何获取到自己感兴趣的信息,互联网服务提供商如何让自己提供的服务被目标用户关注并使用都成为亟需解决的问题。智能的个性化推荐系统应时而生,推荐系统利用推荐算法分析用户的历史浏览、购买和评价等信息,预测用户喜好然后进行推荐。推荐算法是推荐系统的核心,本文对传统的协同过滤推荐算法进行了研究与优化,设计了一种新的基于PCA降维与改进的K-means聚类的协同过滤推荐算法PK-CF。该算法为解决用户-项目评分矩阵极度稀疏造成的相似度计算误差的问题,采用主成分分析法对用户-项目评分矩阵进行降维,去除包含信息量少的维度,只保留最能代表用户特征的维度;为解决协同过滤算法在系统规模庞大情况下的相似度计算耗时长的问题,对降维后的数据进行K-means聚类来降低搜索目标用户最近邻的用时,并基于k维树设计了新的初始质心选择算法对K-means算法进行了改进,在保证最终聚类效果的同时加快了聚类的速度。为了进一步提高推荐系统的实时性和可扩展性,设计了PK-CF算法在主流大数据平台Spark平台上的并行化方案,实现了对改进后的K-means算法的并行化和预测评分过程的并行化。本文在Movie Lens数据集上对传统协同过滤算法、基于K-means聚类的协同过滤算法及本文的PK-CF算法进行了性能测试,结果表明:PK-CF算法和其在Spark平台上的并行化方案不仅能有效地提高推荐结果的准确率与召回率,而且在时效性方面也有较好的表现。最后,本文将PK-CF算法应用到音乐推荐业务场景中,开发了一个音乐推荐原型系统,检验了PK-CF算法的实用性。
其他文献
双曲超材料是具有各向异性介电常数张量或磁导率张量的电磁介质,是一种具有双曲散射的单轴结构材料。双曲超材料内部体等离激元能使得高k波矢的光有超强的传输能力,因而可以通过波矢匹配实现双曲超材料的体等离子基元的共振实现高灵敏度生物传感。本文中的棒状三维多孔双曲超材料具有较大的比表面积、孔结构吸附更多的生物分子和实现自身波矢匹配激发双曲超材料体等离激元的优势,进而将棒状双曲超材料运用到生物传感器中。(1)
铁氧体环行器是一种数个端口的非可逆微波器件。因为它正向传输,反向隔离的非互易特征,多用于相控阵雷达、移动通信基站等的收与发组件中。较多的运用在航天、微波通信和航空等领域。双极微带环行隔离组件是在铁氧体环行器的基础上增加一个环行结,转化为双极的微带环行隔离组件。在两个环行结间为了得到一个较大的隔离度,会将一个端口匹配一个内置负载,这样就将4端口的器件变为3端口器件。在收与发的组件中,一般情况下三个端
胺及其衍生物是一类重要的有机化合物,在染料、药物、农用化学品和精细化学品等领域具有广泛的应用前景。目前,胺类化合物的合成过程中往往面临催化剂成本昂贵、不能够回收利用,反应过程中需要添加额外的氧化试剂、溶剂和碱助剂等问题,限制了其在工业上的应用。因此,从原子经济性高和环境友好的角度出发,寻找简单、绿色和高效的催化体系用于催化合成胺类化合物是非常重要的。本文主要从氮掺杂碳基催化剂的制备和表征入手,催化
稠油油藏作为新世纪开发的重要能源之一,其高效开采技术一直是石油行业探索的难点。我国塔河油田稠油油藏因其超深、超稠、温度高、压力高、黏度高、矿化度高、硫化氢含量高
本文对渤海湾主要区域的沉积物进行相关的野外调查分析,通过了解渤海湾沉积物中包囊与对应上层环境的相互关系,可以对调查区域的环境质量的变化做出判断。通过对样品的分析共鉴定出包囊6类42种,其中包括原多甲藻类(Protoperidinioid group)15 种,膝沟藻类(Gonyaulacoid group)13 种,裸甲藻类(Gymnodinioid group)6 种,钙质类(Calcoidin
聚苯硫醚(PPS)作为一种热塑性结晶聚合物,具有优异的热稳定性、耐化学腐蚀性和机械性能,可广泛用于高端电子封装、除尘过滤、汽车航空等领域。由于PPS存在韧性差、加热时容易氧化交联,原有端基反应活性低等缺点,因此实际使用中常对PPS进行改性。常用的改性方法有填充、共混、共聚、接枝等,但端基改性研究报道较少。本文以成品PPS为原料、对氯苯甲酸等为改性剂、氢氧化钠为助剂、N-甲基吡咯烷酮为溶剂,合成了不
目的:分析研究MRI引导兔肺VX2肿瘤微波消融及评价其疗效的可行性。方法:第一部分将2只新西兰雄性大白兔双侧后腿肌肉组织接种VX2肿瘤成瘤后作为建立兔肺VX2肿瘤模型的细胞株
水是生命之源。地球上大约有70%的地方覆盖着水,但在生产生活中能直接利用的淡水资源却不到3%,而其中人类能直接利用的部分经常受到各种污染的威胁。当前水环境污染问题已引起人们的广泛关注。水体污染可由多种类型的污染物所导致,例如无机物,好氧物质,重金属,病原体微生物等。部分污染物质在水中可通过物理、化学和生物反应转变为对环境危害更大且更为稳定的污染物质,它们在环境中稳定性很强,难以降解,造成水体水质恶
自驱动微纳米马达是一种微纳米尺度的机器,它能够将周围环境中的化学能、热能等能量转化为动能从而实现自推进运动。这些微纳米机器有能力以自主的、有针对性和选择性的方式
目的:构建炎症性肠病患者硫唑嘌呤活性代谢物群体药动学模型,开展临床用药研究。方法:以接受硫唑嘌呤(azathioprine,AZA)治疗的炎症性肠病(inflammatory bowel disease,IBD)患者为研究对象,收集年龄、性别、体重、肝肾功能、炎症指标及合并用药等信息。每个患者至少采集12个稳态谷浓度血样,采用反相高效液相色谱法(RP-HPLC)测定红细胞内硫唑嘌呤活性代谢物6-硫