基于用户分类与多模态机器学习的主动服务推荐方法研究

来源 :华北水利水电大学 | 被引量 : 0次 | 上传用户:hwcf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着用户服务推荐技术逐渐成熟,推荐的核心部分需求预测方法的研究得到了广泛关注。由于用户数据随着网络发展演变为数据量大、数据类型多、数据稀疏的特点,面对如此大量丰富的信息,用户通常希望能够很快的找到自己想要的服务项的信息,而如何更加精准的预测用户需求,为用户推荐更好的服务质量面临巨大挑战。本文经过比较不同聚类算法的特点,结合聚类处理的用户数据进行分类,针对不同的预测模型的对比,结合深度学习方法改进提升模型预测精度,并通过大量实验验证预测模型的性能。本文主要工作内容和研究成果包括:(1)为了能够更好的为推荐方法提供服务,就需要从具有实际意义的用户数据进行处理,面对大量的用户数据,在保证用户的个人隐私安全情况下,采用无监督模式。将高维度的用户数据进行归一化处理并降低维度,减少稀疏性;然后通过改进的聚类方法对用户进行分类并标注;结合内部评估指标改进的轮廓系数(Silhouette Coefficient)进行不同聚类算法间的实验对比,获得理想的用户蔟类,并为下一步的用户需求推荐预测做数据准备。(2)主动服务推荐已经成为实现智能服务、提升用户体验的重要技术,而如何精确地预测用户的服务需求成为当前亟需解决重要问题之一。针对这一个问题,本文根据上一步的用户聚类结果,将同类用户数据信息使用的商品信息的文本数据和图像数据相结合,构建了一种基于软注意力机制与多模态机器学习(Soft Attention and Multimodal Machine Learning,SAMML)的主动服务需求预测方法。本文构建的这种方法首先需要从用户历史商品信息中分别提取文本数据信息和图像数据信息的特征向量,并将两种特征向量进行特征融合实现多模态的数据特征共享,用来使用户与商品服务关联性有更好的表达;接着通过软注意力(Soft Attention,SA)机制主动的将特征共享后的特征数据进行处理,然后将融合数据处理后所得的结果输入进门控循环单元网络(Gated Recurrent Unit,GRU),使GRU能够通过两种数据类型更好地学习用户的历史商品服务兴趣;最后将用户特征与服务特征数据结合训练SAMML模型,使用训练好的SAMML模型实现用户的主动服务需求精确的预测。基于天池大数据众智平台提供的数据集(Debiasing)进行了大量的验证实验,首先通过数据预处理,通过聚类方法进行用户分类,再将相似度高的用户蔟类数据通过SAMML模型进行预测,进一步为推荐系统提供更准确的精度,在评估指标MAE、MSE、R~2上SAMML模型分别比对比模型提高5.81%、6.45%、6.0%。
其他文献
在保证实时性与模型的适应性的条件下对居家人士的行为进行分析,提出了一种基于动态时间跨度与聚类差异性指数的用户行为异常实时检测算法。该算法利用动态时间跨度与聚类差异性指数对实时数据流进行概念漂移检测,在数据流发生概念漂移的情况下,利用局部离群因子(LOF)来检测用户发生行为异常的时间点。通过动态时间跨度对分类模型不断更新,有效提升了模型的适用性。通过实验验证了该算法能够在保证实时性的情况下正确检测出
针对移动用户上网信息进行解析,结合用户通信行为数据,通过采用数据挖掘技术及机器学习中的聚类算法K-means,对用户的互联网偏好进行挖掘,分析用户上网影响因素,从而细分用户群体,为精细化营销奠定基础。
英语教育作为一门语言学科,有着和其他学科不一样的特点,在传统的课堂上,家长、老师对孩子的期望,使他们产生了很大的心理和学习负担,让他们在英语学习以及作业完成过程中没有动力,成绩也不理想。如此一来,无论怎么训练都是徒劳,不但无法提高效率,还会增加压力,让他们学习英语的兴趣下降。因此,当务之急是要转化作业设计观念,减少过多的繁复作业,在设计作业时着重考虑学生的发展需要,为其量身定做符合其自身特点的家庭
负荷分类对电网调度、负荷预测、用户用电行为分析等具有重要意义.针对传统负荷分类算法易陷入局部最优解而无法确定最优初始聚类中心,导致分类结果不准确问题,提出一种融合进化算法优化模糊C均值(FCM)的负荷聚类算法.首先使用重心Lagrange插值法填充负荷曲线缺失点,其次利用线性函数将不同行业负荷曲线归一化,最后结合遗传算法全局搜索效率高以及模拟退火算法计算时间短的特点优化FCM进行负荷聚类,弥补了传
高盐废水采用高温氧化、纳滤分离及电渗析的工艺,并结合传统的五效蒸发及结晶干燥的方法,可将高盐废水成功地转化成硫酸钠和氯化钠产品,不仅处理了大量的高盐废水,还带来一定的经济效益。
将燃气日瞬时流量和日用气量作为研究对象,提出基于K-means聚类、特征标签、用户画像、k折交叉验证和岭回归的用气负荷异常检测方法。结合实例,对该异常检测方法进行探讨。将案例用户某段时间的瞬时流量组成数据集,使用K-means算法进行聚类分析,将用气分为工艺生产和停工小火两类用气行为,得到工艺生产数据集。针对工艺生产数据集中的每个样本,得到6个特征标签(日最大负荷、日均负荷、日用气时段百分比、日用
2018年12月,最高人民法院发布了《最高人民法院关于增加民事案件案由的通知》,增加了"平等就业权纠纷"案由。该通知已自2019年1月1日起施行。通过对2019—2020年间适用"平等就业权纠纷"案由的案件审理情况进行考察,揭示了法院对"平等就业权纠纷"这一新案由的认识和适用情况,探寻了"平等就业权纠纷"案由对就业歧视司法救济的积极意义以及其中折射出的就业歧视立法和司法中存在的问题。经由案件分析可
伴随着互联网技术的快速发展、网络信息资源的爆炸式增长,人类进入了大数据时代。如今,日趋严重的信息过载问题造成了用户难以准确获取所需个性化资源的局面。个性化推荐技术由于能够实现对海量信息的精准化过滤,帮助用户快速获取个性化的资源而逐渐被广泛关注并应用。在诸如电商、电影、短视频等领域,个性化推荐技术已经成为解决信息过载不可或缺的方法。个性化推荐技术在商业领域的大规模应用,促进了商业领域的发展,同时商业
慢性肾脏病(chronic kidney disease,CKD)全球患病率高,社会负担重,其常见并发症高钾血症是一种可危及生命的电解质紊乱,与患者全因和心血管死亡率升高显著相关。同时,CKD合并心血管疾病需要使用肾素-血管紧张素-醛固酮系统拮抗剂(renin-angiotensin-aldosterone system inhibitor,RAASi),可加重高钾血症风险,并转而限制RAASi在
系统回顾和总结党的十八大以来我国教师教育研究成果,对推动新时代教师教育研究具有重要指导意义。本文借助Pajek、VOSviewer、CiteSpace 6.1.R3等可视化软件,对北大核心期刊和CSSCI来源期刊收录的2013年至2022年间2029篇文献进行计量分析发现,经过前期的不断探索与积累,当前,我国教师教育研究正处于从学科理论日益成熟阶段走向学科理论完备阶段,形成了以南京师范大学杨跃等学