面向推荐模型的图聚类采样方法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:liulangdetianya
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
个性化推荐系统是当前互联网产品不可缺少的部分,尽管推荐模型已经发展至与图神经网络相结合的阶段,相应的采样技术却并未得到足够的重视。然而,采样方法对于推荐模型效果的影响不容忽视。近几年关于负采样的研究大多关注难负样本,即与正样本相似的负样本,难负样本使模型更好的学习到正负样本的边界。然而,过分追求难负样本可能导致伪负样本问题,即把用户未来可能发生交互的物品当作负样本,使得模型效果变差,现有方法并不能很好的平衡二者关系。另一方面,之前的推荐方法大多使用均匀分布进行正采样,然而移动互联网时代的用户交互方式正发生改变,正样本中也存在着由于误点击导致的伪正样本,正采样策略需要得到调整。为了解决上述问题,提出一种面向推荐模型的图聚类采样方法(Graph Clustering based Sampling,GCS)。GCS将自监督学习和图神经网络结合进行预训练,拉近正样本,推远负样本,使学习到的节点表征具有较强类别性,并对学习到的节点表征聚类,基于聚类结果制定正负采样策略。具体来说,针对难负样本与伪负样本问题,GCS在图聚类的基础上使用动态负采样,挖掘难负样本同时避免伪负样本;针对伪正样本问题,利用聚类结果调整采样分布,进行全类别正采样,学习用户完整喜好,同时过滤伪正样本,从而提升推荐模型的效果。在ML-1M、Beauty和TikTok三个不同规模的数据集上验证GCS算法的效果,并与当前效果最好的方法进行对比。实验结果表明,GCS在三个数据集上均可取得一定的提升。此外,通过消融实验证明了GCS算法各模块的有效性,通过超参数实验确定GCS算法对不同超参数的敏感程度。
其他文献
随着数据泄露事件的不断增多,安全神经网络逐渐成为机器学习领域研究热点,其中以秘密分享为主的安全多方计算成为学界重点研究的方向。然而现有以秘密分享为主的隐私保护机器学习框架大部分基于CPU实现,远慢于明文框架。最新的Crypt GPU框架实现GPU上的ABY3方案,极大提升线性计算效率,但其非线性计算方案通信复杂,不能很好地发挥GPU性能。同时Crypt GPU不支持最大池化,仅支持降低部分模型性能
学位
肾小球病理图像的自动分类有助于在肾脏病理学中建立有效和客观的诊断体系。随着深度学习的蓬勃发展,肾小球图像自动分类准确率不断提升,但是膜性肾病和基底膜结构改变等病变特征相对不明显的肾小球图像分类效果不佳,对该类肾小球分类需要在较小的区域捕捉病变特征,具有挑战性。目前并没有公开的病变特征不明显的肾小球数据集,因此在华中科技大学同济医学院收集膜性肾病和微小病变病人数据进行标注,获得4811张病变肾小球图
学位
构建数字化供应链已成为当前制造企业实现高质量成长的重要路径。然而,当前对数字化供应链与企业高质量成长之间的关系还缺乏充分的内在解释和实践指导,导致企业实施数字化供应链项目后业绩差异很大。本文基于开放式创新理论,从能力的视角解释数字化供应链,并将其划分为连接和生成能力两个维度。通过对231家中国制造企业调查数据的实证分析发现:数字化供应链能力对高质量成长有显著的正向影响作用,协同创新在上述关系中起部
期刊
音乐教育作为思想道德教育中的一个重要元素,教师要重视将思政元素融入到课程中,发挥思想引领与文化传播等方面的重要作用。文章选取高职钢琴音乐课程群作为研究对象,首先,基于中华优秀传统文化之精华,深入分析高职钢琴音乐课群思政教学的内涵,阐述了思政元素融入课程群教学的必要性;其次,指出当前思政教学实践过程中存在的问题;最后,提出高职钢琴音乐课群思政教学改革的思考。
期刊
体态检测是一项重要的医学检测,相较于CT图像,通过深度相机获取的深度图像由于其安全又便捷的优点,频繁地出现在体态检测研究中。体表关键点定位是体态检测中极为重要的一步,医师们对深度图像进行手工关键点标注会消耗大量时间且容易引入主观误差。同时,医院的计算机设备往往算力较低,参数量过大的网络会导致运行缓慢,难以被广泛应用。因此,亟需一种轻量级的深度图像精确定位方法。基于OpenPose设计了一种轻量级深
学位
尺寸测量接口标准(Dimensional Measuring Interface Standard,DMIS)是智能制造系统中用于统一测量设备和计算机系统之间数据交换的通信标准,目前已被全世界测量设备制造商广泛采用。然而DMIS标准只制定了一种通信标准和语法规则,唯有实现它的编译器才能真正应用于实际中。研制出自己的DMIS编译器对于突破国外的“卡脖子”项目,提高我国制造业的独立自主创新能力有着极为
学位
TPC-E是事务处理性能委员会发布的用于测量系统联机事务处理能力的基准,基准重点测试使用的数据库系统。目前现有的TPC-E测试工具功能较为单一且对测试多种数据库的支持较差,少数商业工具具有TPC-E测试功能,但对基准的符合度、具体实现不详,因此设计并实现一个适配多种数据库的TPC-E测试工具对TPC-E测试的发展具有重要的意义。通过对TPC-E基准的分析和研究,设计了适配多种数据库的TPC-E测试
学位
<正>在高等职业学校的语文教学中,要把传统文化融入其中,对于培养高层次的高职高专人才有着十分重要的作用。同时,教师要引导学生了解学习传统文化的必然性,并运用多种教学方法来激发学生的学习兴趣,采取一系列的方法,例如:创设良好学习情境,激发学生探究热情;在语文教学中注重传统文化和高职学生专业技能的融合;加强对高职院校传统文化的培养,增强对中华传统文化的整合。我国优秀的传统文化,包括“仁、义、礼、信”“
期刊
大型物联网生态系统往往拥有数千到数百万台设备,许多工业机器、控制器、传感器被设计在使用同一协议的情况下协同工作,但实际工业环境中设备可能来自于不同的制造商,使用不同的通信协议,导致设备之间难以相互操作,产生信息孤岛。MQTT(Message Queuing Telemetry Transport)、HTTP(Hyper Text Transfer Protocol)与Co AP(Constrain
学位
受新冠肺炎疫情的影响,越来越多的学校和教育机构为响应“停课不停学”政策通过网络平台实现线上教学。然而,在计算机编程语言课程的教学当中,学生仅通过视频教学而缺乏实践导致学习效果不佳。对此,进行深入地研究,设计和实现了一个基于微服务的代码在线评测系统,提供在线编写代码和自动评测功能,支持C语言,C++语言和Java语言,实时反馈评测结果,方便教学管理,辅助编程语言类课程的教学。针对教师手工批阅编程作业
学位