基于DKN的新闻推荐算法研究

被引量 : 0次 | 上传用户:FY830126
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网技术的飞速发展和新闻平台的多样化,使得人们能便捷地获取、分享信息,同时也产生了“信息过载”。这使人们从海量信息中获取知识的效率受到严重挑战,推荐系统专于应对这一挑战。它是在用户需求不明朗的情况下,通过对用户行为习惯等信息进行综合分析,从而挑选出最合适的内容推送给用户。然而,在新闻场景下,只有部分研究通过深入分析文本内容来确立用户偏好,如DKN算法(Deep Knowledge-aware Network)。该方法尽管通过引入知识图谱缓解了冷启动和数据稀疏问题,却忽视了新闻文本数据所含的大量隐式与显式信息。这些信息是新闻推荐任务中获取用户偏好的关键。因此,本文针对进一步分析与融合新闻文本特征,以实现信息地充分利用和推荐性能地提升,主要做了以下工作:(1)针对DKN算法利用卷积神经网络无法捕捉句中词间远距离信息的问题,本文提出融合位置信息的多头自注意力新闻推荐APMA算法(Auxiliary Position information recommendation with Multi-head self-Attention)。首先,通过TF-IDF算法、实体链接等完成数据预处理,得到词的重要程度、实体和实体上下文,再通过本文设计的双侧位置权重计算模块分别得到新闻侧和用户侧位置影响因子。其次,分别在新闻侧和用户侧的多头自注意力模块中加入相对位置影响因子,再利用附加注意力得到新闻表示和用户偏好表示。最后,计算两者内积得到点击预测结果并获得推荐列表。本文选用了MRR、AUC和F1值三种评价标准,利用MIND数据集,得到APMA比DKN算法在F1值上高了约0.05,证明了推荐性能提升显著,且还验证了该模型中部件的有效性以及参数设置的合理性。(2)为了较为全面地获得新闻的标题、正文和类别等有学习价值的数据,本文提出了两种基于融合多视图下信息的新闻推荐算法,分别是基于多视图的APMA优化算法APMA+和基于异质信息图的多级注意力网络推荐MAHIG算法(Multi-level Attention networks news recommendation algorithm based on Heterogeneous Information Graph)。相对于APMA算法,APMA+算法引入了通过Dense网络处理的类别信息,以及利用提出的长文本过滤机制和突出实体感知模块处理的正文信息,并通过附加注意力机制计算新闻表示。MAHIG算法则通过TF-IDF、LDA算法、实体链接和词嵌入技术进行预处理,获得新闻标题、主题、实体及其关系和节点嵌入,以构建一个蕴含新闻语料的、灵活的异质信息图,再利用两层注意力网络分别计算异质图中词间和类别间的影响权重,融入图卷积网络中获得新闻编码。两种算法均通过注意力机制和内积计算得到用户侧表示和点击预测值。APMA+算法和MAHIG算法均在MIND数据集上完成实验,与其他算法相比,其推荐效果有了较好地改善。同时,本文通过消融实验和参数分析验证了两种方法的组件和参数设置均有利于推荐模型性能地提升。
其他文献
行人重识别技术被广泛用于智能安防以及搜寻走失儿童等社会安全问题。有监督行人重识别和无监督行人重识别作为行人重识别的两个方向。在实际应用中,有监督行人重识别虽然取得了很好的结果,但是需要耗费大量的成本去标注数据。因此当行人在不同域的场景出现时,基于无监督学习的行人重识别应用更加广泛。与有监督方法相比,无监督行人重识别通过使用带标签的源域数据和不带标签的目标域数据进行训练,且这两个数据集通常采集的图像
学位
差分演化(Differential Evolution,DE)作为一种基于种群的全局优化算法,具有不受梯度信息限制和控制参数少等特点,被广泛应用于传统数学方法无法求解的复杂优化问题中。DE中不同的变异策略具有不同的搜索性能,选择和问题特征相匹配的变异策略会极大地提高算法的搜索性能,因此自适应变异策略选择成为提升DE算法性能的最有效方法之一。然而,现有的变异策略自适应选择方法通常以近几代演化数据的统
学位
作为一种基于种群的全局优化算法,差分演化算法(Differential Evolution,DE)凭借其简单的结构和高效的性能,从演化算法家族中脱颖而出。DE的性能受算法参数和变异策略的影响,自适应参数和变异策略控制是提升DE优化性能的最有效方法。然而,现存自适应参数和变异策略控制方法存在两方面问题:(1)忽略了对演化历史种群数据中隐含的有益特征信息的挖掘以及这些特征信息的合理利用;(2)不同状态
学位
疲劳检测是一个非常重要的研究领域,疲劳状态严重影响个体的生产效率和工作安全,如果不能及时识别和处理,可能会导致不良后果。因此,对疲劳状态进行有效的检测和管理非常重要,能确保人们的身体安全,有助于推动社会的进步。由于疲劳状态是一种高度个体化和主观感受强烈的生理状态,这使得建模和分析疲劳状态变得更加困难。本文研究的重点在于使用多模态生理信号(脑电信号、心电信号和肌电信号)来检测操作员在模拟飞行操作环境
学位
随着无人机技术的飞速发展,无人机自组网成为无人机应用中备受关注的研究领域之一。无人机自组网可以解决无人机之间通信障碍的问题,广泛应用于军事和民用领域。然而,无人机节点的能量消耗不均衡以及链路通信稳定性差的问题仍然是制约无人机自组网性能的主要瓶颈,而合适的路由协议是解决上述问题的关键。动态源路由(Dynamic Source Routing,DSR)协议广泛应用于资源受限的自组网,具有较低的路由开销
学位
近年来,基于深度学习的遥感图像目标检测在很多场景和领域中得到了广泛的应用。但在针对海面遥感目标的检测任务时,由于卫星遥感图像数据采集成本高、成像质量不稳定,导致可用于深度学习训练的样本非常少。因此,为了更加容易地获得数量多、质量好、样式可控的海面遥感目标图像,本文提出了基于样式(Style)的海面遥感目标图像生成对抗网络。该方法结合了生成对抗网络(Generative Adversarial Ne
学位
当今社会移动互联网高速发展,网络数据呈指数级增长。然而这些海量数据大多属于无结构异质数据,尽管其蕴含丰富价值,却难以被有效利用。通过实体关系抽取技术,可以有效地提取出无结构文本中的实体与实体之间的关系,并将这些关系以结构化的三元组形式呈现,从而有效地提取出文本中的重要信息,满足人们对无结构数据的需求。这些结构化三元组对知识图谱,推荐系统,自动问答等人工智能领域有着重要的意义与价值。近年来随着深度学
学位
极化码(Polar Codes)是在理论上被证明可达香农极限的信道编码方案,与其他纠错码相比具有编译码复杂度低、构造简单等特点,但传统的译码算法建立数学模型和求解都较为复杂。通信系统中的译码过程可以看作是对信息的分类,而深度学习可以对大量训练数据进行有效处理并从中学习到相关的特征,能够解决很多非线性的复杂建模任务,因此可以将深度学习用于通信系统中的译码过程。有鉴于此,本文对极化码与深度学习相结合的
学位
随着自行火炮功能、结构和集成技术的日益复杂,故障诊断和维修保障的要求也越来越高。同时,自行火炮使用人员的流动性大,需要保障装备的培训学习效果和减少诊断推理对专业技能及经验的依赖,以便使用人员和维修人员能够快速熟悉装备,并在故障发生时准确迅速地应用知识完成故障诊断和故障排除。IETM的应用不仅为复杂装备的故障诊断提供了便利,还能满足装备的维护保障和培训需求。为了提升自行火炮的故障诊断效率和保障能力,
学位
目标跟踪作为计算机视觉领域的一项重要任务,在虚拟现实、智能交通、无人机等领域具有广泛的应用。随着机器学习技术的进一步发展,目标跟踪技术有了很大的改进,然而因为遮挡、背景杂乱和出视野等挑战因素的存在,实现复杂场景下的鲁棒跟踪仍存在一定的局限性。为了提升孪生网络目标跟踪算法的鲁棒性和定位精度,本文从以下两个方面进行研究。(1)针对复杂场景下的目标形变与相似物干扰的问题,在Siam RPN算法的基础上,
学位