结合知识图谱的个性化新闻推荐系统

来源 :中国科学技术大学 | 被引量 : 1次 | 上传用户:hzsbf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的蓬勃发展,人们的新闻阅读习惯逐渐从报纸、电视等传统媒体转向互联网,网络新闻越来越成为用户日常获取新闻信息的主要来源。由于网络上每天都有海量的新闻报道产生,用户面临着严重的信息过载(Information Overload)的问题,个性化新闻推荐是解决新闻信息过载、实现用户个性化信息获取的重要方法,对于新闻服务提供商改善用户体验至关重要。与传统的电影、音乐和餐厅等其他推荐领域不同,新闻推荐具有以下的特征:新闻文章具有高度的时间敏感性,已有的新闻报道会在很短的时间之后就不会再推送和呈现给用户,因此,经典的基于ID的协同过滤方法在这种情况下效果比较差,对新闻内容的深刻理解是必要的。人们在阅读新闻时对新闻主题比较敏感,通常对多个特定的新闻类别感兴趣,而新闻不同于一般商品,包含丰富的内容和信息,经常能反映用户的多种兴趣,如何根据用户的多样化阅读历史准确地建模用户的兴趣是个性化新闻推荐系统的关键。新闻内容较为复杂,往往包含大量文本和事实,随着推荐系统的发展,可解释推荐系统越来越受到研究者的关注,如何基于复杂的新闻数据有效地构建合理的解释理由比较有挑战性。知识图谱(Knowledge Graphs)是一种异构图,其中节点表示实体,边表示实体之间的关系。商品及其属性信息往往能够映射到知识图谱中,因此将知识图谱这种精心构建的外部知识库引入到推荐系统中来,能够更好地丰富商品的表示,增强推荐系统对商品以及用户的理解,提升推荐系统的准确性。把知识图谱引入到推荐系统的另一个好处是能提高推荐系统的可解释性,通过知识图谱能够建立用户和商品,商品和商品之间的联系,从而提供便于理解的可解释的路径。基于以上优势,把知识图谱引入到推荐系统中越来越受到研究者的关注。对于新闻推荐来说,新闻的语言通常高度浓缩,一般包含大量的知识实体,这些知识实体往往对应新闻中的人物,地点等经常能反映新闻的主题的关键词,结合知识图谱可以有效地将相关的新闻联系在一起,增强对新闻内容的理解。因此,知识图谱是非常理想的辅助新闻推荐的数据源。利用知识图谱更好地提升新闻推荐成为一个有前途的研究方向。本文结合知识图谱在个性化新闻推荐问题上做出以下创新性研究:(1)以往的新闻推荐研究大多是基于通用知识图谱进行的,然而通用知识图谱缺乏新闻相关的属性信息,并且同时包含了大量的与新闻无关的信息。为了使得知识图谱更加符合新闻推荐的具体要求,本文提出新闻知识图谱(News Graph),在通用知识图谱的基础上,引入新闻相关的属性信息,同时去掉通用知识图谱中与新闻无关的噪音信息,构建专门服务于新闻推荐的领域知识图谱。(2)新闻表示的质量是新闻推荐的基础,与其他形式文本例如用户评论相比,新闻往往包含大量知识实体,因此引入知识图谱能显著提升新闻文本的表示,但是如何充分的利用知识信息,结合文本,得到更好的表示有待研究。为此本文提出了知识增强新闻表示模型(KRED),以快速、灵活、准确的方式提升新闻文章的表示。(3)了解用户的兴趣对于新闻推荐至关重要,新闻往往内容比较复杂,一篇新闻可能包含多个兴趣点,用户的兴趣通常也比较广泛,因此粗略地把一篇新闻归到特定兴趣下,用单一向量表示用户,会使得对用户的兴趣建模不够准确。本文提出了知识增强用户多兴趣模型(KEMI),结合异构图神经网络和双记忆网络的模型,从新闻文本(粗粒度)和相关实体(细粒度)两个层次上建模用户的兴趣,更加准确的刻画了用户的多样化兴趣,同时使得不同的兴趣在知识层面有了更好的解释性。(4)随着推荐系统的发展,可解释的推荐系统越来越受到研究人员的关注,之前的结合知识图谱的可解释模型由于计算复杂度和不能有效地结合新闻表示等问题,不适合应用在新闻推荐这个问题上。我们首次在新闻推荐上应用可解释推荐,提出了锚点知识图(AnchorKG)模型,对于每篇新闻,生成一个锚点知识图,这个锚点知识图只包含一些新闻中比较重要的实体,和这些实体在知识图谱中跟新闻内容紧密相关的邻居。因此在做推理的时候,我们仅仅通过锚点知识图来找推荐路径,使得在新闻上进行可解释推荐变得可行。并且我们的模型可以有效地结合新闻和实体表示,同时保障了新闻推荐的准确性。总体而言,本文全面地研究了知识图谱在新闻推荐中的作用,从基础的如何改善知识图谱来更适用于新闻推荐任务,到结合知识图谱提升新闻推荐最核心的新闻表示和用户建模,再到更深层次的结合知识图谱给新闻推荐提供可解释性。本文所研究的内容同时也能为现实应用带来一定的理论与实用意义。
其他文献
作为近代藏族史上颇为关键的一位历史人物,吴忠信最令人记忆深刻的事迹便是曾代表国民政府会同西藏摄政热振呼图克图主持了十四世达赖喇嘛转世事宜,从而有力地维护了中央政府对于西藏地方的国家主权。吴忠信从1936年开始担任蒙藏委员会委员长,一直持续到1944年,共计八年时间。可谓蒙藏委员会历史上担任委员长时间最长的一位,约占整个国民政府蒙藏委员会总存续期间的三分之一还强。这一时期,正是西藏历史上最复杂、最曲
学位
小型模式生物如秀丽隐杆线虫、果蝇和斑马鱼是常用于研究遗传学、神经科学和疾病发展的理想模式生物。通过研究模式生物人们可以从细胞、组织、器官和系统层面全面解析生物系统。由于在物种进化上的保守性,这些模式生物与高等生物有相似的基因结构和功能,常用于遗传学、发育生物学和神经科学等研究领域。无标记光学显微镜如被生命科学工作者大量使用的体式显微镜,目前只能对小型模式生物进行宏观分析。要想对其进行细胞或者亚细胞
学位
开展青少年法治宣传教育是推进中国特色社会主义法治体系建设的重要手段和渠道。随着社会经济的快速发展,青少年法治宣传教育的开展也应顺势而为,迎风而上。初中生作为青少年主要群体,正处于认知发展的“拔节孕穗期”、人格发展的“黄金关键期”以及社会性发展的“成长适应期”,是法治观念形成的关键人物。要下大气力找准法治观念培育的合适着力点,引导初中生树立正确的法治价值观。2022年5月,义务教育阶段课程标准(20
学位
口服抗生素是目前最常用及有效的治疗多器官细菌性感染的方法。然而,在口服抗生素治疗过程中,部分未被肠道吸收的抗生素会到达盲肠和结肠区域。这两个区域中存在着丰富的肠道菌群,这些共生微生物影响诸多生理过程,并参与免疫和代谢稳态的调节。未被吸收的抗生素会对盲肠和结肠的肠道菌群产生极大的干扰,诱发一系列疾病:包括改变肠道菌群基本的生理稳态,诱发宿主更易感染机会致病菌,造成急性肠炎;改变菌群结构,影响免疫细胞
学位
超势垒整流器(SBR:Super Barrier Rectifier)利用 MOS(Metal-Oxide-Semi conductor)结构形成的可调节的电子势垒来实现器件的开合,其开关速度和正向压降可以媲美肖特基整流器,又因为摒除了信赖性较差的肖特基接触而提高了反向漏电流和击穿电压等方面的表现,满足了高频电力电子电路中对兼具高反向击穿电压、小反向漏电流、低正向压降、高开关速度的器件设计要求。相
学位
为了满足空间多元化数据的高速传输需求,本文对SpaceFibre高速总线网络进行了研究,针对路由网络中的数据转发冲突,提出了一种SpaceFibre路由系统设计方案.其中,配置端口实现了网络参数的实时配置和状态的实时反馈;路由端口实现了基于虚拟通道机制的QoS调度,为不同数据源提供不同服务;路由交换模块中利用全连接结构实现了虚拟网络间的互联,并针对虚拟网络中的数据交换冲突,设计了一种基于优先级等待
期刊
极值图论最早的一个定理是由Mantel在1907年提出。他证明了n个顶点且不包含三角形作为子图的边数最多的图一定是K[n/2],[n/2],一个两部分大小尽可能相等的完全二部图。1941年Turan将这个定理推广到了不包含一般的t-团(t个点的完全图)作为子图,证明了对给定顶点数目且不包含t-团作为子图的边数最多的图一定是每两部分大小尽可能相等的(t-1)-部完全图。由于Turán的开创性工作,对
学位
近年来,大量的视觉数据通过互联网不断产生,尤其是社交媒体平台和其.他存储库的流行,使人们对视觉内容的兴趣迅速增长,也为基于内容的图像检索CBIR(Content Based Image Retrieval)带来了新挑战。CBIR实现了在各种图像数据库中进行相似内容搜索,在工业界有着广泛的应用场景,如搜索引擎(Google、百度)的以图搜图功能,电商网站(淘宝、Amazon、eBay)的相似商品搜索
学位
职业兴趣是个体进行职业选择的重要依据,并直接影响其入职后的工作态度和行为。然而,目前我国员工职业兴趣与工作环境匹配的整体情况未能尽如人意。人们常发现当他们作为一名新员工真正踏进自己选择的职业时,现实的工作环境并不能满足他们的职业兴趣。长此以往,职业兴趣与工作环境不匹配或匹配度较低的员工可能会有一系列的负面表现,如较高的离职意愿及较低的工作满意度和工作绩效。更重要的是,在如今模糊多变的职业环境下,由
学位
伽玛射线暴,简称伽玛暴(Gamma-ray bursts,GRBs)是一种宇宙中某一处伽玛光子迅速上升然后又快速衰退的暂现现象。这种现象的持续时标从几毫秒秒到几分钟不等,其各向同性光度通常在1046-55 erg s-1。根据伽玛暴的持续时标(T90),我们一般将伽玛暴分为两类:其中一类的持续时标小于两秒,称为短时标伽玛暴,简称短伽玛暴或短暴,来自于双致密星的并合;另一类的持续时标大于两秒,称为长
学位