融合文本深度隐语义特征的推荐算法研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:Calvin521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如今的互联网时代,信息数据量在以指数级别增长着,给我们带来很多便利的同时也带来了困扰。即在面对规模庞大的数据量时,想要高效的获得自己想要的数据变得愈发困难,这就是所谓的“信息过载”问题。推荐系统通过分析用户的历史行为,主动的从大量数据中为客户推荐用户可能感兴趣的信息,已经成为了缓解“信息过载”问题的有力手段之一。传统的推荐算法虽然有着不错的成绩,但依旧存在很多问题,比如冷启动、数据的稀疏性、不能利用其它知识层面数据等问题。推荐算法的研究方向很多,其中如何融合其他方面数据到推荐系统里帮助解决数据稀疏性等问题就是其中的一种,融合文本类型数据更是其热点之一。本文的主要研究内容是研究如何融合文本类型数据来对推荐算法性能做进一步的提高。由于采用主题模型对文本进行处理存在着不能感知文本上下文的缺点,因此本文利用现如今先进的深度学习模型对文本特征进行捕获,然后把学习到的项目隐语义特征融合到矩阵分解模型PMF中。本文提出了新模型HANMF(Hierarchical Attention Networks Matrix Factorization)和HANMF+,具体工作如下:本文首先分析了现如今融合文本特征的推荐算法模型,介绍了一种融合深度学习技术的推荐算法模型ConvMF。该模型的创新之处在于利用深度学习技术来感知文本上下文信息,提高了推荐算法模型的性能,证明了加强感知文本上下文特征的力度有助于提高模型的评分预测性能。因此本文采用RNN家族的双向门控循环神经网络Bi-GRU来对本文的文本数据(项目描述文档)进行处理。因为普通RNN存在着梯度弥散问题,所以采用GRU来代替RNN,并且双向GRU能捕获文本前后两方面序列信息。由于融合文档结构信息能进一步提高文本特征的捕获的能力,所以本文引入层次注意力机制网络HAN分别对描述文档的词级别和句子级别结构信息进行了特征注意。然后把上述处理的文本隐语义特征在概率视角下恰当的融合到概率矩阵分解模型PMF中,并对其关键的超参数进行了调整,提高了评分预测的精确度。为了提高模型的泛化能力,本文进一步提出了添加有预训练单词嵌入模型HANMF+。最后在三个真实数据集上对PMF、CTR、CDL、ConvMF、HANMF、HANMF+六个模型进行了对比实验,其中HANMF模型相对于ConvMF模型在三个数据集分别提高了1.24%、0.72%和4.26%,验证了本文所提模型的有效性。因为HANMF模型的影响因素很多,所以本文还对其中重要的参数和影响因素进行了相应的分析。
其他文献
网络是表达实体和实体间联系的一种重要形式,如社交网络、公路网和论文引用网络等。随着互联网的不断深入和发展,网络的复杂度也在不断增加,使得其承载的信息量也具有更大的发掘价值。在对网络数据的挖掘中,有很多具有重要意义的应用,如推荐系统、社区发现、节点分类和网络链接预测等。然而,大多数网络具有的自然表示形式是高维稀疏的,使得机器学习算法应用到网络挖掘任务中较为困难。因此,如何有效且高效地提取网络中的特征
近年来,停车困难、停车管理困难等问题日益加剧,为了解决上述问题,本文依托吉林省重点科技研发项目“基于车联网的城市停车位智能服务平台的构建”,开发了一套智能停车场监管平台。同时,考虑到停车需求,本文从大数据分析的角度,在传统停车场监管平台功能的基础上,搭建了大数据监管子平台。与现有的停车场管理系统相比,本平台采用一系列前沿的软件工程开发技术与理念。首先采用前后端分离式软件架构的理念,在前端采用企业级
近年来,随着信息时代的科技发展,使得互联网在长期以来积累了大量数据,这些大规模的数据普遍具有价值密度较低、数据种类丰富、数据来源广泛等特点。因而,在用户搜索信息时,相比于获取带有用户检索条件的标题信息的网页,更希望能够获取页面中所含有的知识。知识图谱中的RDF是当前的研究重点,针对RDF数据的知识图谱查询语言SPARQL也得到了许多研究和应用。然而传统的SPARQL查询语句由于缺乏推理能力,无法发
膝关节假肢是各种假肢中最常使用的类型,随着科技的发展膝关节假肢的智能化程度越来越高,目前的智能假肢研究已经致力于在恢复截肢者行走步态的同时,实现多种复杂功能,进一步丰富假肢的工作场景。但是,对于膝关节假肢的测试手段仍然停留在招募测试者人工测试的阶段,使得智能假肢的研发过程存在诸多不便,因此急需一种用于测试膝关节假肢性能的实验设备。本文以国家重点研发计划项目“膝踝一体化仿生智能下肢假肢关键技术与应用
过往研究多从人口数据出发,以定量方法探索长期照护的宏观路径,但是对照护实践中至为关键的职业群体及其潜在风险关注不足。本文采用质性研究的方法,选取最为典型的G老年医院作为案例场域,通过五年的追踪随访,对以护工为主的职业群体进行深入访谈,考察疫情前后照护群体的工作情境,从失能老人的照护过程、照护形式、照护对象等维度,探析了长期照护的实践特征及其内在困境。研究发现,失能老人的长期照护实践,蕴藏着多元化的
近年来,城市建设与城市文化遗产保护之间的冲突越来越明显,已经渐渐成为阻碍我国继续发展的重要问题。经过国内外相关实践证明,在设计与建设城市景观的过程中融入文化遗产的保护与利用,能扩展保护和利用城市文化遗产的思路,同时有利于文化遗产的长远发展。从风景园林视角出发,探究如何更好地保护与利用城市文化遗产,深入分析文化遗产保护与风景园林设计之间的密切联系,以聊城市的城市文化遗产保护为例,探讨风景园林视角的城
生物特征识别方法相较于传统的身份认证,在安全性,便捷性,和保密性等方面有很大的优势。而今随着硬件设备快速的迭代升级,人工智能与计算机视觉的结合也越来越紧密。虹膜识别的本质也是图像分类的一种,将虹膜识别领域与深度学习技术相结合具有很高的研究价值。本文主要在虹膜识别流程中的特征提取和匹配识别过程进行改进和创新,针对手工设计滤波器提取虹膜特征表达能力不足的缺陷,提出一种适用于虹膜识别的改进残差网络结构提
带臂四旋翼无人机拥有快速机动的特点,具有在特殊环境下作业的能力,是无人机发展的一类方向。带臂无人机的性能受制于整机模型和控制系统复杂,近些年来吸引众多学者置身于此项研究。本文以带臂四旋翼无人机为研究对象,对其动力学模型的构建和稳定性控制系统展开研究。本文的主要研究内容如下:(1)机械臂动力学建模:建立一个3R关节机械臂,从建立空间坐标系入手,依次讨论了机械臂的空间坐标变换,运动学,动力学。主要应用
制造业是国民经济的主体,是立国之本、兴国之器、强国之基。随着《中国制造2025》计划的提出,国防、航天航空、生物医药、光学机械等军用和民用领域对自由曲面零件的需求越来越大。因此,自由曲面如何以高精度、高效率被制造出来一直是国内外研究机构研究的重点。抛光被认为是提高自由曲面表面质量最有效的方法之一。在抛光过程中,由于大部分CCOS抛光设备主要是通过改变驻留时间来实现磨抛去除,其不可避免的存在着效率较
现代汉语方位词是语义极其丰富的一类词,方位词的空间方位义是语言初始阶段人类赋予它的基本义,但随着人类认知活动的复杂化,语言表达需求随之提高,一些方位词便引申出了时间、数量、范围等语义范畴,比如:“上周”中的“上”表示“次序”,“世界上”的“上”表示“范围”,“后辈”中的“后”指代人,即“子孙后代”。其实,方位词的语义引申现象是认知思维下人类的选择结果,比如“上、下”除了表示方位外还可以表时间,其方