面向推荐系统的可学习哈希索引模型研究

来源 :云南大学 | 被引量 : 0次 | 上传用户:lgs0519
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大规模数据处理过程中,如何快速的找到需要的数据,是一个非常重要的课题。以往基于传统数据结构的索引模型,需要消耗大量空间建立索引,特别是在数据分布不均匀的情况下,模型的索引效率会大大降低。另一方面,推荐系统中对正排倒排索引的大量使用,需要建立非常多的大规模哈希表,数据量的增加会导致大量的哈希冲突,降低索引效率。面对这些问题,不少研究人员提出了一系列索引结构的改进算法,但是效果不太明显。效果不理想的主要原因在于传统数据结构无法根据数据的分布情况做出相应的改变,以更好的适应数据。因此,本文提出了一种通过学习数据分布建立索引的可学习索引结构。可学习的索引结构由Tim Kraska等人与2017年提出,一经提出就引起了业界广泛的讨论和关注。可学习的索引结构将传统索引看作回归或分类问题,通过机器学习算法学习数据分布情况,可以节省大量的存储空间,为数据库等系统建立索引提供了新的思路。本文首先阐述了传统索引结构的缺点以及推荐系统中建立索引的技术难点,并总结探讨了现有可学习索引结构的思路和特点。然后建立了一个多层模型,设计了两种使用神经网络作为哈希模型的算法,分别完成拆分数据集以及映射数据到哈希表上的功能。然后根据哈希索引的特点,结合之前设计的监督学习神经网络模型,设计并实现了一种无监督学习的哈希模型,找到能让数据均匀分布的映射关系。在此基础上,根据推荐系统中倒排索引的需求,加入循环神经网络结构,设计并实现了完整的基于字符的哈希索引结构CB-LHI。CB-LHI在多层模型中的每一个监督学习与无监督学习模型上加入一个LSTM层,对不同的子数据集抽取不同的特征,分离相似的数据。最后设计了满足各种分布的实验数据,分别对各种模型与传统哈希函数进行对比,实验结果证明,CB-LHI模型在冲突率和空间利用率上都要优于传统哈希函数,为相关系统构建可学习索引模型的可行性做出了探索。
其他文献
分别以噻吩、联二噻吩和三联噻吩为给体单元,氟代噻吩基喹喔啉为受体单元,通过Stille反应合成了三种新型的聚合物太阳电池材料(PT-TFQ,PTT-TFQ和PTTT-TFQ),其结构经1H NMR表征
2004年3月2日,温家宝总理主持召开了国务院常务会议,研究部署中国银行、中国建设银行股份制改造试点的有关工作,提出了改革试点工作的总体目标和主要任务,并指出这项改革只能成功
本着公平公正、择优录取、宁缺毋滥的原则,中科院成都有机化学有限公司2018年共录取攻读硕士学位研究生26名,攻读博士学位研究生27名,圆满完成招生计划。热烈欢迎广大考生报
依靠农业本身促使农民增收的难度越来越大 一是农民收入主要依靠农业,第一产业比重偏大(主要来自于种植业),二、三产业发展缓慢,且收入少.二是农产品供求不合理,加上季节结构不合
以糠醛为原料,经氧化、醚化和重结晶制得5-甲氧基-3,4-二溴-2(5H)-呋喃酮(4);4与哌嗪经Michael加成消除反应制得5-甲氧基-4-哌嗪基-3-溴-2(5H)-呋喃酮(5);5与取代磺酰氯经磺酰化反应
2004年底,“中国就业论坛”在北京举办。此次论坛的主题为“全球化、结构调整与促进就业”。与会代表就促进就业与经济全球化、促进就业与消除贫困以及促进就业与劳动力市场建
以1,10-邻菲罗啉(phen)为配体,采用溶剂蒸发法在水中分别合成了羟基桥连和氯离子桥连的两个新型的含氮配体多核铜离子配合物[Cu4(phen)4(H2O)2(OH)4·(NO3)4·2H2O(1)和Cu2(phen)2C
随着计算机技术的发展,信息量的增加,企业信息化管理将成为带动整个电力行业发展的必要途径,是实现“国家大数据”战略平台的重要手段。电力企业已经越来越重视对信息化管理
德国当代作家帕特里克·聚斯金德于20世纪80年代创作了一部名为《香水》的小说而成名,以颠覆传统叙事的嗅觉描写,通过刻画人们在现实生活中的荒谬处境,传达了对当代人生活处境的关怀。可以看出,作者聚斯金德对工业革命以来呈现在人们生活中的身份变动持担忧态度,并且将这种态度融入了小说的创作之中。不同于种族和性别的身份研究,本文侧重个体的身份认同研究。本文拟从个体身份的消蚀、身份建构以及身份困境来展开多方面的
以氯化亚铜为催化剂,叔胺为底物,磺酰叠氮为氮源,经“一锅法”合成了11个磺酰脒衍生物(3a ~3k,其中3c,3e ~3i和3k为新化合物),收率43%~96%,其结构经1 H NMR,13C NMR和HR-ESI-MS表征.