【摘 要】
:
随着移动互联网用户群体的扩大,用户每天在线产生的数据无比庞大并且用户对于信息消费模式要求越来越高。在线服务提供商为了争夺用户使用时间,也需要更加精准的将用户感兴趣的内容投递给用户。在线搜索、商品推荐、新闻阅读等服务的背后都隐藏着庞大的数据需要计算机从中找出用户感兴趣的内容。这一切都需要依赖最近邻搜索算法。因此,本文设计了基于局部敏感哈希(LSH)和层次性可导航小世界图(HNSW)算法的近似最近邻分
论文部分内容阅读
随着移动互联网用户群体的扩大,用户每天在线产生的数据无比庞大并且用户对于信息消费模式要求越来越高。在线服务提供商为了争夺用户使用时间,也需要更加精准的将用户感兴趣的内容投递给用户。在线搜索、商品推荐、新闻阅读等服务的背后都隐藏着庞大的数据需要计算机从中找出用户感兴趣的内容。这一切都需要依赖最近邻搜索算法。因此,本文设计了基于局部敏感哈希(LSH)和层次性可导航小世界图(HNSW)算法的近似最近邻分布式搜索系统,主要实现了超大规模向量下索引的快速构建和高效的检索。引入局部敏感哈希和层次性可导航小世界图算法后虽然为我们拆分索引带来了理论支撑,可以极大程度提高索引的构建检索效率,但是也给系统的实现带来了较大的复杂度。由于层次性可导航小世界图构建的索引中的数据全部都保存在内存中极易丢失,另外划分后的多个子索引需要运行在集群中不同的实例上,保证系统不会出现单点故障[邓鹏,2012]也至关重要。在本文描述的系统中运用了分布式系统架构提高了搜索系统的可靠性和可用性。该系统主要包括五个模块,分别为:(1)集群信息管理模块:使用动态配置技术管理集群静态配置信息,通过心跳的方式采集数据节点的信息,使用Raft协议完成Leader选举,并通过广播的方式向Follower节点同步数据。(2)数据备份恢复模块:使用冷热备份结合的方式,实现对系统中数据的保存,保证了数据的可靠性。(3)索引分配迁移模块:实现子索引在系统启动时的自动分配。通过心跳监控索引的状态以及冗余部署技术,实现在节点故障时快速迁移,保证系统的高可用性。(4)负载均衡模块:负责优化数据在子索引中的分布,使用了局部敏感哈希算法对向量进行空间压缩,将距离较近的向量插入同一子索引,极大的提高了系统的横向扩展能力。(5)数据搜索模块:负责系统对外的数据插入和数据搜索接口,并且协调调度上述四个模块完成功能。
其他文献
烷基化油具有辛烷值较高、挥发性低、不含芳烃和烯烃、几乎不含硫等优点,是最理想的清洁汽油组分。硫酸烷基化技术在安全性与可操作性之间达到了最佳平衡,成为当今炼化企业的首选。本文以降低反应温度、提高选择性、降低酸耗为目标,按照小试实验、反应器开发、中试装置初步设计的顺序,完成了低温硫酸烷基化技术开发的探索性研究。自行建立了一套烷基化反应小试实验装置,能够实现酸烃两相的充分混合与迅速移热。考察了酸烃体积比
随着社会经济的迅速发展,资源的合理开发和利用不仅关系到种群持续生存问题,而且与社会的可持续发展问题相关,种群资源的开发问题受到越来越多人的关注,在对其开发与利用过程中,如果可以把生态效益和经济效益有机结合起来,那么就能使得种群资源更长地为人类所利用.近年来,生物种群资源的开发管理问题已成为广大学者讨论研究的热点.2014年,A.Moussaoui等人提出了在水位影响下的捕食-食饵的动态模型,结合实
近年来我国移动端设备不断普及,移动端应用数量突飞猛进,互联网社交逐渐成为民众一种重要的社交方式。在互联网社交中,社交类游戏又是一个在快速发展的领域。社交类游戏主要是为了发展用户之间的互动交流而设计,一切以人为中心,围绕着用户的社交进行拓展。社交类游戏具有种类多、简单易玩容易上手、开发维护简单的特点,已经成为很多民众非常重要的一种休闲娱乐并参与社交互动的方式。一款优秀的社交类游戏可以极大地帮助商家平
在金属塑性成形领域,大尺寸坯料在高温、大成形力的作用下,极易在锻件心部或表面产生裂纹,研究表明其主要开裂形式为韧性开裂。而目前现有的韧性开裂准则大都应用于预测冷变形的基础上,对于热变形过程中材料损伤开裂的行为研究仍缺乏普适的判据。本课题针对核电主体材料铸态SA508-3低合金钢的损伤演化行为开展研究工作,通过热模拟基础实验从宏观和微观两个方面分析损伤萌生到开裂的整个过程,基于损伤累计准则建立了考虑
本研究在河北工程大学开展了56种挥发性有机物(VOCs)、氮氧化物(NOx)、臭氧(O_3)的长期在线监测,选取2017年9月-2018年8月在线监测数据,重点分析了邯郸市VOCs、O_3和NOx的污染特征、VOCs的主要来源、VOCs对O_3生成的影响以及8种有毒有害VOCs对人体健康的影响,主要得到以下结论:(1)监测期间,烷烃、烯烃、炔烃均呈冬季高夏季低的污染特征,芳香烃浓度秋季略高于冬季,
地下变电站由于环境协调性好,站址选择难度低等优势,成为大城市所需求的变电站类型。但是放置在地下变电站楼板上的电抗器在运行过程中产生的振动荷载可能会对建筑及工作人员产生影响。本文以某地下变电站为研究对象,对电抗器振动荷载作用下变电站建筑结构的振动响应进行了数值模拟研究。本文的主要研究内容包括以下几个方面:(1)通过搜集振动控制相关规范标准进行研究,得到一个适合地下变电站建筑的限值规定。(2)利用AN
语音是人类交流最常见的信息载体,并且随着智能化技术的发展,语音在人机交互中起着至关重要的作用。声纹识别,其本质是利用说话者的语音信息识别出说话人的身份。作为生物特征识别和认证领域的一个重要分支,声纹识别在刑侦排查,人机交互验证,考勤系统等方面有广泛的应用。声纹识别系统主要由语音特征提取和识别模型建立两部分构成。说话者的语音中包含个性信息和共性信息,个性信息差异主要是由发声器官的差异,发音习惯的不同
随着通信技术的不断进步,短波这种传统的通信方式也得到了快速发展,凭借其独特的优势一直备受重视。短波通信距离较远,是远程通信的主要手段之一,且是唯一一种不受网络枢纽和有源中继体制约的长距离通信方式。短波在民用和军事领域都被广泛运用,因此对短波信号的监听与侦测也就显得尤为重要。短波信号的监测与分析系统需要满足实时性、高速数据流、分布式显控等要求。高效的内存分配算法可以有效的提高实时系统的效率及稳定性。
视觉搜索过程中,注意不仅受到刺激物自下而上的引导,还受到记忆表征自上而下的引导。即使是与当前任务无关的工作记忆表征,也可引导注意。过往无关工作记忆表征引导注意的研究多关注刺激的颜色,任务的知觉负载,工作记忆负载等任务属性的作用,缺乏对个体差异性的关注。针对困难的搜索任务中出现的,搜索快组注意引导,搜索慢组注意抑制的现象,过往研究仅从时间维度解释,认为注意抑制的形成需要时间,忽视了个体差异因素的作用
随着人民币汇率市场化的不断推进,在放宽人民币汇率波动幅度的同时,汇率波动的加大是不可避免的。全球经济一体化的深入发展和我国金融市场化改革进程的持续推进又使得汇率市场和股票市场之间的联系越发紧密。在推动资本跨区域流动,刺激我国经济金融迅速发展的同时,也大大增加了汇市与股市之间的风险传递。从历史经验来看,在一些宏观经济环境下汇率市场和股票市场之间的互动,存在演化成金融危机的可能。因此,通过研究人民币汇