局部敏感哈希技术在网络表示学习中的应用研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:gygc126
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络是表达实体和实体间联系的一种重要形式,如社交网络、公路网和论文引用网络等。随着互联网的不断深入和发展,网络的复杂度也在不断增加,使得其承载的信息量也具有更大的发掘价值。在对网络数据的挖掘中,有很多具有重要意义的应用,如推荐系统、社区发现、节点分类和网络链接预测等。然而,大多数网络具有的自然表示形式是高维稀疏的,使得机器学习算法应用到网络挖掘任务中较为困难。因此,如何有效且高效地提取网络中的特征信息是一个重要的研究方向。网络表示学习,也被称为网络嵌入,主要工作是将高维、稀疏的原始网络信息编码嵌入到一个低维、稠密的实数向量空间中(下文称为表示空间),从而使得其可以被用于下游的机器学习任务,如分类、聚类、最近邻查找等。一般认为,具有相似拓扑结构的节点应当具有相似的表示,换而言之,在原始网络中具有较近距离的节点,在表示空间中的距离仍应当具有较近的距离;反之,在原始网络中距离较远的节点,在嵌入到表示空间之后,应当具有较远的距离。而局部敏感哈希正具有这种特性,因此,本文尝试着探索局部敏感哈希在网络表示学习各项任务中的应用。本文先阐述了网络表示学习和局部敏感哈希的基本思想,并尝试着在网络上定义节点之间的最近邻查找问题,从而将局部敏感哈希引入网络表示学习,继而引申到网络中的链接预测任务上。综合来说,本文的主要研究内容和贡献如下:(1)对基于局部敏感哈希的网络节点最近邻查找进行研究。本文使用局部敏感哈希算法将网络节点映射到若干个哈希桶中;然后用skip-gram模型训练出的节点表示向量之间的距离来衡量两个节点之间的相似度,从而定义网络节点的最近邻查找问题。我们通过在真实数据集上的实验表明,结合局部敏感哈希的网络节点最近邻搜索可以牺牲一定精度的同时提高算法的时间效率。(2)基于(1)的研究,将局部敏感哈希算法引入到网络链接预测任务上,将局部敏感哈希的分桶结果应用到两种不同相似度计算标准下的网络连接预测任务上。最后,通过在真实数据集上的实验表明,在牺牲一定精确度的情况下,本文的方法可以可观地提升算法的时间效率。
其他文献
目的:肺癌是全球癌症相关死亡的主要原因,非小细胞肺癌约占肺癌病例的85%,许多非小细胞肺癌早期表现为磨玻璃结节(ground-glass nodule,GGN),20%-30%的GGN患者有一个以上的病灶。目前对导致单发和多发GGN的研究主要集中在治疗方案和基因水平的差异,二者病灶数量不同的机制尚不清楚,单发和多发GGN患者的血液学指标差异也未见报道。因为GGN病情进展或因为阅片过程中病灶不清楚而
近年来,汽车保有量逐年增加,寻找空闲停车位愈发困难,“停车难”问题日益严重。因此,在停车位数量无法大量增加的情况下,如何有效利用停车位资源成为目前研究的焦点。本文依托于吉林省科技厅重点科技研发项目“基于车联网的城市停车位智能服务平台的构建”,以校园为试点,在校园中模拟城市的情况。设计并开发校园智能停车系统,力图实现停车场的智能化。本系统采用热点技术与理念,将现有停车场智能化。首先,采用轻量级的Fl
在目前的工程应用与基础科学研究中,许多亟待解决的问题都可以被转变成求解最优化的过程。虽然传统的优化技术可以解决这些问题,但当问题变得更复杂更具挑战性时,它们便很难找到全局最优解。近几年来,随着计算机科学的发展,许多过去人类无法解决的复杂函数优化问题已经可以通过计算机来得到近似解。在求解过程中,人们创造了许多优秀实用的算法。元启发式算法作为一种随机优化策略,因为其能很好地解决复杂优化问题,所以它已成
中国互联网络信息中心2020年4月的报告中显示,我国上网的群众人数已超过9亿,互联网络的普及率也达到了60%以上。这一数据一方面说明了人民生活变得更加信息化,但另一方面也提醒我们的社会正在面临着一次前所未有的挑战,如何处理好海量网络文本信息成为了一个迫切需要解决的问题。如何使用自然语言处理技术(Natural Language Processing)分析海量的网络评论文本成为了研究人员的研究热点。
在计算机图像处理问题中,图像超分辨率(Super-Resolution,SR)采用数学模型计算的方式在尽可能保留图片原有纹理细节的情况下,将低分辨率(LowResolution,LR)图像转换成高分辨率(High-Resolution,HR)图像。研究表明,基于深度学习图像超分辨率方法的性能会随着网络宽度和层数的增多而提高,然而这些算法仍然面临一系列问题:1.单纯增加神经网络的深度或宽度会带来梯度
随着汽车行业蓬勃发展,出行面临的交通压力也愈来愈大,交通安全成为了人们关注的重点。分心驾驶是导致交通事故的重要原因,分心驾驶行为的检测已经成为图像分类领域中比较热门的研究方向。分心驾驶行为存在整体动态性不明显、动作变化幅度和动作空间较小的特点。如何在车内场景下,准确高效检测出分心驾驶行为已然成为分心驾驶图像检测的重点。目前分心驾驶图像分类大多采用传统CV算法或者深度学习方法,但是这些方法均存在以下
ICU具有治疗费用昂贵,死亡率高等特点,而目前国内ICU资源与发达国家相比较为匮乏,在此背景下国内近年来陆续诞生发展“AI+ICU”的智慧医疗企业,通过为医院ICU提供AI辅助诊疗服务可以实现患者病情早期预警、及时诊疗、防大于治,减少病人住院时长,降低治疗费用,加快病床流转率。作为辅助诊疗技术之一的ICU死亡率预测是一项在医学领域活跃了数十年的课题,患者ICU死亡率预测对患者的救援和ICU资源分配
软件测试是根据需求文档等,对被测试的软件通过人工或测试工具的方式,来检测软件是否满足预期的过程,在软件开发周期中起着重要作用,是确保软件质量的不可缺少的一个过程。软件测试的目的是发现软件中尚未发现的缺陷。越早发现的缺陷,缺陷造成的影响和损失就越小,其修复成本也越低。但是,在尽可能多地发现软件缺陷的同时需要降低投入成本和保证研发进度,手工测试的方法已经不能满足这种需求。软件缺陷预测技术可以利用历史数
大豆在世界范围内都有广泛种植,它是重要的可食用蛋白以及生物燃料的来源。随着基因测序技术的成熟,大豆基因组学的研究越来越受关注。为了突破对大豆这一关键农作物的认知并且提升大豆的价值,世界各地的研究者进行了大量的大豆基因测序工作,从基因组学的角度研究大豆已经成为热点。例如,可从基因组学角度出发,开发生物标记物对锈病进行预警、研究大豆对锈病的抵抗机制,这对提高大豆产量以及研发新型耐锈病大豆具有重要意义。
颅内出血是一种高发病率的脑血管疾病,准确的诊断和及时的治疗有助于提高患者的康复率。颅内出血的计算辅助诊疗系统对于医生的诊断和制定后续治疗方案是至关重要的。目前,计算机辅助诊疗研究可分为两大领域:颅内出血亚类型分类和颅内出血病灶分割。在颅内出血亚类型分类中,大多数研究使用CNN-RNN结合的网络架构。然而,这些研究都忽略了以下几个问题:(1)已有的CNN网络比如Res Net、Dense Net等在