【摘 要】
:
知识图谱的发展日新月异,被广泛应用于自然语言处理的各个领域,如知识库补全、问答系统等。知识图谱表示学习在许多人工智能应用中扮演着重要的角色,与词向量嵌入的方法类似,图嵌入方法是一种与任务无关的、无监督知识表示方法。对于知识图谱的嵌入向量而言,在语义上的相似度越高,在向量空间中的距离越小。同时,向量化的表示方法通过利用丰富的数学表达式极大提升了知识图谱的可计算性。但目前大多数研究工作较为分散,底层实
论文部分内容阅读
知识图谱的发展日新月异,被广泛应用于自然语言处理的各个领域,如知识库补全、问答系统等。知识图谱表示学习在许多人工智能应用中扮演着重要的角色,与词向量嵌入的方法类似,图嵌入方法是一种与任务无关的、无监督知识表示方法。对于知识图谱的嵌入向量而言,在语义上的相似度越高,在向量空间中的距离越小。同时,向量化的表示方法通过利用丰富的数学表达式极大提升了知识图谱的可计算性。但目前大多数研究工作较为分散,底层实现不够统一,且模型的研究者专注于对模型性能的研究而忽视了模型可训练的数据集的规模。
本文的研究工作主要致力于解决两个问题,其一是现有的知识图谱训练模型支持的可训练的数据集的规模较小,通常无法支撑大规模的知识图谱数据;另一方面是目前尚缺乏统一的框架来集成当前的不同实现方式的知识图谱表示学习模型。因此本文提出了基于模板的表示学习分布式算法框架DKRL,该框架受到模板方法设计模式的启发,将不同的基于翻译的表示学习模型集成于DKRL框架中,该框架提供了一组原始的函数接口,为用户提供自定义函数的实现提供可能。同时,本文提出了基于参数服务器的算法框架PSDKRL,将训练数据划分为规模相对均匀的数据块,以避免因规模不同而引入训练节点之间计算执行失衡问题,训练节点与参数服务器进行参数交换,每个计算节点内部维护一个用于参数获取与发送的公共数据区,参数取回线程负责将从参数服务器中请求的数据放入缓冲区,节点内部用于进行本地计算的线程从缓冲区中取数据进行计算,再把本地计算结果放入更新缓冲区,由更新线程向参数服务器传递更新后的参数。
对DKRL与PSDKRL框架在基准数据集与真实数据集上进行实验,实验结果表明,DKRL与PSDKRL算法与Baseline算法的正确性相近,且本文所提框架利用分布式调度策略,能够适应大规模数据集的训练任务,进而证明了所提出的框架的有效性。
其他文献
随着网络技术的演进与发展,无论是卫星通信系统还是地面网络都面临着资源量有限、用户业务需求量增多、需求种类多样化的问题。如何快速高效地解决调度、分配与部署资源显得尤为重要。良好的调度方案能够最大程度地利用资源来满足用户需求,经济高效地达到目标。 针对资源调度问题,多卫星测控资源调度是目前卫星网络面临的主要问题之一。测控资源调度问题是指测控任务是否能在可见时间窗口内被测控设备所调度,最终实现测控需求
糖尿病是一种由自身缺陷引起的常见的慢性疾病,如果患者没有得到及时的治疗,会引发多种并发症。目前,我国糖尿病防治呈现出“三低”态势,即低知情率、低治疗率和低治愈率。对糖尿病及其相关内容进行深入的研究,有助于提高知情率、治疗率,也有助于相关药物的研发。 随着机器学习的不断完善,智慧医疗已经成为一个研究热点。本文主要对体检数据以及糖尿病蛋白标志物进行研究:在本文的第三章中,使用机器学习对两组体检数据进
网络理论是描述和分析社会、生物、物理、信息和工程科学中的复杂系统的重要工具。但是现有的大多数理论是对复杂网络的单一、静态的描述,不能描述复杂网络多样的交互模式的特性,而多层网络被提出用于刻画复杂网络这一特性。因此,近年来国际上提出的多层网络成为复杂网络领域的重要研究方向之一。但是多层网络的数据规模很大,而对其直接进行分析会造成计算成本过高,效率低下以及不易观察到隐含的模式。最近,网络表征学习被提出
在目前的机器算法研究与应用中,需要海量的人工标数据去训练模型。在计算机视觉任务中大量的标注任务不仅仅给研究者带来负担,而且标注的精度也并不总令人满意。这就使得要获得大量人工标注的数据变得非常困难,也让仅需少量标注样本的主动学习算法有了极大的发展空间。主动学习的关键就在于选择的策略,而目前的大部分策略都只适用于分类问题,目前还没有很多适用于基于深度学习的目标跟踪和检测领域的主动学习算法出现。所以本文
当前,基于卷积神经网络的深度学习技术在计算机视觉等多个领域取得极大成功,也是最具代表性、最有效的方法。但是深度学习技术严重依赖于标签准确且类别间数据平衡的大规模数据集。然而,大规模的标签准确的数据是极难获取的,同时真实世界的数据集大多存在类别间样本不平衡的问题。针对计算机视觉领域中的图像分类和人脸识别任务,如何有效利用标签噪声的数据或类别间不平衡的数据训练出理想的深度学习模型是一个亟待解决的难题。
迁移学习是机器学习中一个非常重要的任务,已经引起了诸多学者的关注。在实际应用领域中,例如图像识别、文本分类、自动驾驶等场景下,获得大量标记数据进行训练通常是一件非常困难并且代价十分昂贵的事情。可以获得的往往是少量标记数据或大量其他相关领域的标注数据。 随着自动驾驶技术的不断发展,驾驶模式识别问题成为越来越重要的问题。它与自动驾驶汽车的感知、决策和控制等各个方面紧密相关。本文利用迁移学习来解决自动
随着天文观测设备的建造和大型巡天项目的进行,天文图像数据数量飞速增长,随之而来的是对于海量天文图像数据存储与检索的迫切需求。大数据、云计算、虚拟化等新兴技术的普及使得基于云环境的服务得到广泛关注,庞大的天文数据也开始迁移到云环境中,然而“按需收费”的费用模式使得天文工作者需要支付高昂的费用。用户往往需要包含目标区域或天体的局部图像进行研究,原始全图的存储与传输会导致较高的费用和较长的传输时间与带宽
随着大数据应用的迅速发展,数据中心的I/O延迟以及吞吐量成为了关注的焦点。Lenovo/IBM的研究报告表明,即使装备基于PCIe接口的固态硬盘,当运行一个典型的数据库系统时,多于60%的时间是在等待外存的I/O数据请求。而现有的文件系统设计主要基于传统机械硬盘的顺序访问机制,其数据分配主要采用顺序分配的方案。顺序分配策略并没有充分考虑SSD的多通道特性,从而出现大量数据在同一时间访问一个数据通道
目前大多数软件漏洞在披露时仅包含简要的描述信息,据此,安全分析人员无法准确分析软件产品漏洞的危害性和严重程度。对漏洞特征的刻画有助于漏洞危害程度的分析,所以有必要对漏洞特征进行预测。 现有的漏洞特征预测技术仅适用于单个漏洞特征的预测,对于具有内在联系的多个漏洞特征无法完成预测,本文给出了一种基于多任务学习的漏洞特征联合预测方法。首先,提出了基于多任务学习的联合模型。该联合模型将每个漏洞特征作为一
尽管深度神经网络具有记住数据集的能力,但是深度神经网络经常能实现好的泛化性能。一方面,神经网络学习算法学习到的具有泛化能力的解和不具有泛化能力的解之间的区别仍然是一个谜。另一方面,神经网络隐层单元之间的相关性逐渐被研究者所强调和重视,但是隐层单元之间的相关性对于最终泛化性能的影响还没有被完全探索和评估。在本文中,我们把研究神经网络的泛化性能的需求和隐层单元之间的相关性的需求结合起来,提出了一个监测