【摘 要】
:
人工智能模型的训练依赖于大规模高质量的标注数据。通过人工标注的方式可以获取高质量的训练集,但是人工标注效率很低并且代价高昂,尤其对于标注难度较大的文本语料,人工标注很难获取大规模的标注数据。远程监督可以用来自动构建大规模的标注数据集,然而通过远程监督得到的训练集质量并不高,训练集的质量决定着模型的上限,因此如何优化远程监督数据集已经成为当下研究的热点。远程监督在不同场景下面临着不同的问题,其解决方
论文部分内容阅读
人工智能模型的训练依赖于大规模高质量的标注数据。通过人工标注的方式可以获取高质量的训练集,但是人工标注效率很低并且代价高昂,尤其对于标注难度较大的文本语料,人工标注很难获取大规模的标注数据。远程监督可以用来自动构建大规模的标注数据集,然而通过远程监督得到的训练集质量并不高,训练集的质量决定着模型的上限,因此如何优化远程监督数据集已经成为当下研究的热点。远程监督在不同场景下面临着不同的问题,其解决方法也要针对特定的问题和使用场景去设计。论文的主要工作以及成果如下:(1)本文从知识图谱实体分类以及关系分类这两个场景入手,探讨了各自场景下远程监督所带来的问题,并针对问题的特点设计了不同的优化方法。(2)针对远程监督知识图谱实体分类场景,分析出其具有标注噪声以及语义异构两个问题。针对标注噪声问题,本文提出了一种新颖的主动学习查询策略,能从远程监督构建的训练集中找出最具代表性的噪声数据,并设计了一个混合标注策略对这些噪声数据进行重新标注。针对语义异构问题,本文提出了另一种新颖的主动学习查询策略,能从未标注数据集中找出最有代表性的语义异构数据,同样使用本文提出的混合标注策略对其进行标注,并将这些标注后的数据加入到训练集中。最终使用优化后的数据集作为训练集去训练知识图谱实体分类模型。本文在一个真实的中文知识图谱实体分类场景上运用了此方法,实验结果证明了本文提出方法的有效性。(3)针对远程监督关系分类场景,分析出其具有标注噪声问题。针对标注噪声问题,本文提出使用基于预训练语言模型的自然语言推断方法去识别远程监督关系分类数据集中的噪声数据。具体而言,对于关系分类数据集中的每个样本,本文将样本中的文本作为前提,将样本中的实体对和关系通过模板转换成假设,用假设能否从前提中推断出来的置信度作为此样本标签是否合理的评估值,评估值的高低将作为样本筛选的依据。针对自然语言推断模型缺乏大规模高质量的训练集问题,本文设计了一个强化学习框架对自然语言推断模型进行训练。最终使用训练后的自然语言推断模型对远程监督关系分类数据集进行筛选,筛选后的数据集作为训练集去训练关系分类模型。本文在一个公开的远程监督关系分类数据集上使用了此方法,实验结果证明了本文提出方法的有效性。
其他文献
科创企业以科技创新为核心,研发能力强,盈利能力稳健向好。科创企业评估有利于市场监管从而促进高质量科创企业的健康发展,更好的服务国家科技创新战略,促进经济高质量发展。目前,有大量机构和分析师研究科创企业,并发布内容专业、信息可靠的科创企业研究报告。金融从业者需要花费大量时间定期撰写科创企业评估报告,没有时效性,并且撰写的评估报告没有统一的评估指标体系,评估指标片面,格式不统一。因此,从大量科创企业文
在弹群连续打击条件下的反舰导弹目标动态分配问题是未来海上战斗中需要重点关注的问题,它主要包括导弹目标连续分配和导弹协同攻击两方面内容。本文在分析总结国内外研究现状的基础上,针对在弹群连续打击条件下的导弹目标动态分配问题,以寻找低复杂度的解决方案、建立包含多约束的导弹目标动态分配模型、寻找合适算法求解为目标,从问题模型和求解算法两方面进行了研究,具体工作如下:1、针对导弹目标动态分配问题,研究和设计
推荐系统能够预测用户对物品的潜在兴趣,在当今的在线平台上得到了广泛的应用。序列推荐在在线服务(如电子商务)中具有很高的实用价值,因此吸引了越来越多研究者的研究兴趣,序列推荐的基本目标是捕捉项目转换相关性。用户当前的兴趣随着其历史行为演变,这使得平台很难做出适当的建议。因此有必要描述用户历史记录的演化模式,对用户在项目上的事务的序列模式进行建模。通过这些用户表示,可以轻松地为每个用户推荐合适的项目。
在房地一体项目测量过程中应用传统的测绘方法,时间周期长、操作流程复杂、效率低,而无人机倾斜摄影测量技术效率高、受起降场地和天气影响小、精度高,在房地一体项目测绘过程中优势明显。本文利用无人机倾斜摄影测量方法、传统测量方法分别对万安镇天地庙村进行不动产测绘,并将两种测量方式的精度指标进行对比分析。实验结果表明:无人机倾斜摄影测量外业工作量小、效率高,且精度满足山西省相关技术规范要求。
大规模多输入多输出(Multi-input Multi-output,MIMO)系统在基站处配置大规模天线阵列,显著提高了频谱利用率及链路可靠性。然而,信号检测技术涉及大量的复杂矩阵运算,随着MIMO系统规模的扩大,信号检测面临复杂度和精确度的双重挑战。因此,研究低复杂度高精确度的大规模MIMO信号检测算法对于未来通信发展具有重要意义。针对这些问题,本文做出了以下工作:1.针对现有交替方向乘子(A
深度学习技术的迅速发展使得这一技术被广泛应用于各个领域,包括基础现实应用以及许多与安全相关的任务应用,这使得深度学习模型成为攻击者的目标。攻击者根据深度学习模型的脆弱性定制了相应的攻击策略。这种由模型暴露出的弱点衍生出的对抗攻击算法对图像分类领域的发展提出了挑战,同时它也为进一步探索深度神经网络提供了机会。在攻击者的推动下,越来越多的防御机制被提出来保证深度学习模型的安全。本文分别从防御机制的两个
本文主要研究了基于RGB-D相机的救援机器人语义建图方法,以及语义SLAM与导航算法相结合的相关技术。传统的SLAM算法在建图时只考虑环境的几何特征或者纹理特征,这使得救援机器人只能根据环境的浅层信息进行导航和探索,难以完成复杂的自主探索任务。语义SLAM可获取环境的语义信息,并将语义信息与环境地图相结合,帮助机器人从更高的层次去理解周围环境,进而丰富导航方式,使机器人能够完成复杂的自主探索任务。
基于语音对阿尔兹海默病进行识别被证明是一种有效的方法,相较于脑影像和量表,语音更具有经济性和可扩展性,能够适应大规模检测。目前的研究方法较多的采用降维-分类的方式进行,即将语音(通常在10万维以上)表示为低维的特征向量(通常在100维以下),再进行分类获得疾病识别结果。在特征表示方面,研究人员尝试使用局限性更小的内容无关(Content-independent,CI)特征来表示语音,但是传统的特征
近似最近邻搜索是信息检索技术中的一个基本课题,在数据库、推荐系统等领域应用广泛。与精确最近邻搜索算法相比,近似最近邻搜索算法内存占用较小,同时牺牲较小的查询召回率,从而达到极快的查询速度。基于图的近似最近邻搜索算法是最常用的近似最近邻搜索算法之一,相对于基于空间划分、基于哈希和基于量化的算法,因其查询速度快、查询召回率高而被各大商业公司广泛应用。基于图的搜索算法的目标是构建高质量的图索引结构,通过