基于预训练语言模型与多任务学习的文本检索技术研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:wanghao7511
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在万物互联时代,搜索引擎已经成为人们获取知识的主要工具之一,支撑搜索引擎的信息检索技术已经被广泛的研究。从传统的基于概率模型到近几年发展迅速的神经检索模型,信息检索算法不断被优化,它根据用户提交的查询为其召回相关文档。开发高效率和高性能的检索模型可以为用户带来了更好的检索体验。现有的神经检索模型大多依赖于词向量表示对用户查询和文档进行表征,并在语义层面进行相关性学习,但是这些方法存在一定缺陷。首先,轻量级文本检索模型虽然训练高效,但是其建模依赖于静态词向量,语义理解较差。其次,深度文本检索模型由于结构复杂,往往需要大量的训练数据进行相关性学习。此外,由于文本歧义性,现有方法难以学习用户在真实场景中的检索意图。文本主要针对上述问题展开了研究,主要工作如下:(1)本文详细阐述了信息检索算法的研究现状,结合相关深度学习技术,系统的概括了现有算法模型的优缺点。(2)针对检索任务中轻量检索模型语义理解能力较差问题,提出了一种基于知识图谱嵌入的文本检索模型。首先通过实体连接技术将查询和文档中的实体与知识图谱中的实体对齐并且构建知识三元组。然后通过知识图谱嵌入算法学习知识表示。最后融合文本主题向量以及静态词向量进行特征提取后形成向量表示进行相似度匹配学习,实验结果表明了该算法的有效性。(3)针对检索任务中深度检索模型的训练成本高问题,提出了一种基于对比学习的文本检索模型。该模型以BERT为基本框架,本文首先提出了一种适用于对比训练的数据增强技术,然后通过对比学习算法强化用户查询和文档的文本表示。实验结果表示该模型仅需要原数据集20%的数据即可以与强基线竞争,并且将在两个流行的数据集上实现了最先进的结果,这包括改进MSMARCO的MRR为39.1,NQ的Recall@5为77.2。(4)针对用户查询模糊导致难以挖掘用户检索意图问题,提出了一种基于多任务学习的个性化检索模型。该模型首先通过联合训练文档检索和查询预测任务学习相关性匹配,然后提取用户的检索兴趣特征进行意图理解。通过两个模块的融合,对候选文档进行重新排序以构建个性化文档列表。该算法将AOL检索日志数据上的MRR以及NDCG分别改进到0.758和0.652。
其他文献
近年来,随着产品数量和网站访问者数量的快速增长,推荐系统面临的巨大挑战是如何更准确地为用户建模,并以此向用户推荐更合适的产品。尤其是当这些网站拥有用户大量的社交信息时,尽可能地利用社交信息来实现这一目标一直是一个重要的研究课题。使用社交信息的关键是将这些用户间的关系更好地集成到用户建模中,以便推荐系统能够学习到更精确的用户特征表示,进一步产生更好的推荐结果。为了更好地利用用户社交信息进行推荐,本文
学位
当前计算广告中点击率预估与点击率转化研究主要面临样本选择偏差和数据稀疏性问题。因子分解机是目前主要用于实现大规模稀疏数据特征组合的热门算法,它最本质的特征是二阶特征交互。由于因子分解机能在较低复杂度下学习数据中隐藏的特征交互关系,当用于稀疏数据时,因子分解机比一般的多项式表达能力强。本文基于因子分解机模型进行了充分的扩展研究,并在计算广告领域的点击率预估和转化率估计的任务上进行了实验验证。本文主要
学位
新型冠状病毒肺炎(Corona Virus Disease 2019,COVID-19)在全球的大流行严重威胁着人民的生命健康,给各个国家的医疗资源带来了巨大的负担,极大地影响了社会生活的正常运行。疫情防控的精准性对社会的正常运行关系巨大,因此,准确地预测COVID-19的确诊人数和传播趋势十分重要,它可以对疫情防控策略的制定提供重要的依据。本文主要研究内容如下:(1)提出了一种基于混合策略改进的
学位
肺结节作为肺癌诊断的重要征象,在肺癌的早期筛查中占有重要地位。肺结节的轮廓信息可用于分析肺结节生长形态变化,记录患者病情的演变过程。肺结节良恶性诊断结果更是对早期肺癌检测具有重要意义。随着医疗技术的不断发展,CT图像不断应用于肺结节的临床分析中。但海量CT图像极大地加重了放射科医生的工作负担,长时间的阅片极易造成医生的漏诊和误诊。因此迫切需要研发高性能的肺部CT计算机辅助诊断系统辅助医生记录肺结节
学位
在工业4.0时代,工业制造与信息化的融合发展已经成为必然趋势,数控系统在日常工业生产中承担着越来越多的责任。但是信息化给数控系统带来的安全问题也越来越严重,如何建立数控系统的安全保护体系,是当今国内外数控领域研究的热点,也是本文的主要研究内容。在数控系统中,用户本身的越权操作、文本文件和工艺图纸文件等数控系统中机密性文件的泄漏以及外部访问者的攻击都会带来严重的后果。本文针对以上数控系统信息安全威胁
学位
随着经济社会快速发展,以人工智能为导向的智慧城市方兴未艾。人群计数研究作为人工智能领域的一个分支对智慧城市的推动是十分重要的。首先,随着世界人口的不断增长以及随之而来的城市化进程,人们在游行、音乐会和体育场等场合容易发生聚集现象,在这种情况下,人群计数对于公共安全和管控起着不可或缺的作用。其次,人群计数可以辅助构建人群场景中更高层次的任务,例如人群分析与跟踪,视频监控,异常检测,活动识别等。当前,
学位
图像生成的相关工作一直是计算机视觉领域的经典问题。随着近年来深度学习技术伴随着硬件革新的蓬勃发展,利用深度学习模型解决图像生成的各种问题一直是领域内的前沿热点,特别是对图像内容的属性可控生成技术探究更具有着广阔的应用前景。但是使用深度学习来探究属性可控生成的绝大多数方法都有着本质的局限性,最核心的问题是,大多数方法对损失函数与网络结构的改动,并没有考虑到对网络内部运行机理的探究,所以网络整体在外部
学位
近年来,随着开源社区的发展与普及,开发人员通常会在社区中寻找相关的软件项目来制作项目原型或者用新特性来增强自己的软件项目。然而,随着开源项目托管平上承载的软件项目不断增加,开发人员很难快速寻找到满足需求或感兴趣的软件项目。因此,如何从众多的项目中为用户过滤出真正有价值的项目,并将其精确的推荐地开发人员至关重要。现阶段在开源项目推荐领域的研究虽然能基本满足开发人员的项目需求,但仍存在一些问题:如基于
学位
宫颈癌是女性生殖系统常见的一种癌症,病发率比较高。由于人工诊断的主观性强,导致宫颈癌的诊断存在容易出现误诊和漏诊的问题。另外,落后地区的医疗资源缺乏以及病理医生数量缺口大等问题致使普及宫颈癌筛查变得十分困难。通过成本低且更高效的数字病理图像自动识别技术提供客观和量化的分析结果可以帮助医生更准确的诊断宫颈癌。传统方法是在宫颈上皮组织病理图像上手工提取特征然后利用机器学习方法识别,其准确率无法满足应用
学位
近年来,计算机视觉领域的模型和算法层出不穷,在诸如人脸识别、目标检测等监督学习任务上取得了长足的进步。而这些监督学习模型训练通常依赖于大量已标定数据,且难以应对未知数据场景。为了解决数据短缺的问题,零样本学习逐渐进入计算机视觉的研究视野。零样本学习旨在借助跨类别的语义信息,实现对未知类别的分类。在近两年零样本学习的研究中,利用生成模型生成视觉样本的生成方法成为了主流。而为了缓解仅在已知类别上训练导
学位