面向招聘行业的搜索系统设计与实现

来源 :厦门大学 | 被引量 : 0次 | 上传用户:yyp0000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网行业的发展促进了信息数据呈现爆发式增长,如何让用户从海量的信息中快速获取想要的数据成为了互联网公司面临的首要问题。搜索引擎通过对文档建立索引实现对文档的快速检索,公司构建垂直领域的搜索引擎成为一种必然趋势。针对传统搜索引擎基于关键词的检索,本文结合自然语言处理技术设计并实现了一个结合关键词召回和语义召回的搜索系统,针对招聘方大批量的简历搜索的需求,系统基于ES(Elasticsearch)实现了多字段约束下的简历查询;针对复杂的、业务相关的专有名词的搜索,系统基于深度学习中的掩码语言模型(Masked Language Model):Word2vec、Bert训练排序模型,利用排序模型将词语转换成语义向量,通过计算语义向量的相似度来召回语义相近的词语,降低使用系统的要求。本文的主要工作如下:(1)在搜索句子的解析中,构建和训练命名实体识别(Named Entity Recognition,NER)模型:Bilstm+CRF、Transformer+CRF,然后利用 N-gram 语言模型、前缀树数据结构、编辑距离算法等技术实现了搜索词纠错、搜索词补全等功能。(2)利用Lex和Yacc工具对查询句子进行解析实现了查询句子到ES输入格式的转换,实现了基于ES的多维查询。包括词法规则定义、语法规则定义、抽象语法树的构建。(3)在语义向量检索的方法中,系统利用Word2vec语言模型编码词向量、利用Bert预训练语言模型训练排序模型并进一步实现编码句向量,最终结合开源向量检索框架Milvus实现语义向量的召回。
其他文献
十九大报告中表明,我国经济发展模式发生了转变,由过去利用人口红利和消耗资源的高速发展阶段,转向了越来越注重效率的高质量发展阶段。追求高质量的供给体系的特点是,一方面经济增长速度放缓,另一方面,注重市场对资源配置的主导作用,将供给的质量和效益放在同等重要的位置。在此背景下,2016年10月,在经济新常态的宏观背景下,《关于市场化银行债权转股权的指导意见》的发布表明债转股作为一种工具被正式提出并开始实
学位
电液伺服系统作为典型非线性被控对象具有内部结构复杂、工作环境多变和安全性要求高的特点。目前基于解析模型的方法难以精确描述电液伺服系统的动态特性,进而无法继续提高系统的动态控制性能和抗干扰能力,需要研究数据驱动的电液伺服系统非线性鲁棒控制方法。因此,基于VSV电液伺服闭环控制与故障模拟实验台,本文利用柔性行动者批判算法无模型异步策略迭代的特点,提出了基于优化稀疏奖励的SAC深度强化学习控制方法改进了
学位
随着飞机和发动机性能的提高,航空发动机控制系统设计的要求也不断提高,控制变量也不再只是燃油流量一个,相对于传统的控制模型建模方法以及变增益控制,目前的控制系统设计提出了更高的要求。航空发动机状态变量建模则是航空发动机控制系统设计及仿真试验的重要组成部分,可减少试验风险和成本。因此,本文基于某型涡扇发动机,开展了涡扇发动机全包线控制模型建模、过渡态控制规律设计的研究。主要研究内容如下:为了解决涡扇发
学位
在高速发展的信息化时代,信息科学技术已深入社会各行各业,金融科技更是得到了极大的发展。传统的利用搜索引擎获取信息方式给用户带来的是数量庞杂、内容繁复的结果,借助知识图谱对知识进行整合,利用智能问答系统进行问答交互,可以帮助用户快速获取有效信息,提高办事效率。随着线上渠道的普及与完善,传统的单纯依靠人工的客服模式也已经转变为人机结合的智能客服模式。为帮助用户快速、准确地获取信息,针对客服行业的问答系
学位
随着经济社会发展和城市投资力度的加大,海底沉管隧道工程项目变得越来越大型化、综合化、复杂化。海底沉管隧道为大型海底通道的一种工程形式,其形式为路上预制沉管,封闭后运输至海上固定轴线位置进行安装的水下工程。与陆地上施工的隧道相比,海底沉管隧道具有非常的特殊性,项目建设过程中存在难以预测、不确定的风险。但海底沉管隧道对于现代城市交通建设有着不可比拟的优越性,近年来在我国陆续启动,如已经建成的港珠澳大桥
学位
随着互联网的高速发展,教育行业实现了线上发展的巨大进步,在线教育飞速发展。特别是在去年线下教育无法开展期间,基础教育的线上发展得到了空前的成功,并且在这之后,在线教育依然如火如荼。与在线教育紧密关联的是在线考试的发展。作为在线远程教育以及能力培训必不可少的环节,在线考试的发展既实现了资源的高效共享与利用也促进了教研和学生学习的效率。而在更深一层次,作为在线题库的建设与在线组卷的效率则决定了在线考试
学位
由于深度网络具有强大的表征学习能力,能很好地处理数据中的非线性特征,融合深度网络与聚类模型已经成为目前无监督学习的趋势。在这一背景下,研究者提出基于自我表达特性的深度子空间聚类方法(Deep Subspace Clustering Networks,DSC-Nets),将自我表达特性嵌入到深度自编码网络(Deep Autoencoder)之中,结合深度学习和子空间聚类两者的优点,并表现出了优越的聚
学位
随着互联网金融时代的到来,网络交易席卷全国。据统计,2019年我国网购用户数量达到6.59亿人,网购渗透率达到79.5%交易金额达6.82万亿元①,由此可见,网络交易渗透到挨家挨户的每个角落。直播带货等新兴网购模式层出不穷,作为促进网购交易的重要工具,第三方支付行业在近些年的发展中逐具规模,从无名小卒变为社会热点,支付宝、微信支付、财付通、二维码支付、刷脸支付等新型支付方式已经融入到生活的各个方面
学位
2020年初爆发的新冠肺炎疫情,是全国人民共同经历的一次最严重的挑战,在共同抗击疫情的过程中,一方有难八方支援,企业捐赠了不计其数的物资和款项,为抗疫的最后胜利作出了重要贡献。这次疫情暴露出我国在企业慈善捐赠中的短板,也让该研究更加具有时代意义和紧迫性。慈善捐赠是一种以“援助”为目的进行资助的社会活动,慈善捐赠中企业慈善捐赠由于经济实力雄厚,短缺物资对口生产,捐助资金力度大等特点一直在灾难危机慈善
学位
随着半导体行业的迅速发展,半导体晶圆的生产制造需求与日俱增,但是在生产过程中难免会导致晶圆出现各种缺陷,进而影响半导体芯片产品的品质。对于晶圆的质量检测尤为重要,人工检测容易出现误判和速度慢等问题,所以引入基于机器视觉的晶圆表面检测方法成为热点。因此,本文针对基于机器视觉的晶圆表面缺陷检测算法进行研究。为了提取分割晶圆中成千上万个晶粒,本文利用基于灰度的模板匹配算法来匹配晶粒。其中缺陷会使得晶粒的
学位