【摘 要】
:
简历是生活中常见且重要的文本,解析其中的个人资料、教育及工作经历等实体信息并结构化处理,对于求职招聘、关联分析等应用都至关重要。现有的简历解析系统尽管引入了统计学
论文部分内容阅读
简历是生活中常见且重要的文本,解析其中的个人资料、教育及工作经历等实体信息并结构化处理,对于求职招聘、关联分析等应用都至关重要。现有的简历解析系统尽管引入了统计学模型,但仍主要依赖于人工定制的规则模板,导致其开发维护困难、泛化能力差、难以移植,已难以应对当下大数据量的简历处理需求。为解决上述问题,本文研究基于深度学习的简历实体标注方法,利用深度神经网络强大的特征学习,并实现相应的中文简历解析系统,具体如下:1.在对现有的简历解析技术进行系统的分析后,提出基于神经网络与概率图模型联合的简历标注解析方法。首先将非结构化的简历文本预处理为词序列,通过由Word2vec在大规模语料上训练得到的词向量表将词映射为低维实数向量,然后利用双向长短期记忆网络层融合待标注词的语境信息,由条件随机场层引入标签约束求解最优标签序列,最后利用标签匹配解析出相应简历实体,利用随机梯度下降算法训练该模型,并辅以Dropout防止过拟合。该方法不仅无需依赖人工定制的特征模板,且实验结果表明相比以往的方法其标注性能F1值提升了近8%。2.在对中文分词、中文特征分析,以及基于神经网络的字序列标注实验的基础上,提出利用注意力机制融合字词特征的神经网络标注方法。该方法以前面提出的神经网络词序列标注为主体框架,引入注意力机制动态的调控字序列特征的融合,并整合字词向量特征,进一步挖掘和利用特征信息,提升标注效果。实验结果表明该方法进一步的提升了简历标注效果。3.在前两部分对简历解析核心模型设计和实验分析的基础上,根据实际的应用需求设计并实现基于神经网络的中文简历解析系统。该系统主要包括数据预处理、模型训练、推理标注、标注修正等模块。
其他文献
心房颤动属于心律失常,临床较为常见,一旦病情严重,可能引起血栓,患者会有致命危险。通过华法林治疗,能够有效降低卒中风险,对无论瓣膜病还是非瓣膜病导致的心房颤动,普遍具
对合流制污水厂的弊端进行了分析,从实际情况下雨水对中小型污水厂主要的影响和危害进行了论述,提出了中小型污水厂雨季的运行方法,解决了其雨季运行不稳定的问题。
污染物绿色控制及重质碳资源高效利用对绿色氧化技术提出了迫切需求。H2O2作为公认的环境友好型氧化剂,可分解产生强氧化性·OH,是构建绿色、高效氧化体系的重要选择。传统的
目的:用13N-氨水(13N-NH3)PET门控心肌灌注显像(Gated Myocardial Perfusion Imaging,GMPI)评价局部心肌血流灌注及整体和局部心功能参数在监测放射性心脏损伤(radiation induce
介绍了用全废纸生产高强瓦楞原纸的工艺流程和生产中应注意的一些基本问题。
科学技术的日新月异给我们的学校课堂带来了一定的挑战,也带来了新的活力和教学方式,尤其是计算机教学媒体和教学软件的不断开发与应用以及多媒体动画素材的形成,为学校体育课堂
目的:本研究通过对不同病情严重程度及脏腑虚损哮喘患者线粒体功能及其相关受损因素的分析,试图寻找线粒体呼吸链抑制、功能障碍的关键环节,揭示L-Arg/ADMA代谢在线粒体损伤
互联网——未来社会的神经中枢 科学技术的高速变革,导致了知识经济的迅猛扩展。当我们说未来社会是信息社会的时候,互联网无疑起到了一条神经中枢的作用。正是由于互联网不
在幼儿园的管理当中,游戏是其中的重要内容,也是教学的主要形式。由于中班幼儿还处于懵懂时期,对于外界的事物了解较少,因此需要通过游戏的方式来向学生渗透相应的知识,助力
以水平提花轮控制沉降片的运动状态为研究对象,从理论上建立了提花轮齿和两种钢米与双片鼻沉降片的啮合关系式,并定量地分析了提花轮齿和不同尺寸的钢米在弯纱区域控制沉降片的