基于自然语言处理的简历信息抽取与识别研究

来源 :兰州交通大学 | 被引量 : 0次 | 上传用户:lkstudybitcc2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来我国就业人群日益增长,截至2021年末,全社会求职人数预计超过1000万人,新增用人单位招聘需求预计达到2000万人以上。同时,人才市场越来越趋向于智能化,简历信息也呈现出多元化、复杂化的特点。在求职者与用人单位双方需求增加与网络信息资源日益庞大的背景下,如何从半结构化简历中准确高效地抽取识别文本关键信息,在提高用人单位人岗匹配结果、帮助求职者获得工作岗位具体需求等方面有着重要意义。本文以半结构化中文简历为研究对象,采用自然语言处理方法,通过计算机理解技术和生成式自然语言相关理论方法,对半结构化中文简历文本进行命名实体抽取与识别。研究选取适用于半结构化中文简历的解析模型,对提高信息抽取技术在简历解析的应用,加深自然语言处理技术在人力资源等相关产业结合,促进企业工作效率的提升,推动人工智能技术在实际应用领域等方面研究有着重要意义。本文主要研究内容如下:首先,本文以半结构化中文简历为研究对象,通过对大量不同版式结构简历总结出半结构化简历文本同构性与异构性特征,基于此完成对半结构化中文简历结构特征和内容特征进行分析。从同构性角度出发,总结半结构化简历文本固定模块信息,并对其进行层级划分。在异构性角度方面,通过人工标注校准和关键词排序的方式,对简历标题词典进行构建与扩充。其次,引入循环神经网络原始模型与长短期循环神经网络模型,并将长短期循环神经网络(Bi LSTM)应用到中文简历信息提取与识别任务中。针对Bi LSTM模型不足,引入条件随机场(CRF)层,将特征提取与文本分类融合,利用Bi LSTM层通过自动学习半结构化中文简历中特征信息,随后输出全部可能的标签词序列的概率到CRF层,在CRF层中再利用标签之间约束关系,计算得到最优标签序列。模型利用准确率、召回以及F1值对模型进行评价。为检验该模型在半结构化中文简历解析任务上的有效性,模型与传统RNN、LSTM、Bi LSTM以及分别结合CRF层进行结果比照,结果显示,Bi LSTM-CRF模型在半结构化中文简历NER任务F1值最高,达到90.4734%,以此证明该模型在中文简历NER任务上有不错潜力。最后,由于词向量预处理作为模型输入层直接决定了下游识别任务的效果,因此本文引入预训练语言模型,具体介绍的包括静态预训练语言模型和动态预训练语言模型,以及目前中文命名实体任务常用的BERT预训练语言模型。经过分析并对比各预训练模型优缺点,最后选择将BERT模型和Bi LSTM-CRF模型结合。模型通过BERT层对输入的上下文文本数据信息通过编码得到字向量表示,将所取得的字向量作为输入通过Bi LSTM模型完成训练,进而提取文本特征,并产生各种可能的标签序列,最后使用过CRF解码获取最优标签序列,完成中文简历信息抽取与识别任务。结果显示,引入预训练语言层后Bi LSTM-CRF模型在中文简历识别任务有了不错的提升,识别结果F1值达到94.1706%,由此可见BERT层在中文简历NER任务中有较好的预训练效果。
其他文献
目的:通过Gesell发育量表评估系统性红斑狼疮(systemic lupus erythematosus,SLE)合并妊娠患者子代早期的神经发育水平特征并进行相关因素分析。方法:收集2020年5月至2022年1月在兰州大学第二医院就诊的47例SLE合并妊娠患者的12月龄子代作为SLE组,同时收集同期出生、胎龄相似的35例健康母亲子代作为对照组。(1)分析SLE组和对照组出生体重、出生胎龄、早产率
学位
图像保边平滑最大的挑战是在保持小结构的同时平滑强梯度纹理,实现两者之间的均衡是一项具有挑战性的工作,关键在于对图像中结构和纹理像素点的识别以及针对性地采取不同的平滑程度,由于纹理的复杂性、不规则性和各向异性,目前已经提出的一些算法和模型很难获得理想的保边平滑效果。本文提出了基于结构感知的自然图像保边平滑算法,包括基于结构张量的加权最小二乘平滑算法和尺度自适应的平滑算法。基于结构张量的加权最小二乘保
学位
面对国产电视剧的快速发展,电视剧创作的美学意义与传播受众的改变越来越多地与电视剧评价体系相关联。如何通过抒发民族精神发挥媒介的价值导向作用,成为衡量国产电视剧质量的重中之重。本文认为,创作者、作品以及受众作为电视剧创作三要素,在现阶段电视剧美学建构中发挥着重要作用,三者的美学倾向决定着未来中国现实主义电视剧创作的发展方向。
期刊
在计算机视觉领域,行人检测是较经典的问题之一,具有十分广泛的应用,例如智能机器人,自动驾驶和视频监控等。近些年来,随着深度学习的日益发展,很多基于深度学习的行人检测算法相继被提出,卷积网络开始被广泛应用于行人检测领域,极大地推动了行人检测技术的发展。在实际场景中,由于行人自身差异性和外界环境复杂性影响提取特征的鲁棒性,行人检测算法的性能仍有很大的提升空间。例如行人的尺度变化复杂多样,大大增加了行人
学位
2022年我国电视剧呈现出稳中向好、进中提质的良好态势,加速迈向高质量发展新阶段。政策上,统筹推进、双向发力的制度体系基本形成,为电视剧发展“保驾护航”;创作上,重大主题创作、现实题材优势突出,类型剧百花齐放;传播上,台网联动实现新升级,国际传播矩阵完善带动更多剧集“出海”;市场上,内容精品化、运营精细化成为趋势,长短剧集优势互补,合力优化产业格局。
期刊
随着科学技术和信息技术的日益发展,以网络为代表的新型媒介正在改变着传统信息的传播方式,大大丰富了传统信息的传递渠道,重塑了传统信息的传递方法。在此背景下,媒体传播方式也开始往社交化以及移动化的方向转变,传播的内容数量更加庞大,发展业态更加多样而且立体,传统媒体产业发展也因此遭到了巨大冲击。基于此,电视剧产业要积极适应新时代的发展要求,紧抓融媒体时代的相关特征,来推动自身发展。
期刊
近年来,社会性别形象成为很多电视剧的重点着墨之处,体现了性别话语在影视作品中的回归。笔者通过对《三十而已》和《卿卿日常》两部近期热点的现代和古装电视剧的深入分析,认为国产电视剧需要优化对性别议题的议程设置,既不能为了去攀附文化热点,无事生非、“煽风点火”,将所有复杂多面的问题都归结到性别差异上;也要秉持人性关怀,警惕美化苦难,不漠视女性的客观弱势地位,用先进价值观去推动社会平等。电视剧制作要牢牢坚
期刊
21世纪以来,现代社会飞速发展,而发展的代价是不间断高速消耗传统不可再生能源。传统的能源有两个巨大的不足之处,首先是其储量极其有限。其次,近些年来由于过度使用化石燃料而导致碳排量的严重超标,这加剧了全球变暖效应,从而全球极端气候发生次数持续增加。因此在全世界经济发展不确定的条件下,更加需要开发一种新型的可再生清洁能源。我国在构建生态环保方面一直走在前列,承诺在2030年全国碳排放达到峰值,2060
学位
研究目的:探讨血清CD36水平在类风湿关节炎(RA)合并心血管风险患者中的表达及预测价值,构建以血清CD36水平为主的多因素临床预测模型预测RA患者的中、高心血管风险,并对构建的预测模型进行评价及内部验证,为临床识别及预测RA患者的中、高心血管风险患者提供新的理论依据。方法:选取甘肃省兰州大学第二医院风湿免疫科住院治疗的84例RA患者作为研究对象,同一时期健康体检者34例作为对照。所有纳入RA患者
学位
目的:探索弥漫性大B细胞淋巴瘤(Diffuse large B-cell lymphoma,DLBCL)患者初诊时的预后营养指数(Prognostic nutrition index,PNI)联合D-二聚体(D-Dimer)对预后的评估价值,从而筛选出预后良好的患者。方法:收集73例DLBCL患者初诊时的临床数据,通过受试者工作特征曲线选取PNI和D-Dimer的最佳临界值,从而将73例患者分为低
学位