简历自动获取与信息提取系统设计与实现

来源 :华中科技大学 | 被引量 : 0次 | 上传用户：LIUCHANGQI2003

【摘要】

：

【作者】

：

宋琦敏

【机构】

：

华中科技大学

【出处】

：

华中科技大学

【发表日期】

：

2020年01期

【关键词】

：

半结构化简历网络爬虫字典匹配统计模型 BLSTM-CRF

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着计算机技术的不断发展与进步,企业利用互联网在各大招聘网站发布招聘信息,求职者结合自身情况选择对应的岗位进行应聘。企业单位日益面对数量巨大,种类繁多的电子简历文档,单依靠人工进行筛选和录入简历信息不仅效率低下,而且需要耗费大量的时间精力。因此,研究如何利用现有的计算机技术从各招聘网站进行批量下载企业需求的各类简历文档,并快速准确的自动提取出企业关注的重要信息进行结构化存储具有重要的现实意义。针对各大招聘网站存储的海量简历信息,利用网络爬虫等相关技术批量下载企业需求的简历文档,减少人事招聘专员进行人工简历筛选的繁杂工作。分析半结构化中文简历文本在结构、内容、层次上的特点,结合一定的文本分类的理论基础,提出了一种简历文本按内容类划分和按层次结构相结合的划分方法,将简历内容划分为个人基本信息、求职意向、教育背景、工作经历、项目经历、获奖经历六个预定义的通用模块。根据简历的规则特性,利用人为先验知识建立需要抽取的词典。在简历各模块信息抽取的过程中提出了分别按基本信息和复杂信息两类进行抽取的方案。在简历内容识别过程中,结合简历中的基本信息类具有的简单词法与语法特征,建立需要抽取的规则表达式进行信息的抽取。对简历文本中教育经历、工作经历等复杂信息类的抽取,分析其具备的主要特征,分别采用基于字典匹配、统计学的隐马尔科夫模型、深度学习BLSTM-CRF模型的识别方法进行提取并进行比较分析。使用Python语言和Java编程语言相结合的方式实现了简历文本的批量下载和内容识别,并对定量的简历文本进行抽取测试,其结果可满足企业对简历筛选和信息提取并结构化存储的需求。

其他文献

基于多目视觉线结构光的高铁白车身三维测量技术研究

论文针对大型构件高铁白车身腻子自动化打磨过程中,需要同时满足大尺度、高精度、稠密点云以及高效率的测量需求,在多目视觉线结构光大尺度高精度测量技术的基础上,提出基于辅助相机标定的多目视觉线结构光大尺度高精度测量方法,降低对标定工具的要求,简化标定流程,同时采用全局优化算法对测量系统整体优化,减小点云数据拼接误差,进一步提高测量系统的精度,实现高铁车身表面三维形貌的全局精确测量,为高铁白车身自动化生产

学位

高铁白车身三维测量多目视觉线结构光辅助相机全局优化

基于矩阵完备性的电影推荐系统设计与实现

信息时代下,网络数据获得爆发式增长,其带来更好的服务、更便捷的体验的同时,也带来了信息过载问题。就电影网站而言,电影数据资源的不断增多和观影人数的不断扩大,导致观影者无法在短时间内挑选到其喜爱的电影。如何能为用户精准推荐成了电影系统研究和设计的热点问题。本文即从此出发,提出了基于矩阵完备性的推荐算法来设计电影系统,并对这一设想进行了实现。具体研究内容如下:（1）设计算法来缓解协同过滤所存在的稀疏性

学位

电影推荐系统矩阵完备性协同过滤

基于多源信息组合的知识表示学习

知识图谱将现有的知识构建成大型的网络系统,是人类过往经验与智慧的结晶,如今在人工智能的各种任务中发挥着愈来愈重要的作用。知识表示学习的目的是将知识图谱中的实体和关系投影到低维的向量空间,使知识图谱能够更加便捷地应用于各种下游任务。知识图谱中,实体的文本描述信息、实体的层次类型信息和图的拓扑结构信息中隐藏着丰富的内容,是对结构化三元组的重要补充。将这些多源信息进行组合,能够帮助提高知识图谱各种任务的

学位

知识表示学习层次类型实体描述拓扑结构多源信息组合

面向低时延高可靠车联网的统计建模与路径优化研究

当前,无人驾驶领域存在单车的传感器死角问题和短距离直接通信的距离限制等关键问题,蜂窝车联网（Cellular-Vehicle-to-Everything,C-V2X）成为解决上述问题的有效办法。联网的车辆通过接收来自互联网以及其他车辆的实时信息,能够显著提升车辆对环境的感知能力和感知范围。然而,无人驾驶车辆仍存在算力有限问题,无法满足高计算的业务要求,因此支持云计算的智能网联车解决了单车算力不足的

学位

雾计算蜂窝车联网往返时间置信度路径规划

面向被动毫米波隐匿物检测的仿真图像训练集构建研究

恐怖袭击事件的频繁发生及各类新型危险品的出现,使得人们对于火车站、机场等人流密集场所的安全检查越发重视。被动毫米波辐射成像由于具有良好的衣物穿透性,在人体安检的违禁隐匿物品的检测中具有巨大的发展前景。近年来,在自然图像领域基于深度学习的目标检测方法发展迅速,利用深度学习来实现被动毫米波辐射图像中的隐匿物检测是当前的发展趋势。深度学习的网络训练需要大量的样本数据,由于被动毫米波成像系统研发的技术难度

学位

被动毫米波辐射图像仿真人体安检目标检测训练集构建

无时间聚合移动轨迹的成员推理研究

伴随着移动智能手机的普及,基于位置的应用服务使用越来越广泛,应用服务方收集了大量的用户移动轨迹数据,给用户带来了位置隐私泄露的风险。为了能更好地保护个人隐私,数据发布方在数据发布前通常对用户数据进行隐私保护,倾向于发布隐私保护力度较强的不含用户标识、不含时间信息并且进行了差分隐私扰动后的无时间聚合移动轨迹数据。对无时间聚合移动轨迹数据进行成员推理,判定目标用户的存在性,从而发现隐私泄露,对于进一步

学位

移动数据隐私保护无时间聚合移动轨迹成员推理差分隐私

单核系统中基于紧迫度的弱实时任务调度算法

随着计算机的不断发展,人们对计算机的性能提出了更高的要求,除了要有更快的处理速度之外,还要有更高的服务质量,保障系统的长期平稳运行。为了满足人们的需要,弱实时性任务被广泛地应用。弱实时任务是具有一定容错率的任务,包括感知和控制在内的许多信息物理系统应用都会有一定程度的时间容错,在不影响服务质量的情况下,允许一小部分任务执行时间超过一定期限,其中容错率是要有一定限制的,否则会失去实时任务的意义。因此

学位

弱实时任务紧迫度等级划分优先级分配

云环境下恶意软件快速检测系统设计和实现

由于海量的数据流量使得在云环境内对恶意软件进行检测时,需要较高的检测效率。但是现有的恶意软件检测方法中,基于特征码的静态检测方法随着流量的增大其特征数据库规模呈几何上升,动态检测的高系统开销也难以应对大流量的检测。因此提出一种结合静态、动态检测的分步检测方式,利用机器学习分类模型实现恶意软件快速自动化检测,旨在提高云环境中恶意软件的检测效率。云环境下恶意软件快速检测方法分为四个模块:快速过滤模块、

学位

云环境静态检测动态检测恶意软件

基于ResNet网络在文字识别中的应用研究

近几年来,计算机视觉飞速发展,与之相关的应用也已经进入到人们的日常生活中。识别自然场景图像中的文本还有许多问题需要解决。自然图像中的单词通常具有不规则形状,这是由透视变形,弯曲的字符放置等引起的。在某些场景中,存在弯曲变形的文本,导致部分识别方法的识别率较低。为了提高文字识别率,我从文字识别网络的特征提取网络出发,将普通的CNN网络用ResNet网络替换,因为ResNet网络更深,解决出现网络退化

学位

CRNNRAREResNetCTPN文字识别

量子数字图像识别及其可视化研究

图像识别技术有着广泛的应用场景,在应对大数据时代海量数据的处理和分析时,传统的图像识别技术经常会遇到性能问题,而量子计算具有独特的性质,可以利用量子计算来解决传统算法的运算效率问题。本研究致力于利用量子计算来加速图像识别技术,由于量子计算的相关研究尚不成熟,所以主要关注了图象识别领域的一个基本任务即数字图像识别,进行量子数字图像识别的研究。现有的量子计算研究及算法通常是使用量子线路表征的,这与经典

学位

量子计算图像识别量子线路可视化

简历自动获取与信息提取系统设计与实现

与本文相关的学术论文