中文网络招聘文本中的技能词抽取研究

来源 :桂林电子科技大学 | 被引量 : 0次 | 上传用户:popopan22
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着我国高等教育的迅猛发展,大学毕业生也日益增多。尽管就业岗位的数量在不断增加,但我国劳动力市场的供需失配的结构性问题依然非常严重。如今,随着互联网的普及,网络招聘成为企业招聘人才的主流方式。招聘信息中列出的技能词为实时、准确地了解企业对人才的需求提供了可能。本文将技能词抽取任务转化为序列标注问题,借鉴了命名实体识别或者术语抽取的方法。然而,由于中文的语义和上下文情形的复杂性以及手工标注成本昂贵,从招聘文本中自动抽取技能词并非易事。目前,深度神经网络已成为解决序列标注问题的主流方法。但是,这类方法专注于领域内监督学习,需要大量带标注的数据。对于网络招聘数据而言,由于人工标注既费时又昂贵,只能依靠领域专家手工标注少量语句。其次,这类方法完全依赖于神经网络进行特征提取,忽略了领域内的语料特征,没有充分利用到领域知识。另外,针对缺乏足够标注数据的困难,更好的方法应该采用迁移学习,借助其他领域中有标注的数据帮助提升技能词的抽取性能。而现有的基于深度学习的迁移方法需要源域和目标域具有相同的标签集或相同的标签含义,以及如何将从源域学到的知识迁移到目标领域也是一个挑战。因此,针对上述不足与困难,本文开展了两个研究:(1)本研究以序列标注的经典模型Bi-LSTM-CRF(Bidirectional Long Short Term Memory-Conditional Random Field)为基础。为了能够充分的利用领域知识,在它的输入层中加入语料特征,并将输入层的输出与Bi-LSTM层的输出进行拼接作为CRF层的输入。大量实验的结果表明了本研究的技能词抽取方法的合理性,加入的语料特征能有利于提升技能词抽取的准确率。(2)针对缺乏足够的标注数据的困难,本研究提出了一种跨领域迁移学习的技能词抽取方法。它首先将源域语料库分解为三个子源域,然后在Bi-LSTM层和CRF层之间插入一个域自适应层,以帮助将每个源域中学到的知识迁移到目标域。再使用参数迁移方法来训练每个子模型。最后,通过多数表决得出最佳标记序列的预测。大量实验的结果说明了本研究方法的合理性,可以缓解人工标注数据的稀缺性。本文工作的创新点如下:1)提出了一种基于深度学习与语料特征相结合的中文网络招聘文本中的技能词抽取的算法;2)提出了一种基于跨领域迁移学习的中文网络招聘文本中的技能词抽取算法;3)建立了IT类行业的招聘文本语料库。
其他文献
由于计算、无线通信和微机电技术的不断发展,无线传感器网络获得了广泛的应用。无线传感器网络是由许多传感器节点自组织组成的网络,而通常情况下这些节点自身的能量有限。数据采集是无线传感器网络的重要功能之一,也是节点能耗产生的主要过程,在实际应用中,数据传输过程一般根据路由协议执行。路由协议从结构上来说,主要分为平面型和层次型,层次型路由协议是一种更加适用于大规模传感器网络场景的路由协议,可以有效提高网络
车辆之间的相互通信能够有效的缓解交通堵塞,避免道路交通事故的发生。随着车辆保有量呈爆发式上升,车载通信业务的种类越来越多,对服务质量的要求越来越高,尤其是对时延服务质量(quality of service,QoS)有着较为严苛要求的道路安全信息相关业务,这些都对车联网的性能提出了挑战。现有车联网大多是基于专用短程通信技术(Dedicated Short Range Communication,D
在长距离自由空间光(FSO)通信中,信号强度会因为受到湍流、散射、吸收等因素的影响而衰减,而大气湍流是最重要的因素。大气湍流会干扰光束的传输,降低光通信系统的性能,最终影响通信质量。除了采用传统的差错控制技术以外,寻求优异的信道编译码技术并研究能对抗长延时、高误码的数据传输机制,对提高自由空间光通信的可靠传输能力具有重要意义。数字喷泉码是一种没有固定编码速率约束的编码方式,它不需要确知信道状态便可
近年来,利用计算机控制技术、人工智能技术和通信技术可以实现更好的交通容量和交通安全。智能驾驶系统中的车道偏离预警系统、智能巡航控制、车辆碰撞预警系统等功能,提高了车辆行驶的智能性,大大地减少交通事故发生,提高了交通系统的安全性。视觉感知是智能驾驶系统关键的技术之一,智能驾驶车辆所做的所有重要决策都依赖于对周围环境的视觉感知。基于感知结果,智能系统才可以进一步做出控制和操纵车辆的决策。本文主要利用机
惠更斯超表面是一种新型超表面,与其他的超表面相比,惠更斯超表面在结构构建上包含电谐振和磁谐振两部分,通过调节电谐振和磁谐振的结构参数,惠更斯超表面可以实现对电场和磁场的单独调控,从而实现对电磁波的自由调控。由于惠更斯超表面对电磁波出色的调控能力,因此广泛用于平板透镜、极化转换器、成像系统等器件的设计。本文围绕惠更斯超表面的电磁特性及其在天线上的应用展开研究,详细分析了惠更斯超表面的工作原理,并且设
随着物联网(Internet of Things,Io T)的快速发展与大规模应用,单一的传统通信技术已经无法满足物联网时代的需求,有针对性地使用两种或多种技术的组合,作为智能终端在物联网中的通信技术已成为必然。本课题将同时使用可见光通信(Visible Light Communication,VLC)与电力线通信(Power Line Communication,PLC)作为物联网的通信技术,以
近些年,携带螺旋相位波前的涡旋电磁波引起了各国科研人员的极大兴趣。由于涡旋电磁波具有螺旋相位的波前分布特点,使得它在通信传输、量子编码、粒子操纵、光学成像以及光刻技术等领域具有广阔应用前景,尤其在通信领域应用潜力巨大。由于轨道角动量是描述电磁波物理属性的新维度,因此如果对电磁波的轨道角动量进行单独编码或者作为载波携带信息,再结合传统的波分复用、正交幅度技术以及极化分复用等复用技术,可以极大提高通信
全球卫星导航系统(Global Navigation Satellite System,GNSS)作为一个国家现代智能信息化发展的重要基础设施。在近40年来,卫星导航在国家国防安全、社会经济发展以及人民日常生产生活等领域都发挥着越来越重要的作用。GNSS导航信号从卫星传到用户两万公里左右的传输过程中存在着复杂的空间电磁环境,且由于系统脆弱性,系统突发事故等,为了保证系统信号的可靠安全,需要对卫星信
通常,消费者在线购物时会根据商品的专有名词以及一些属性信息对其进行检索,用户在浏览商品时也会关注于商品属性方面的信息特征,因此分析出商品信息中关于特定属性方面的观点信息对提升商品的服务与质量是有必要的。细粒度的用户观点对商品的认知具有引导作用,可以影响消费者的购物决策,同时也为企业了解产品的属性特征提供了必要的信息反馈,具有重要的参考价值。本文的主要工作围绕着商品的观点分析展开,意旨分析出更详细、
目前,对海量数据的研究主要集中在对数据的存储、检索、挖掘和分析等方面,并且基本上都是基于某一特定的应用场景以及特定的数据源而进行的研究。互联网飞速发展和广泛应用的今天,短时间内就会有大量的、各种各样的数据产生,这些数据有表格、文本、音频、视频等,数据的存储格式也各不相同、各有特点。现实中,也会因为某种需要,要求对这些多源异构数据进行集中统一存储管理,而同源同构数据下的技术方案和算法并不能直接用于对