面向人才职业流动分析的数据挖掘方法和应用

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:diaro
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在高速发展的人才经济时代,职业流动已经逐渐成为一种常见的社会现象。职业流动分析旨在发现员工在不同组织、工作岗位之间的转移模式,对于个人职业发展、企业人才竞争力分析和社会劳动力评估等方面均具有重要意义。为此,围绕职业流动行为的分析研究方兴未艾。传统社会学相关的研究主要集中在观测和解释职业流动行为的规律,由于数据的匮乏以及建模技术的局限,相关研究可能会面临主观性强、全面性不足的问题。近年来,信息扁平化拉近了人才与工作机会之间的距离,使得职业流动行为更加频繁。在线职业平台(Online Professional Networks,OPNs)的崛起,积累了海量用户简历,为研发数据驱动的智能职业流动分析方法带来了巨大的机遇。同时,数据挖掘技术的飞速发展为复杂数据的建模提供了强有力的技术支撑。基于以上背景,本文旨在利用数据挖掘技术并结合相关管理学等交叉学科知识,针对企业和个人层面的职业流动行为,开展一系列数据驱动的研究,主要包括以下三个方面:面向企业的职业流动预测、企业竞争分析以及面向个人的职业流动预测。首先,针对面向企业的职业流动预测,本文提出了一种基于动态隐变量的人才流动预测方法。根据企业间人才流动的历史数据,本文旨在挖掘企业层面职业流动的潜在规律,从而实现对未来人才流动的预测。现有的人才流动分析研究一般依赖于主观调查,局限于少量数据上的定性研究。但是,由于缺乏大规模的定量研究,目前在人才管理细粒度剖析与预测方面仍存在较大局限。因此,本文首次从数据驱动的角度对人才流动进行定量分析建模。具体而言,首先通过挖掘OPNs上大规模的职业流转记录来构建时间感知的人才流动张量;接下来设计了一个基于动态隐变量的张量分解模型,用于预测未来的人才流动。其中,通过联合考虑历史人才流动和全局市场的影响,引入了一种新颖的演变特征以用于对每个公司的演化性质进行建模;此外,为提升预测性能,还提出了一种公司属性相似度约束来调节模型推理;最后,通过在大规模真实职业流动数据集上进行的大量实验,验证了所提方法在企业间人才流动预测任务上的有效性。其次,针对企业竞争分析任务,本文提出了一种基于人才流动表征的企业竞争力分析方法。借助竞争分析,企业可以制定前瞻性战略和人才引进规划,进而建立起业务优势。然而,目前该方向研究通常依赖于一些特定的特征或者调研数据,在客观性与扩展性方面存在不足。因此,本文旨在通过分析人才流动数据,为企业间竞争分析提出新范式,这背后的原理是企业之间的竞争通常会导致人才流动。具体而言,首先基于大规模的职业流转记录来构建人才流动网络,并考虑企业在网络中流入流出的特性,定义“竞争力”的概念。紧接着,本文提出了一个人才流动表征模型来学习每个企业的双向人才吸引力,进而衡量企业之间的成对竞争关系。此外,本文还设计了一个多任务学习框架来融合多个岗位上的人才流动网络,细粒度地学习企业表征。最后,我们在真实的职业流动数据集开展大量的实验,充分验证了所提方法在企业竞争分析任务上的有效性,并基于人才流动的洞察揭示了一些有趣的竞争现象。最后,针对面向个人的职业流动预测,本文提出了一个异质网络表征增强的工作流动预测方法,该方法可以在多个方面为企业或个人提供帮助,例如,人才招聘和职业规划。然而,现有研究主要侧重于对个人层面的职业轨迹建模,而忽略了宏观职业流动的影响。为此,本文旨在利用宏观因素的影响来提升对个人职业流动的预测。具体地,首先通过构建一个异质网络来保留公司和岗位之间宏观的关系。其次,构建了一个异质网络注意力表征模型来学习网络中的实体表征,其针对不同类型的信息聚合采用不同的策略,并设计一种类型注意力机制来自动更新实体表征。此外,我们还设计了一个序列模块来对个人的职业轨迹进行建模,通过注意力机制来捕捉公司和岗位在序列中的交互影响。最后,在真实职业流动数据集上开展的大量实验,充分验证了所提方法在个人职业流动预测任务上的有效性。
其他文献
近年来,水力压裂技术已经广泛应用于油气田开发过程中,尤其是对于储量巨大的非常规油气的开发,水力压裂已经成为必要的手段之一。微地震监测技术是在地面或者井下布设检波器来接收由于地下岩石破裂产生的微地震信号,通过对记录到微地震事件进行震源定位、震源机制反演等方面的研究,从而对水力压裂的效果进行评估。而通过地震学中震源定位的方法获取微地震事件的震源位置则是微地震监测的基本目标之一。在众多地震定位方法中,基
学位
39Ar是一种宇生同位素。由于它的来源比较单一、在大气中分布均匀且化学性质不活泼,因此是环境水样品的理想定年示踪同位素。39Ar的半衰期为269±8年,其定年范围约为50~1,800年,恰好填补了传统氚定年和14C定年的空档。39Ar独特的定年范围使其在冰川定年、洋流循环以及地下水研究中有着重要的应用。但是39Ar的自然丰度非常低(I.A.=8×10-16),分析环境样品中的39Ar对检测技术是一
学位
随着飞行工况的提高以及重复使用需求的进一步明确,主动冷却技术将成为推进系统内部和飞行器外部高热部位主要的热防护措施,考虑到在高马赫数飞行条件下引气气膜冷却与燃料再生冷却存在的冷却不足问题,本文进行了以液态水为冷却工质的复合冷却结构的机理研究,目的在于探索单一液态水工质复合冷却方式的传热特征及性能极限,为新型多工质复合冷却结构的设计提供参考。从冷却工质的热沉利用角度量化分析了气膜冷却应用中的气膜层隔
学位
自lin-4和let-7等小RNA在秀丽线虫中被发现以来,后续的研究揭示了小RNA广泛存在真核生物中,并在机体的生长、发育、生殖、遗传和免疫防御等方面行使重要功能。近些年来,随着越来越多新型的小RNA被发现,小RNA的分子功能及参与的生物过程也在不断拓展,其功能的实现方式也被不断揭示。对小RNA的研究,促进了研究人员对生命现象的理解,促进了生物技术的开发。本项工作中我们利用线虫筛选抑制siRNA生
学位
近年来,大数据技术在许多领域取得了显著成就。基于大数据的许多智能应用与服务被开发并广泛应用于各行各业,如语音识别、智能推荐、智能监控、自动驾驶、物体检测、交通流量分析、噪声监测、药物研发等。因此,对于基于数据的服务提供者来说,迫切需要对数据及数据产品进行有效质量分析和数据获取和交易机制。为了促进数据服务提供商和数据拥有者之间的数据流通,国内外出现了各种数据共享和交易平台。代表性的数据交易平台有国内
学位
量子强关联系统以其的复杂性而著称。对于许多量子强关联模型的物理性质,我们的理解仍旧非常有限。例如:高温超导的机理,自旋液体的存在性,量子临界点附近的性质,拓扑序的本质等。由于缺少理论上的通用处理方法,数值模拟方法对于理解量子强关联系统起到了重要的作用。量子强关联系统的基态常满足纠缠熵的面积定律。利用这一点,人们将发展了一个非常有用的数值模拟方法,即张量网络方法。张量网络方法大大减少了系统的自由度,
学位
地震波数值模拟作为可有效揭示地震波在复杂地球中传播特征的重要工具,是地震波成像和地震波形反演的基础,也是计算地震学的核心内容。随着计算地震学的深入发展,简化的介质模型已经不能完全满足研究需求,贴近真实地球的复杂介质模型逐渐被采用。现有的地震波数值模拟方法在处理复杂介质模型时面临着介质离散误差大、数值计算效率低和算法不稳定的挑战,这些通常是由模型中的固液界面、孔隙度、介质剧变面、地表低速风化层和强烈
学位
区别于单响应回归,多响应回归是同时研究多个响应变量与多个自变量之间关系的回归方法,该方法可以利用响应变量之间的依赖结构实现降维,从而构建更准确、可解释的模型(区别于一些机器学习的黑盒模型,统计回归模型的解释性是指人类可以一致地预测模型结果的程度[84])。这类方法在包括动态定价策略、社交媒体营销和危机管理等诸多定量问题中都有着广泛的应用前景。然而,随着海量(超)高维度数据的激增,现有的多响应回归方
学位
药物诱导的细胞死亡已经成为包括癌症等多种疾病的重要治疗策略。不同的药物可以通过激活不同的细胞死亡途径来实现对肿瘤细胞的杀伤,然而细胞会产生抗药性来逃避死亡。目前不同靶标相关的细胞死亡和耐药途径还不是很清楚。线粒体动力学和细胞死亡密切相关,在维持细胞生理功能和决定细胞命运中发挥重要功能。尽管已经有很多证据证明线粒体参与药物诱导的细胞死亡,但是线粒体动力学在药物诱导的不同类型细胞死亡中的作用仍不清楚,
学位
为了满足快速生长和增殖的物质和能量需求,肿瘤细胞发生了代谢重编程。与正常细胞相比,肿瘤细胞的糖酵解通路、丝氨酸合成途径、磷酸戊糖途径、谷氨酰胺代谢和脂质代谢等都发生了一些变化。正常细胞主要通过氧化磷酸化来产生能量,而肿瘤细胞似乎对糖酵解情有独钟。肿瘤细胞即使在有氧的情况下也会优先通过糖酵解产生能量,这种现象被称为“有氧糖酵解”或“Warburg效应”。由于存在Warburg效应,肿瘤细胞需要消耗大
学位