论文部分内容阅读
受全球经济环境不良影响,我国经济增速放缓,国内外需求下降,而高校毕业生数量仍逐年增加,导致就业竞争日趋激烈。现行传统招聘就业模式存在招聘企业和求职者之间供需不匹配、信息不对称的突出问题。这一问题直接导致了,求职者对企业招聘信息不清楚,对自己能力认知不明确,四处碰壁效率低下;招聘企业对求职者频繁面试,却找不到合适人选,消耗了时间成本仍流失部分优质人力资源的现象时有发生。当下爆发的新冠肺炎疫情更是对高校毕业生就业造成巨大挑战,线下招聘活动停止,众多毕业生求职受阻。现有的线上求职招聘平台存在信息过载导致的缺乏较精准推荐、忽视用户数据隐私安全等问题。针对上述问题,本文基于数据挖掘与隐私保护技术,提出了一种基于熵值加权法的可分级匿名化人力资源数据处理方案和一种基于属性加权相似度聚类算法的人力资源双向推荐方案,并设计了一种面向高校招聘就业领域的人力资源双向推荐系统(HBRS)。论文的主要贡献如下:(1)提出了一种基于熵值加权法的可分级匿名化人力资源数据处理方案:该方案目的是通过以下两个模块对收集到的人力资源数据进行处理,使处理后的数据可用于HBRS进行更有效的计算,并且通过分级匿名化模型解决不同程度的隐私数据安全问题。具体地,对于熵值加权法模块,首先提出了一种基于熵值加权法的数据标准化和向量化方法;然后通过聚类效果评价指标,验证了经熵值加权法处理后的数据在聚类分析时效果优于未处理数据。对于分级匿名化模块,首先提出了一种适用于数据发布的(k,l)-联合匿名分级保护模型,该模型可供用户通过改变隐私保护度来实现个性化安全防护;然后通过两个实验对相关模型的运行时间和信息损失度进行了对比分析,验证了添加隐私保护度的意义。(2)提出了一种基于属性加权相似度聚类算法的人力资源双向推荐方案:该方案目的是通过以下两个模块实现对人力资源数据更合理的挖掘分析,通过有效的挖掘结果与适当的推荐算法实现双向推荐。具体地,对于数据挖掘模块,首先提出基于改进K-means质心选取算法的数据聚类模型(ICSA),该模型使用改进算法来替代原算法初始化随机选取质心的步骤,以避免出现局部最优问题;然后提出基于改进加权Cosine Similarity算法的数据相似度计算模型(IWSA),该模型运用上述熵值法计算各属性权值,并在相似度计算中引入权重系数使该计算更合理化;最后通过三个实验,对比分析肘部法、轮廓系数法和DB指标法的聚类效果,验证了DB指标法更适合HBRS数据,同时通过DB指标的收敛来确定最佳聚类数目k值。对于双向推荐模块,该模块提出面向就业方的基于内容的推荐算法推荐模型(EO-CB)和面向招聘方的基于物品的协同过滤推荐算法推荐模型(RO-ItemCF)两个模型,组成双向推荐模型。(3)设计了一种面向高校招聘就业领域的人力资源双向推荐系统:该系统包含学生登录端、企业登录端和大数据展示端三个界面。具体地,学生登录端:供高校在应届毕业生招聘与就业时,对毕业生进行精准推荐来提高就业率;企业登录端:供招聘企业对在校毕业生优势资源进行有效筛选;大数据展示端:实现数据可视化,可供校方就业办或政府相关部门,监控行情,做出科学决策,及早采取应对措施,应用范围较广。最后通过引入推荐准确率P和推荐召回排名指数F两种指标,证明了该双向推荐系统的有效性。