基于机器学习的职业编码方法研究

来源 :东北财经大学 | 被引量 : 0次 | 上传用户:chezhenmen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在如今的社会调查中,职业几乎成为必然采集的信息且样本量通常是非常大的,但是对职业进行编码是一个较为复杂的过程。在如今国内的大型社会调查中,通常会选择开放式问题对受访者进行提问,获取原始回答文本后,由专业编码人员对这些原始回答文本进行人工编码,但是人工编码的成本很高并且需要耗费大量时间。本文基于CLDS2014和CLDS2016数据集中的职业原始回答文本数据,测试了 XGBoost、逻辑回归以及Bert这三种机器学习算法在中文职业编码上的表现。Bert模型是近些年由谷歌新提出的自然语言处理语言模型,在很多自然语言处理任务中都显示出了良好的能力,这是该模型在中文职业编码上的首次尝试。本文的研究目的在于通过使用基于机器学习算法的文本分类技术实现中文职业描述自动化编码,对比不同机器学习算法的性能,从而解决在我国社会调查研究中,职业编码存在的成本高以及效率低的问题。本文首先对研究背景进行了论述,之后整理分析国内外在职业编码上的研究现状,从中获得研究方向和思路,确定研究方法,针对文本分类技术,阐述了中文文本分词和预处理技术以及文本特征提取的两种方法,最后介绍了本文选用的XGBoost、逻辑回归以及Bert这三种模型的基本原理。在实证分析部分,主要是通过三种机器学习编码器对职业原始回答文本进行自动编码,分别得出两种传统机器学习编码器使用不同文本特征提取工具的编码结果以及全部编码器在不同职业类别粒度上的编码结果,最后尝试通过降低模型编码率来提升模型的编码精确度。通过研究确定了两种传统机器学习分类器“XGBoost”和“逻辑回归”以及深度学习分类器“Bert”对中文职业原始回答文本进行编码是可行的。通过使用不同特征提取方法的编码结果得出,XGBoost算法使用TF-IDF模型时可以发挥出最大性能,而逻辑回归算法则需要使用词袋模型才能发挥出最大性能。对三种模型最优结果对比可以得知,Bert模型在不同编码粒度上的编码效果均是优于其他两个模型的,在职业细类编码上Bert模型的编码精确度达到0.849。最后通过引入阈值来降低模型生产率可以看出,该方法对提高模型编码精确度有显著帮助,当模型生产率降至0.7时,三种模型在职业细类上的编码精确度均可以提升到0.96以上,因此在实际编码工作中,使用自动编码与人工编码相结合的形式是可行的。虽然建立的编码模型总体编码效果较高,但是本研究也有一定的不足:(1)由于客观因素的限制,本文获取的数据并没有覆盖标准编码表中的全部职业类别,因此构建的模型无法在全部类别上对新文本进行编码。(2)本文只是主观的选择了其他两种传统机器学习模型,而没有选择过多的深度学习模型,无法获得Bert模型与其他深度学习模型的性能对比。本文的主要贡献在于:(1)首次尝试利用Bert模型对中文职业描述文本进行编码,获得编码效果。(2)对比了词袋模型与TF-IDF模型这两种文本特征提取方法在职业编码领域的应用效果。(3)对比了多种机器学习算法在职业编码工作中的优劣。(4)尝试通过降低模型生产率来提高模型编码精确度,为自动编码与人工编码相结合提供理论依据。
其他文献
流感病毒一直以来威胁着人类的生命健康,每年季节性流感流行可造成数以万计的感染患者甚至死亡。防治流感病毒的最有效方式是接种疫苗,而目前接种的流感疫苗均为毒株特异性的疫苗,经常与流行毒株发生抗原性错配,导致疫苗保护效力的大幅下降。因此,研发具有广谱保护力的通用流感疫苗是科研人员不断追求的目标。血凝素蛋白(HA)是流感病毒表面最重要的糖蛋白,其头部区易突变,茎部区相对保守,因此,血凝素茎部区蛋白成为研究
学位
自改革开放以来,特别是1984年到2014年我国的经济增长迅猛,随着国民的生活日渐佳境,很多家庭都积累了 一定财富,“风险”、“收益”、“财富管理”、“养老”这些词越来越频繁的被提起。我国商业保险也随之相应的得到了发展。北美和西欧早已建立了完备高效的保险体系,保险业的发展在这些国家稳扎稳打,人们对保险公司的信任度很高,与之相对我国保险公司的运营模式从一开始就是“大刀阔斧”式的。抢占市场满足短期利益
学位
随着消费观念与信贷模式的转变,在汽车金融领域,汽车融资租赁公司通过融资租赁的方式为消费者提供汽车融资租赁融资的模式逐渐增多,汽车融资租赁公司产生了大量的资金需求。在此前提下保理公司通过应收账款保理的方式,可以有效的为汽车融资租赁公司提供融资。虽然目前许多汽车融资租赁公司已经将保理融资作为主要的要融资方式,但目前仍然有许多保理公司对此种业务模式不熟悉,不愿意开展汽车金融类的保理业务。其主要原因是对此
学位
就业是现代社会生活中一个非常重要的问题,是民生之本,一个国家的安国之策,也是一家人赖以生存的重要途径。“中国特色社会主义进入了新时代,我国经济发展也进入了新时代,基本特征是我国经济已由高速增长阶段转向高质量发展阶段”。高质量就业既是高质量发展的应有之义,也是其重要内容。随着户籍制度的放开,人口流动越来越活跃,成为人口特征中常见而特殊的形式,流动群体的增加带来的问题也越来越多,就业问题首当其冲。从流
学位
疟疾是疟原虫感染导致的以雌性按蚊为媒介的传染病。疟原虫是顶复亚门寄生性单细胞真核原生动物,在雌性按蚊和脊椎动物宿主之间交替寄生。疟原虫基因组已经测序,但是绝大多数基因功能未知。疟原虫红细胞期发育必需基因的功能研究,是现阶段的难点。AID(Auxin-inducibledegradation)是新近发展的依赖于植物生长素(Auxin)的蛋白诱导降解系统,已经成功应用在酵母、鸡、鼠、猴和人细胞系的内源
学位
高级脊椎动物都进化有支持体液循环的循环管道系统,主要包括血管和淋巴管系统,它们分别支持血液和淋巴液循环。之前研究发现神经导向分子系统Netrinl/UNC5B对血管系统发育有重要调控作用,近年来我们实验室通过原位杂交在鸡胚和斑马鱼中发现UNC5受体家族的另一个成员UNC5C在循环管道系统内皮细胞表达,并关注到相对于主要在动脉内皮细胞表达的UNC5B,UNC5C更倾向于在静脉和淋巴管内皮细胞表达。由
学位
近年来,中国的经济一直在快速增长,随着这种增长,对能源的需求也在不断增加。中国作为全球经济增长的主要驱动力,目前仍处于能源需求和消费不断增长的阶段,而能源消费的过程不可避免地导致环境污染。如何减少污染,提高能源利用效率,是一项亟待解决的问题。“十三五”时期是山西省深化改革和资源型经济发展的关键时期,同时也是应对关键环境挑战、推动环境历史性变革的关键时期。提高全要素能源效率也是“十四五”时期的工作重
学位
研究背景自新型冠状病毒肺炎(the novel coronavirus disease 2019,COVID-19)暴发以来,截止到2021年3月,全球累计确诊病例数已超过1亿,其中死亡病例数已超过200万。COVID-19的全球大流行趋势带来了非常严重的健康危机,也给全球公共卫生领域带来巨大挑战,对世界经济造成严重影响。为控制COVID-19流行,世界各国实施了不同的防控措施,中国通过严格执行各
学位
乳腺癌不但是女性最常见的恶性肿瘤,也是女性因癌死亡的头号杀手。虽然传统的手术治疗、放疗、化疗和内分泌治疗已经广泛应用于临床,但仍有肿瘤复发与转移的发生。近年来,随着肿瘤免疫逃逸机制在肿瘤发生、发展认识的加深,以及机体内环境参与免疫监视和免疫杀伤的效应性免疫细胞、细胞因子以及表面分子认识的加深,人们对于乳腺癌肿瘤免疫治疗的探讨成为该领域前沿课题。我们前期的研究中发现乳腺癌患者的外周血中,Th9细胞的
学位
旋毛虫是一种在世界范围内广泛分布的线虫,寄生于宿主可引起严重的疾病甚至死亡。当前对旋毛虫的研究大多集中在其排泄分泌物上,具有免疫原性的排泄分泌物能够使宿主的免疫保护加强,从而具有开发成疫苗的潜在价值。旋毛虫表达的巨噬细胞迁移抑制因子(TsMIF)是一种分泌蛋白,其在炎症、肿瘤和抗寄生虫感染等方面的中枢调节作用使其具有较深的探究价值。我们从旋毛虫中获得TsMIF基因,通过LIC连接方式构建了 TsM
学位