基于N-Gram提取特征词典的职业编码研究

来源 :东北财经大学 | 被引量 : 0次 | 上传用户:suibianlaila
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着国内对社会经济信息的注重加强,使得社会调查业在中国得到蓬勃发展,个人职业情况几乎是每个调查中一定要采集的信息。研究职业编码是人口调查工作中的重要环节,关系到整个人口调查数据的质量水平。因此,想要短时间内高质量的完成普查,职业编码自动化就显得尤为重要。推进智能编码,让职业编码可以更大比例的自动化,可以解放出一部分劳动力去处理在编码时遇到的配合度不高、表述不完整这类的问题。基于上述原因,职业编码自动化已然成为目前互联网分类和机器学习的一个热点研究方向。现有目前关于职业的分类问题更加倾向于机器学习的方法,而词典也更多用于情感分类,而本文主要将职业自动编码转化为文本分类问题的一种,提供一种新的方法研究职业编码分类。针对以上的研究目的,本文采用以N-Gram的方式构建职业词典,实现对职业编码分类;并用Logsitic回归分析来进一步对于建立词典的职业编码分类与编码员编码一致性分析,并根据其影响因素提出相关建议,得到词典在职业大类和职业小类中的准确率和召回率的质量评价。本文介绍了以N-Gram构建职业编码词典的方法,并将该种方法应用于2014年、2016年的中国劳动力动态调查(CLDS)数据中。根据受访者本身所给的职业信息描述,运用N-Gram方法提取特征值,并结合维度的考量,将N的取值范围定位1或2。要让特征信息具备分类的特性,或者达到一定的辨识度,则需要其在职业文本中频度高、分散大,并且在文本集中的集中度强。本文通过增加约束条件,增加特征信息得分辨度:即将得到的特征值中设置频度和分散度均大于5才可以选入词典。再对基于上述做法的N-Gram构建的词典关于职业分类效果进行评估。实验表明,Bigram提取特征构建的词典要比Unigram提取特征构建的词典无论在职业大类还是在职业细类的划分中都有很好的表现能力,并且Bigram提取特征词构建的词典在职业大类上的准确率达到70%以上;在职业细类上的准确率达到50%以上。在应用Bigram特征提取构建完对应的词典后,探讨职业词典自动编码分类与编码员职业编码间的一致性分析。本文主要将影响因素分为三类:一类为访员的自身因素,一类为受访员的职业和行业信息,一类是不同职业大类之间的差异程度。在三类影响因素中找出7个指标,从而构建出16个解释变量,运用Logistic回归分析影响职业词典自动编码分类与编码员职业编码间的一致性分析,再应用ROC曲线和AUC进行验证该Logistic回归的可行性。实验得出初步的结论:在职业大类的划分上,受访员的职业和行业信息有关键性作用,包含信息越多,自动编码与编码员编码结果的一致可能性就越高;然而在进行更为精细的职业编码时,访员的一些自身因素也会产生一定影响,受教育程度会使得词典编码与编码员编码间的一致性更高。本文提出了一种基于N-Gram方法构建职业词典来进行职业编码分类,将其转变为解决文本分类中的高维度的特征空间问题,得到的词典不仅与职业类别有较高的相似性,也能在文本分类中起着关键作用。实验结果表明该方法是可行并且有效的。再利用Logistic回归对多因素进行分析不平衡的数据,将变量进行拆解,为建立的词典更加贴近访员编制的职业编码一致性提供合理方向。本文使用的数据来源于中国劳动力动态调查(CLDS)中的数据,该调查数据中涉及到的职业信息以及编码并不是整体的职业信息,覆盖范围以及样本数量有限。此外,本文的另一个不足之处还在于用未经编辑的原始数据来创建字典,并将新数据与字典匹配。导致一些错别字或者同义词被输入到字典中,虽然N-Gram数据平滑可以解决这类问题,但是当未出现的分词占据了很大比例,词典的分类就有待商榷,这可能意味着或将同义词组合成字典条目。
其他文献
学位
新时代高校党建带团建工作的开展可以充分发挥党团联动的优势,在坚持党组织领导地位的前提下提升团建工作质量。但在具体党建带团建过程中,部分高校未对党建带团建这一优良传统予以高度重视,党团之间工作配合机制与评价体系不完善、相关活动中党团之间配合有待优化等问题影响了高校党团工作的顺利开展。对此,高校应提升对党建带团建工作的重视程度,完善党建带团建工作机制,优化相关活动开展中的党团配合,健全党建带团建背景下
期刊
学位
建设工程保修是各国为了保证建设工程质量普遍采取的一项制度,我国虽然在《建筑法》、《建设工程质量管理条例》、《房屋建筑工程质量保修办法》中对建设工程保修制度作了具体规定,但保修制度本身存在诸多问题。例如:保修期与缺陷责任期混淆、保修金和保修期限规定不科学、保修责任主体规定不明确等。通过对保修制度的相关法律规定进行深入剖析以及学习国外先进的建设工程保证制度和建设工程保险制度为我国的保修制度提出设立保修
学位
2020年,习近平主席于第七十五届联合国代表大会上提出中国力争于2030前实现二氧化碳排放量达到峰值,于2060年实现碳中和的目标。绿色是中国经济高质量发展的底色,构建完善的绿色金融体系刻不容缓,绿色债券作为绿色金融产品的重要组成部分,应该充分挖掘其优势和效应并对该金融产品进行完善,从而推动资本向绿色产业流动并助力实现产业绿色转型的目标。本文以北京清新环境股份有限公司发行的两笔绿色债券为研究对象,
学位
随着现代工业的飞速发展,对材料的性能要求越来越高。从国内外研究趋势来看,细化材料的晶粒有利于提高其性能,纯铜和Ta-2.5W合金作为装备制造业的关键材料,其性能优劣将决定应用效果。目前,材料的晶粒细化方式往往是先对其进行塑性变形,随后进行退火来完成的。一般,塑性变形方式有轧制、镦粗、挤压等。本文拟采用室温压缩的塑性变形方式结合退火工艺探究出一条简单、高效的方法,借助扫描电子显微镜、EBSD、XRD
学位
近年来,以分布式信息系统、新型人工智能以及大数据分析技术为典型代表的新型金融技术在全球范围内迅速蓬勃发展和广泛普及,其在资本市场、商业银行、支付结算系统等领域的成功运用,激活并释放了“金融+科技”的生命力,金融技术因而更加吸引国内外金融界的关注。当前科技创新速度加快,金融服务技术的持续开发与提高,各类新兴金融服务技术也是层出不穷,炙手可热的金融服务技术在为金融领域带来新活力的同时,也在潜移默化地改
学位
“十四五规划”中提出新型基础设施建设要强化数字转型、智能升级、融合创新支撑。移动通信网络作为新时代新型基础设施中至关重要的一环,对社会发展与人民生活中起着重要作用。在新时代的背景下,移动通信网络建设不仅要服务于现有互联网,更要用创新的精神带动互联网及相关产业的发展。2019年工信部向我国四个通信运营商颁布第五代移动通信网络(5G)商用牌照意味着5G正式步入商用阶段。在商用阶段,如何去准确衡量5G项
学位
随着移动互联网等多种新技术的飞速创新发展以及共享经济思想的不断渗透,以移动互联网终端为内容媒介、整合大量闲置房源的共享住宿行业得到迅速发展。相比较于传统的公寓酒店行业,共享住宿平台上房源的相对独特性以及房东的明显异质性使得房东难以对自身房屋的价格作出合理估计,以往大多是类比酒店行业的定价去研究共享住宿行业的定价问题,采用传统的线性回归模型进行共享住宿日租价格的预测。而随着计算机算力的不断提升和机器
学位
从2015-2060年,我国人口年龄结构逐步出现了快速增长、比重持续上升的态势,并且老龄化程度已经远远超过世界各国。当前,随着我国人口平均寿命的持续增加,加之长期的低出生率和人口年龄的动态累积效应,我们可以清楚的看到,现阶段我国已步入老龄化社会。在这样的背景之下,我国的青壮年人口极有可能出现断崖式下降的局面。就目前的情况而言,老年人口的成长率将远远低于青年劳动年龄人口的减少,这将给传统的家庭养老方
学位