基于集成学习的服刑人员再犯风险评估研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:bqayxgflx1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
再犯风险评估指的是对具有既往犯罪史的社会成员的再犯罪可能性的分析,目前监狱中对服刑人员出狱后的再犯风险评估技术主要以精算式的量表分析为主。量表分析通过收集服刑人员的临床指标、改造信息和一部分既往史,结合专家经验和统计分析结果给每个属性添加权重值和基础分数,所有属性得分相加即为最终衡量再犯风险的评价指标。由于量表式的评估方法严重依赖于专家经验和主观观测,其评估结果的客观性较差,并且难以进行海量数据处理和复杂分析,因此寻找一种客观性强且能充分发现数据中隐藏关系的方法成为了该领域的研究重点。近几年,随着信息技术的飞速发展,机器学习(Machine Learning)开始逐渐应用于犯罪预测领域,利用机器学习方法对服刑人员进行再犯风险评估也成为了该领域的一个热门话题。目前机器学习方法在再犯风险评估领域的发展仍然存在许多限制。首先是机器学习方法对数据质量和数量的要求较高,而监狱管理系统中的数据多为手工录入的原始数据,无法直接应用于模型训练。其次,当前基于机器学习模型的再犯风险评估方法使用的都是一些基础分类模型,这些模型仅能针对单一类型数据进行浅层的学习,无法进行多类型数据多通道的学习,也无法作为子模块嵌入到其他同类型的任务中。同时,服刑人员再犯风险数据集属于表格数据(Tabular Data)的一种,即以表格形式存储的值为连续变量或类别变量的数据。目前针对表格数据的主要处理方法都是将类别特征和连续特征分开处理,忽略了特征间的空间信息和全局信息,无法对数据进行充分的利用。针对以上问题,本文基于深度学习方法在表格数据中的应用和机器学习模型在再犯风险评估领域的应用两个方面展开了研究,并在此基础上提出了基于多种注意力机制的表格式多层感知机网络(Attention-based Tabular MLP,ATabMLP)和基于集成学习方法的再犯风险评估算法。本文的主要工作集中在以下三个方面:(1)针对传统表格数据模型无法有效利用空间信息的问题,通过引入基于Attention机制的Transformer模块和gMLP模块,并且在传统MLP(Multilayer Perceptron)结构中添加Self-Attention的方式,解决原有模型无法充分提取全局信息的问题。经过在公开数据集上的对比实验和消融实验分析后,发现以多种Attention机制相结合为基础的深度多层感知机网络效果较为突出,在所有测试数据集上的平均AUC(Area Under Curve)值达到了 0.853,超过了同类型的两个基线模型。(2)针对当前再犯风险评估使用基础分类模型难以有效提取数据间隐藏信息和无法进行多通道学习的问题,通过集成学习算法中的Stacking方法将本文提出的ATabMLP模型和逻辑回归、随机森林、梯度提升决策树、XGBoost(Extreme Gradient Boosting)等传统分类模型进行融合,提出了基于集成学习方法的再犯风险评估算法,最终模型AUC值为0.835,与单一模型的最优结果相比仍然获得了一定程度的平均增益效果。(3)针对原有管理系统中数据质量较低的问题,利用本文提出的再犯风险评估算法构建了再犯风险评估系统,系统包括数据管理、模型训练和评估管理三个主要模块。一方面可以通过对数据进行统一处理的方式解决数据质量问题;另一方面,工作人员在使用系统的模型评估和训练功能时,可以对模型的评估效果和数据内容做出反馈,可以有效地促进模型的研究和应用工作。
其他文献
2010年凭借长篇小说《自由》,乔纳森·弗兰岑荣登美国《时代》杂志封面,被誉为“伟大的美国小说家”。《自由》着眼于书写最普通,也最典型的美国中产阶级白人家庭伯格兰德一家的家庭生活,以最能够代表广大民众的人物群像融于波澜壮阔的时代中,绘制了一幅当代美国社会鲜活而深刻的画卷。弗兰岑的作品多聚焦于美国主流中产阶级白人男性,然而,从叙事视角来切入,却发现《自由》的目光更多是聚焦于女主角帕蒂,不论是小说的伊
学位
莫斯科概念主义通常被称为“俄罗斯第二个先锋主义”,在俄罗斯当代文学,尤其是后现代文学中具有十分重要的地位。它既继承发展最早的后现代文学流派,又开创新后现代文学分支,具有承上启下的衔接作用。弗拉基米尔·格奥尔基耶维奇·索罗金(Сорокина В.Г.),俄罗斯著名后现代主义小说家、剧作家、俄罗斯概念派艺术主要代表人物。索罗金作品中充满荒诞、怪异和情色等元素以及新颖解构手法,受到广泛关注,是后现代主
学位
为探讨宁南山区骆驼林流域水源涵养林条件下降水-土壤水-径流之间的水分转化规律,选取宁南山区骆驼林流域水源涵养林为研究区域,以近50年宁南山区降水规律和研究区土壤物理性质为基础,运用氢、氧同位素和水量平衡原理等方法,初步探究了该地区“三水”之间的转化规律,以期为宁南山区的水循环理论及水分利用提供理论依据。主要结论如下:(1)近50年宁南山区降水主要集中在6-9月份,全年降水呈单锋形式。年降水量线性变
学位
本文以《三千里》为中心,分析了1930年代朝鲜文人的中国体验纪行文。作为月刊综合杂志发行的《三千里》几乎是唯一一部结合1930年代始末发行的大众综合杂志,包含了1930年代朝鲜的社会和文化等多方面的变化。《三千里》还介绍了反映大众关心的各种信息,特别是朝鲜知识分子在中国的体验形态。因此,《三千里》可以说是能够了解当时朝鲜人对中国的认识水平和通过中国旅行了解殖民地人的内心意识的代表性媒体,并且《三千
学位
《竹取物语》作为日本民间文学的代表性作品,是中日民间文学比较研究的典型案例。《竹取物语》大约成书于大陆文化向国风文化的转型时期,其内容吸收了大量的中国元素。首先,《竹取物语》主要由化生谭、求婚难题谭以及羽衣传说三大母题组成,而这三大故事类型在中国神话以及民间传说中均可得见。尤其在主人公形象、中国文化符号的运用以及故事中体现出的中国思想等方面说明了《竹取物语》对中国文化有着较为全面的继承。与此同时,
学位
二十世纪二三十年代,在西方思想的冲击下,越南汉学逐渐走向末路。然而,越南知识分子对汉学的研究和讨论并未停歇。《南风杂志》主编范琼坚持重新认识和运用汉学,通过扬弃汉学、吸收西学和突出喃文化角色,实现构建国学的文化目标和建立国家的政治目标。汉学思想在他的整体思想体系中起阐释和论证的作用,对后世越南文化和学术发展具有一定的启示意义。在第一章序论的基础上,本文试通过三个章节全面认知范琼的汉学思想,介绍其形
学位
在中国传教期间,利玛窦根据不同需求和文化语境,构建了其自我形象。首先,在罗明坚的指导下,“西僧”形象为其在中国内陆居住提供了方便,但是,最终因僧人的地位低下而中止。西僧形象的终结,反映了传教士初入中国的艰难处境。其次,利玛窦在耶儒文化交流中做了积极地补充与调和,展开了中西方异质文化的对话:阐释儒家经典,使用“科技传教”。“西儒”成为他传教时运用的新形象。第三,利玛窦主动塑造异于中国传统儒生的“畸人
学位
尽管与妇女、和平与安全议程相关的研究在不断发展,但仅有一小部分注意到了与宗教信仰变量对议程执行所产生的影响。规范扩散研究表明,国际性别规范在扩散中将与本土性别价值观产生冲突,而妇女、和平与安全议程的贯彻又倚赖于本土性别价值观念的改善。基于此,本文试图从世俗化的角度入手,探究宗教价值观的衰退能否促进妇女、和平与安全议程执行,以及如何促进议程执行。借助自由主义女权主义的理论框架,本文选择了27个欧盟成
学位
作为活跃于明治、大正时期的文学家,森鸥外在日本文坛占据重要地位。他在二十余年的写作生涯中,发表了颇有人气的《舞姬》《雁》等作品。作品当中的女性形象更是多姿多彩,是森鸥外文学中极为重要的组成部分。本论文立足于先行研究,将森鸥外对于中国明清小说的接受纳入考虑范畴,基于中国明清小说中的女性形象如何投影于森鸥外创作之中的问题意识,重新解读其文学作品中的女性形象。在本论文第一章节中,通过对森鸥外的汉学素养和
学位
身体意象是大学生心理健康的重要因素,也是促进大学生体育锻炼行为的关键心理变量。因此,本研究从身体意象和体育锻炼行为角度出发,探究身体意象对大学体育锻炼行为的影响关系及具体影响路径。本文的理论基础是自我增强理论、计划行为理论和自我效能理论,调查对象为山东省七所高校:临沂大学、曲阜师范大学、聊城大学、青岛大学、山东理工大学、山东大学和菏泽学院的在校大学生,共计发放了调查问卷1240份,回收有效问卷11
学位