论文部分内容阅读
未成年人犯罪情况日趋严重,以往的研究只是简单的分析了容易导致未成年人犯罪的几点因素,并没有按照所犯案件的类别进行分类研究,没有深层次的去研究哪些因素更容易导致未成年人犯何种罪行。按照所犯的罪行不同去分析导致犯罪的原因,这样对于司法工作者来说可以更好对罪犯进行分类教育,提高罪犯的改造效率,减少狱内犯罪;对于学校的教育工作者和家长来说也可以更有针对性的引导青少年健康成长。本文针对未成年犯的数据分析的要求,建立数据挖掘原型系统,希望从大量的罪犯信息中分别找出影响不同罪行的因素,并将其应用到实际中。本课题构造了—个未成年罪犯的罪行成因数据挖掘模型,该模型结合了男性未成年犯的实际数据,运用数据挖掘中的决策树方法建立有关未成年犯信息的一棵决策树。该模型所要达到的目的就是针对未成年犯的所犯罪行成因问题,利用决策树中的C4.5算法将未成年犯进行分类,即将犯侵财型犯罪、暴力型犯罪和淫欲型犯罪的未成年犯的特征都挖掘出来各分为一类;每一个分类都有N个规则,说明了犯不同罪行的未成年犯有N个不同的类型特征;每一个规则又表明了影响青少年犯这种罪行的几种关键属性特征,比如家庭环境,心理健康,生活方式等。同时,作为本文的创新点,针对C4.5算法在对连续值属性进行离散化处理时需要计算所有潜在划分的信息增益,因此在算法时间复杂度方面存在一定的局限性以及不具备增量式学习能力这两个缺点做出了改进。对于第一个缺点,基于Fayyad边界判定定理,提出了一种改进最优阈值的选择方法,提高了算法的执行效率;对于第二个问题,本文在改造树结构体的基础上提出了C4.5增量学习的改进方法,更加适应未成年犯数据分析特点的需要。本文利用VB语言将此模型程序化,开发了具有系统登陆模块、数据管理模块、罪行成因挖掘模块、用户管理模块、数据库管理模块的未成年人犯罪成因数据挖掘系统。本系统选择了山东省未成年犯管教所的罪犯信息作为数据来源,通过对数据进行预处理与分析,挖掘出了一系列相应的规则。然后对规则进行有效性测试,最终说明挖掘结果合理,系统性能良好。