浅析决策树对犯罪风险程度的预测

来源 :科技风 | 被引量 : 0次 | 上传用户:woshihanxue
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:简单介绍利用决策树对一个犯罪嫌疑人的犯罪行为程度进行分析,挖掘相应数据,理出一个较可行的方式和模型,实现对犯罪风险程度的预测。
  关键词:决策树;数据整合与挖掘;犯罪预测
  中图分类号:TP18
  1 绪论
  随着信息化时代的到来,大数据、云计算、机器学习等科学技术不断得到发展与完善,各个行业的技术均离不开信息化建设的支持。在信息化社会背景下,公安应用也在不断改革。这一新的趋势促使公安工作在大数据的环境下不断挖掘、不断运用。为提高公安情报工作,公安部门应加强数据的整合与挖掘。传统的警情研判、对犯罪人的预测,是通过人力队海量数据进行整合分析,这样耗费了大量警力资源。所以,警务改革应针对情报分析方向的技术加以深层次的研究,打造一个良好的、有效率的、适应当下环境的综合运用系统。目前在该领域,相关部门已经建设相应的信息数据平台,但对信息的处理仅仅还停留在查询、统计、更新,对处理完的案件进行更新储存,便于以后查询,分析层次极其欠缺。好比基层公安机关的警情分析系统都是基于C/S模式,得出的结果大多是复杂的报表数据,警综平台就是一个鲜明的例子。但这些复杂的数据中,隐含着许多未被利用且被忽略的数据信息,所以需要结合公安多方面的应用,将数据进行整合和挖掘,基于决策树进行数据分析,建立数据仓库,总和数据记录,好比大量的犯罪行为记录,发现其犯罪规律、趋势、犯罪行为之间的联系以及诱发状态,从而实现对犯罪程度的预测。
  2 犯罪行为
  决犯罪行为是犯罪人所实施的违反刑法规定构成犯罪的行为。是刑法学中犯罪构成的基础和行为人承担刑事责任的根据。它是一个犯罪心理演变的过程,最主要的就是犯罪嫌疑人的犯罪动机。如果能提前准确地对其进行预测,就能在犯罪嫌疑人将要进行犯罪前阻止其一切行动。
  3 决策树
  决策树(decision tree)是一类常见的机器学习方法,目的是为了产生一棵泛化能力强,即处理未见示例能力强的决策树。决策树的生成是一个递归的过程。
  (1)决策树算法。决策树算法是数据挖掘技术中用来分类、预测的一种算法。在决策树的基本算法中,有三种情况会导致递归返回:①当前节点包含的样本全属于同一类别,无需划分;②当前属性集为空,或是所有样本在所有属性上取值相同,无法划分;③当前节点包含的样本集为空,不能划分。它的树形结构模型,在分类问题中,表示基于特征队数据进行分类的过程,可以认为是if-then规则的集合,每个内部节点表示在属性上的一个测试,每个分支代表一个测试输出,每个叶节点代表一种类别。
  4 决策树下犯罪风险中的应用
  (1)模拟信息表。为了有效说明问题,我们给出少许的虚拟数据,进行综合处理得出一个数据表。首先进行数据预处理:可将已知信息,按有年龄、文化程度、经济情况、有无固定职业、有无犯罪记录、违法次数、犯罪程度等分类,进行标记,生成枝叶,将每个节点数据综合整理,形成模拟信息表。
  (2)基于ID3的决策树模型。由于虚拟数据内容不够详细,分析程度和分类知识的获取仍然未达到理想状态。如果项目和记录次数较多,则决策树的分枝和层次将非常庞大。当然,在实际应用中,分析的数据和项目越多,得出的挖掘知识就更可信,更具有价值。这只是一个简单的粗层次分类模型,想做到良好的、可靠的分析模型,我们应在大数据基础上,采集并挖掘更多的有效数据,并结合犯罪分析的专业知识,从作案对象、手段特点、作案工具、作案时间、作案场所、专长等特征具体加以分析,这将会是一个很有意义的分析模型,采用的是ID3算法生成的决策树模型,这个算法的特点是使用信息增益来选择特征。
  (3)分支顺序。我们依然可以采用一种递归生成算法,依据的是分支顺序。算法基本流程是:创建一个新的节点N,如果虚拟数据样本在其它的同类,就使算法中的N标位叶节点,如果样本其他的分枝为空值,并标位普通类,选择样本分枝中具有最高信息增益属性,为其对应已知的数值,再从节点N选出其分枝,在几何中进行增加叶节点与节点,最后得出最终值。在决策树每个节点上用信息增益熵来进行选择,简称分枝优选。这一种递归算法可以通过在样本中的,选择最大熵的列作为当前节点的决策,进行层层筛选而得出最小属性值。该属性值就能判断测犯罪嫌疑人的犯罪程度大小,从而预测犯罪风险程度,如此构造了一个相对比较简单的树和模型。
  5 结语
  利用决策树算法的技术形成时间并不长远,在我国内各方面领域上,能使用的并不占多数,仅仅局限在商业服务中,而且能成功运用的少之又少。如果放在犯罪风险预测上,那是一个非常有意义的应用。基于决策树的犯罪风险预测模型对于公安系统的运用中,能够以最快速度的、高效率的提前预测犯罪嫌疑人的犯罪行为以及犯罪风险程度,这样能够在警综平台上有效地减少人工成本,对于信息化作战中提供了良好的作战准备及保护措施。无法预测到犯罪风险的大小,民警们就很难保护公民们的安全,更难处理意外之事。本文通过对虚拟数据的挖掘,提供了一个较为合理的决策模式,采取这种最低级别的模式,得出一些具有参考价值的的分析结论,能够对公安业务起到推进作用,提供了一个良好的发展方向。
  参考文献:
  [1]刘美玲.基于数据挖掘的决策树算法研究及应用探讨[D].上海:华东理工大学,2009.
  [2]卢东标.基于决策树挖掘算法研究与应用[D].武汉:武汉理工大学,2008.
  [3]庄卿卿.一种改进的ID3算法[J].现代计算机(专业版),2009,32(3):37-41.
  [4]陆秋.基于决策树ID3算法的数据挖掘技术研究与应用.桂林:桂林工学院 桂林理工大学,2007.
  [5]王珊.數据仓库技术与联机分析处理.科学出版社,1998.
  [6]Han Jiawei,Kamber M.Data Mining Concepts and Techniques.Morgan Kaufmann Publishers,Inc.,2001.
其他文献
摘要:随着深化改革的不断发展,对于当前农业科研院所各项工作提出了更高的要求。思想政治工作作为农业科研院所重要工作内容之一,积极的做好对科技人员的思想政治工作具有重要意义,能够在提升科技人员思想素质的同时,促进农业科研院所的进一步发展。本文首先概述了科研院所思想政治工作的重要性;其次分析了新时期农业科研院所科技人员思想政治工作现状;最后探讨了新时期农业科研院所做好科技人员思想政治工作的对策。  关键
全军第十三届血液学学术大会于2014年7月11-13日在兰州召开。本次会议由全军血液病专业委员会主办,兰州军区兰州总医院承办,共征集论文摘要273篇,专题报告16篇;大会由兰州军区兰
业界认为,服务是IT行业最具潜力的增长点。据IDC统计:96年到98年,全球服务业增长率基本保持在10%以上;亚太地区从97年开始增长率也快于前几年;中国的平均增长率在30%以上。但同
结核性脑膜炎是结核分枝杆菌引起的以脑膜为主的非化脓性炎症,是严重的肺外结核病[1]。近年来随着全球结核发病率的升高,我国成人结核发病率、致死率、致残率逐年提高。结核
中学学校体育课程是一门重要的公共基础课,对中学学生的体质健康具有重要的作用.中学体育课程开展内容是以普修为主,很少存在选修课程.因此,中学学生的体育课程开展特点主要
摘要:近年来,随着计算机网络的普及,网络游戏已经成为青少年主要娱乐方式之一。日本学者井深大曾说过:“游戏是孩子的第二生命,是孩子的第一所学校。”那么如何把游戏元素与教育结合起来,是当下值得深思的问题。本课题试从游戏教学入手,让孩子们在创设的虚拟情境中达到快乐学习的效果。  关键词:游戏教育 小学英语 虚拟现实  一、提出问题  通过查阅相关数据文献得出:小学生感知学习风格呈现出多样性趋势,他们最倾
高校大学生思想政治教育工作存在重分工,轻合作、重形式,轻实效、重事务,轻学习、重个体,轻集体等问题,而习总书记“空谈误国,实干兴邦”思想对如何强化高校大学生思想政治教育工作
1、研究对象业余乒乓球培训班10岁左右儿童40人,均未受过任何形式的乒乓球训练。2、研究方法分组及训练时间:20名儿童按其报名的班次平均分为A、B两组,每组20人。训练周期为15
脊索瘤主要发生于50~80岁,也有发生于青少年,通常发生于脊柱的两端。我院于2002-01~2011-01采用髂内动脉栓塞后手术切除肿瘤,术后结合放疗治疗原发性骶骨脊索瘤19例,取得较满意
通过对中职医学检验专业调研,开展依据中职医学检验专业职业岗位的任职要求的职业岗位能力培训,根据国家相关规定将职业岗位能力培训划为中职学生学习重点,将学生的基础知识和职业岗位能力充分结合一起,实现中职学生的全能化、一体化。  职业岗位能力中职医学检验专业课程体系一、前言  检验医学作为临床医学的重要组成部分,它集结着专业性强、发展速度快、严谨性高的专业特点,需要学生在实践及专业知识学习的阶段培养出高