论文部分内容阅读
摘 要:简单介绍利用决策树对一个犯罪嫌疑人的犯罪行为程度进行分析,挖掘相应数据,理出一个较可行的方式和模型,实现对犯罪风险程度的预测。
关键词:决策树;数据整合与挖掘;犯罪预测
中图分类号:TP18
1 绪论
随着信息化时代的到来,大数据、云计算、机器学习等科学技术不断得到发展与完善,各个行业的技术均离不开信息化建设的支持。在信息化社会背景下,公安应用也在不断改革。这一新的趋势促使公安工作在大数据的环境下不断挖掘、不断运用。为提高公安情报工作,公安部门应加强数据的整合与挖掘。传统的警情研判、对犯罪人的预测,是通过人力队海量数据进行整合分析,这样耗费了大量警力资源。所以,警务改革应针对情报分析方向的技术加以深层次的研究,打造一个良好的、有效率的、适应当下环境的综合运用系统。目前在该领域,相关部门已经建设相应的信息数据平台,但对信息的处理仅仅还停留在查询、统计、更新,对处理完的案件进行更新储存,便于以后查询,分析层次极其欠缺。好比基层公安机关的警情分析系统都是基于C/S模式,得出的结果大多是复杂的报表数据,警综平台就是一个鲜明的例子。但这些复杂的数据中,隐含着许多未被利用且被忽略的数据信息,所以需要结合公安多方面的应用,将数据进行整合和挖掘,基于决策树进行数据分析,建立数据仓库,总和数据记录,好比大量的犯罪行为记录,发现其犯罪规律、趋势、犯罪行为之间的联系以及诱发状态,从而实现对犯罪程度的预测。
2 犯罪行为
决犯罪行为是犯罪人所实施的违反刑法规定构成犯罪的行为。是刑法学中犯罪构成的基础和行为人承担刑事责任的根据。它是一个犯罪心理演变的过程,最主要的就是犯罪嫌疑人的犯罪动机。如果能提前准确地对其进行预测,就能在犯罪嫌疑人将要进行犯罪前阻止其一切行动。
3 决策树
决策树(decision tree)是一类常见的机器学习方法,目的是为了产生一棵泛化能力强,即处理未见示例能力强的决策树。决策树的生成是一个递归的过程。
(1)决策树算法。决策树算法是数据挖掘技术中用来分类、预测的一种算法。在决策树的基本算法中,有三种情况会导致递归返回:①当前节点包含的样本全属于同一类别,无需划分;②当前属性集为空,或是所有样本在所有属性上取值相同,无法划分;③当前节点包含的样本集为空,不能划分。它的树形结构模型,在分类问题中,表示基于特征队数据进行分类的过程,可以认为是if-then规则的集合,每个内部节点表示在属性上的一个测试,每个分支代表一个测试输出,每个叶节点代表一种类别。
4 决策树下犯罪风险中的应用
(1)模拟信息表。为了有效说明问题,我们给出少许的虚拟数据,进行综合处理得出一个数据表。首先进行数据预处理:可将已知信息,按有年龄、文化程度、经济情况、有无固定职业、有无犯罪记录、违法次数、犯罪程度等分类,进行标记,生成枝叶,将每个节点数据综合整理,形成模拟信息表。
(2)基于ID3的决策树模型。由于虚拟数据内容不够详细,分析程度和分类知识的获取仍然未达到理想状态。如果项目和记录次数较多,则决策树的分枝和层次将非常庞大。当然,在实际应用中,分析的数据和项目越多,得出的挖掘知识就更可信,更具有价值。这只是一个简单的粗层次分类模型,想做到良好的、可靠的分析模型,我们应在大数据基础上,采集并挖掘更多的有效数据,并结合犯罪分析的专业知识,从作案对象、手段特点、作案工具、作案时间、作案场所、专长等特征具体加以分析,这将会是一个很有意义的分析模型,采用的是ID3算法生成的决策树模型,这个算法的特点是使用信息增益来选择特征。
(3)分支顺序。我们依然可以采用一种递归生成算法,依据的是分支顺序。算法基本流程是:创建一个新的节点N,如果虚拟数据样本在其它的同类,就使算法中的N标位叶节点,如果样本其他的分枝为空值,并标位普通类,选择样本分枝中具有最高信息增益属性,为其对应已知的数值,再从节点N选出其分枝,在几何中进行增加叶节点与节点,最后得出最终值。在决策树每个节点上用信息增益熵来进行选择,简称分枝优选。这一种递归算法可以通过在样本中的,选择最大熵的列作为当前节点的决策,进行层层筛选而得出最小属性值。该属性值就能判断测犯罪嫌疑人的犯罪程度大小,从而预测犯罪风险程度,如此构造了一个相对比较简单的树和模型。
5 结语
利用决策树算法的技术形成时间并不长远,在我国内各方面领域上,能使用的并不占多数,仅仅局限在商业服务中,而且能成功运用的少之又少。如果放在犯罪风险预测上,那是一个非常有意义的应用。基于决策树的犯罪风险预测模型对于公安系统的运用中,能够以最快速度的、高效率的提前预测犯罪嫌疑人的犯罪行为以及犯罪风险程度,这样能够在警综平台上有效地减少人工成本,对于信息化作战中提供了良好的作战准备及保护措施。无法预测到犯罪风险的大小,民警们就很难保护公民们的安全,更难处理意外之事。本文通过对虚拟数据的挖掘,提供了一个较为合理的决策模式,采取这种最低级别的模式,得出一些具有参考价值的的分析结论,能够对公安业务起到推进作用,提供了一个良好的发展方向。
参考文献:
[1]刘美玲.基于数据挖掘的决策树算法研究及应用探讨[D].上海:华东理工大学,2009.
[2]卢东标.基于决策树挖掘算法研究与应用[D].武汉:武汉理工大学,2008.
[3]庄卿卿.一种改进的ID3算法[J].现代计算机(专业版),2009,32(3):37-41.
[4]陆秋.基于决策树ID3算法的数据挖掘技术研究与应用.桂林:桂林工学院 桂林理工大学,2007.
[5]王珊.數据仓库技术与联机分析处理.科学出版社,1998.
[6]Han Jiawei,Kamber M.Data Mining Concepts and Techniques.Morgan Kaufmann Publishers,Inc.,2001.
关键词:决策树;数据整合与挖掘;犯罪预测
中图分类号:TP18
1 绪论
随着信息化时代的到来,大数据、云计算、机器学习等科学技术不断得到发展与完善,各个行业的技术均离不开信息化建设的支持。在信息化社会背景下,公安应用也在不断改革。这一新的趋势促使公安工作在大数据的环境下不断挖掘、不断运用。为提高公安情报工作,公安部门应加强数据的整合与挖掘。传统的警情研判、对犯罪人的预测,是通过人力队海量数据进行整合分析,这样耗费了大量警力资源。所以,警务改革应针对情报分析方向的技术加以深层次的研究,打造一个良好的、有效率的、适应当下环境的综合运用系统。目前在该领域,相关部门已经建设相应的信息数据平台,但对信息的处理仅仅还停留在查询、统计、更新,对处理完的案件进行更新储存,便于以后查询,分析层次极其欠缺。好比基层公安机关的警情分析系统都是基于C/S模式,得出的结果大多是复杂的报表数据,警综平台就是一个鲜明的例子。但这些复杂的数据中,隐含着许多未被利用且被忽略的数据信息,所以需要结合公安多方面的应用,将数据进行整合和挖掘,基于决策树进行数据分析,建立数据仓库,总和数据记录,好比大量的犯罪行为记录,发现其犯罪规律、趋势、犯罪行为之间的联系以及诱发状态,从而实现对犯罪程度的预测。
2 犯罪行为
决犯罪行为是犯罪人所实施的违反刑法规定构成犯罪的行为。是刑法学中犯罪构成的基础和行为人承担刑事责任的根据。它是一个犯罪心理演变的过程,最主要的就是犯罪嫌疑人的犯罪动机。如果能提前准确地对其进行预测,就能在犯罪嫌疑人将要进行犯罪前阻止其一切行动。
3 决策树
决策树(decision tree)是一类常见的机器学习方法,目的是为了产生一棵泛化能力强,即处理未见示例能力强的决策树。决策树的生成是一个递归的过程。
(1)决策树算法。决策树算法是数据挖掘技术中用来分类、预测的一种算法。在决策树的基本算法中,有三种情况会导致递归返回:①当前节点包含的样本全属于同一类别,无需划分;②当前属性集为空,或是所有样本在所有属性上取值相同,无法划分;③当前节点包含的样本集为空,不能划分。它的树形结构模型,在分类问题中,表示基于特征队数据进行分类的过程,可以认为是if-then规则的集合,每个内部节点表示在属性上的一个测试,每个分支代表一个测试输出,每个叶节点代表一种类别。
4 决策树下犯罪风险中的应用
(1)模拟信息表。为了有效说明问题,我们给出少许的虚拟数据,进行综合处理得出一个数据表。首先进行数据预处理:可将已知信息,按有年龄、文化程度、经济情况、有无固定职业、有无犯罪记录、违法次数、犯罪程度等分类,进行标记,生成枝叶,将每个节点数据综合整理,形成模拟信息表。
(2)基于ID3的决策树模型。由于虚拟数据内容不够详细,分析程度和分类知识的获取仍然未达到理想状态。如果项目和记录次数较多,则决策树的分枝和层次将非常庞大。当然,在实际应用中,分析的数据和项目越多,得出的挖掘知识就更可信,更具有价值。这只是一个简单的粗层次分类模型,想做到良好的、可靠的分析模型,我们应在大数据基础上,采集并挖掘更多的有效数据,并结合犯罪分析的专业知识,从作案对象、手段特点、作案工具、作案时间、作案场所、专长等特征具体加以分析,这将会是一个很有意义的分析模型,采用的是ID3算法生成的决策树模型,这个算法的特点是使用信息增益来选择特征。
(3)分支顺序。我们依然可以采用一种递归生成算法,依据的是分支顺序。算法基本流程是:创建一个新的节点N,如果虚拟数据样本在其它的同类,就使算法中的N标位叶节点,如果样本其他的分枝为空值,并标位普通类,选择样本分枝中具有最高信息增益属性,为其对应已知的数值,再从节点N选出其分枝,在几何中进行增加叶节点与节点,最后得出最终值。在决策树每个节点上用信息增益熵来进行选择,简称分枝优选。这一种递归算法可以通过在样本中的,选择最大熵的列作为当前节点的决策,进行层层筛选而得出最小属性值。该属性值就能判断测犯罪嫌疑人的犯罪程度大小,从而预测犯罪风险程度,如此构造了一个相对比较简单的树和模型。
5 结语
利用决策树算法的技术形成时间并不长远,在我国内各方面领域上,能使用的并不占多数,仅仅局限在商业服务中,而且能成功运用的少之又少。如果放在犯罪风险预测上,那是一个非常有意义的应用。基于决策树的犯罪风险预测模型对于公安系统的运用中,能够以最快速度的、高效率的提前预测犯罪嫌疑人的犯罪行为以及犯罪风险程度,这样能够在警综平台上有效地减少人工成本,对于信息化作战中提供了良好的作战准备及保护措施。无法预测到犯罪风险的大小,民警们就很难保护公民们的安全,更难处理意外之事。本文通过对虚拟数据的挖掘,提供了一个较为合理的决策模式,采取这种最低级别的模式,得出一些具有参考价值的的分析结论,能够对公安业务起到推进作用,提供了一个良好的发展方向。
参考文献:
[1]刘美玲.基于数据挖掘的决策树算法研究及应用探讨[D].上海:华东理工大学,2009.
[2]卢东标.基于决策树挖掘算法研究与应用[D].武汉:武汉理工大学,2008.
[3]庄卿卿.一种改进的ID3算法[J].现代计算机(专业版),2009,32(3):37-41.
[4]陆秋.基于决策树ID3算法的数据挖掘技术研究与应用.桂林:桂林工学院 桂林理工大学,2007.
[5]王珊.數据仓库技术与联机分析处理.科学出版社,1998.
[6]Han Jiawei,Kamber M.Data Mining Concepts and Techniques.Morgan Kaufmann Publishers,Inc.,2001.