论文部分内容阅读
在侦破过程中,刑侦人员会对来源不同的各种证据和线索进行梳理,找出对侦破最有用的证据和线索。这些对已有资料的梳理、统计、分析工作,就是数据挖掘技術。在司法领域,数据挖掘是一项比较古老的方法。在一百多年前,多国司法机构就知道建立违法犯罪档案。一旦某地出现新的违法犯罪活动时,侦破人员会搜索已有的档案,从中发现破案的线索。而犯罪学专家则研究这些档案,总结违法犯罪的动机、方式、工具等特征,为预防犯罪和侦破提供依据。这些都是较为古老的人工数据挖掘方法。到了信息科技时代,数据挖掘则以计算机挖掘为主。
数据挖掘的英语名称是Data Mining,又译为资料探勘、数据采矿。所谓数据挖掘,是指从大量不完全、有噪声、模糊、随机的数据中,通过设置一定的学习算法,提取那些隐含在其中的,然而人们事先不知道却有潜在用途信息的过程。它是根据数据的微观特征,发现其表征的、带有普遍性的、较高层次概念的知识,是信息优势成为知识优势的基础工程。数据挖掘萌芽于“情报深加工”,其实质就是发现情报背后的情报。在大数据时代,数据挖掘就是从海量数据中寻找到自己需要的信息,我们常用的百度、谷歌等搜索引擎完成的工作也属于数据挖掘的范畴。
随着计算机和互联网技术的迅速崛起与普及,人们(当然包括犯罪分子和恐怖分子)已经离不开手机、电脑、智能电视等智能终端设备,不少日常活动基本上都可以数字化地表示。几点几分从家出门,坐什么车花了多长时间到了工作地点。这期间,无论是谁,每发一次微博和打一次电话,包括经纬度在内的精确地理位置信息都被记录在案,而通话记录在许多年之后仍可以被调阅查询。总之,在通信技术无孔不入的时代,人们的一举一动都产生了大量的数据。而在很多时候,这些原始数据就会成为司法部门破案时所需要分析的材料。
数据挖掘是通过分析每个数据,从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示三个步骤。数据准备是从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集;规律寻找是用某种方法将数据集所含的规律找出来;规律表示是尽可能以可理解的方式(如可视化)将找出的规律表示出来。由于人类从来没有像今天这样如此依赖网络和电子设备,因此,信息时代众多的电子踪迹让研究每个人、每个群体,甚至整个人类的习惯成为了可能。
目前,美国安全局已经开始利用数据挖掘技术追踪恐怖分子和监控社会情绪。比如,美国安全局和交通安全局曾经基于数据挖掘技术,开发出计算机辅助乘客筛选系统。该系统为美国本土各个机场提供接口,当乘客购买机票时,系统利用乘客提供的信息确定乘客是否是需要额外安全筛选的人员。该系统将乘客购买机票时提供的信息输入到商用数据提供商提供的数据库,这些信息包括全名、地址、电话号码以及出生日期。商用数据库然后将隐含特殊危险等级的数字分值传送给交通安全局。带有“绿色”分值的乘客将接受“正常筛选”,带有“黄色”分值的乘客将接受“额外筛选”,而带有“红色”分值的乘客将被禁止登机而且还将接受“法律强制性的关照”。在利用商用数据库信息时,交通安全局声称工作人员不会看到用于计算分值的实际信息,也不会保留乘客的信息,以此保障乘客的隐私。
目前,数据挖掘技术已经被用在刑事侦破领域,为破获一些疑难杂案、保障老百姓的人身和财产安全提供了新的技术支持。比如,寻找犯罪嫌疑人的人脸识别方法就需要用到数据挖掘技术。警方先通过计算机对嫌疑人进行画像,然后自动在目标人员数据库中搜索犯罪嫌疑人。不过,人脸识别技术要高效发挥破案的作用,前提就是要建立有大级别的人像数据库系统。也就是说,人脸识别的数据挖掘是需要建立在大数据的基础之上的。同样,指纹识别、虹膜识别、掌纹识别、步态识别等生物识别技术,也需要逐步完善的数据库给予支撑。
在司法领域,数据挖掘技术分析的对象一般分为两大类:一类是基于监控对象的系统,它能够帮助分析专家跟踪某个犯罪嫌疑人;另一类是基于行为模式的系统,它可以在多种活动方式中搜寻可疑的可能涉及犯罪的行为,或者可能是犯罪分子才会产生的行为。基于监控对象的数据挖掘技术又称作关联分析法,是司法机构重点开发的技术。这种方法能利用相关数据,在表面上没有关系的人或事件之间建立关联。比如,如果某人是犯罪嫌疑人,那么就可以使用关联软件发现嫌疑人可能正在影响的其他人,从相关人那里获取破案线索。
数据挖掘的英语名称是Data Mining,又译为资料探勘、数据采矿。所谓数据挖掘,是指从大量不完全、有噪声、模糊、随机的数据中,通过设置一定的学习算法,提取那些隐含在其中的,然而人们事先不知道却有潜在用途信息的过程。它是根据数据的微观特征,发现其表征的、带有普遍性的、较高层次概念的知识,是信息优势成为知识优势的基础工程。数据挖掘萌芽于“情报深加工”,其实质就是发现情报背后的情报。在大数据时代,数据挖掘就是从海量数据中寻找到自己需要的信息,我们常用的百度、谷歌等搜索引擎完成的工作也属于数据挖掘的范畴。
随着计算机和互联网技术的迅速崛起与普及,人们(当然包括犯罪分子和恐怖分子)已经离不开手机、电脑、智能电视等智能终端设备,不少日常活动基本上都可以数字化地表示。几点几分从家出门,坐什么车花了多长时间到了工作地点。这期间,无论是谁,每发一次微博和打一次电话,包括经纬度在内的精确地理位置信息都被记录在案,而通话记录在许多年之后仍可以被调阅查询。总之,在通信技术无孔不入的时代,人们的一举一动都产生了大量的数据。而在很多时候,这些原始数据就会成为司法部门破案时所需要分析的材料。
数据挖掘是通过分析每个数据,从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示三个步骤。数据准备是从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集;规律寻找是用某种方法将数据集所含的规律找出来;规律表示是尽可能以可理解的方式(如可视化)将找出的规律表示出来。由于人类从来没有像今天这样如此依赖网络和电子设备,因此,信息时代众多的电子踪迹让研究每个人、每个群体,甚至整个人类的习惯成为了可能。
目前,美国安全局已经开始利用数据挖掘技术追踪恐怖分子和监控社会情绪。比如,美国安全局和交通安全局曾经基于数据挖掘技术,开发出计算机辅助乘客筛选系统。该系统为美国本土各个机场提供接口,当乘客购买机票时,系统利用乘客提供的信息确定乘客是否是需要额外安全筛选的人员。该系统将乘客购买机票时提供的信息输入到商用数据提供商提供的数据库,这些信息包括全名、地址、电话号码以及出生日期。商用数据库然后将隐含特殊危险等级的数字分值传送给交通安全局。带有“绿色”分值的乘客将接受“正常筛选”,带有“黄色”分值的乘客将接受“额外筛选”,而带有“红色”分值的乘客将被禁止登机而且还将接受“法律强制性的关照”。在利用商用数据库信息时,交通安全局声称工作人员不会看到用于计算分值的实际信息,也不会保留乘客的信息,以此保障乘客的隐私。
目前,数据挖掘技术已经被用在刑事侦破领域,为破获一些疑难杂案、保障老百姓的人身和财产安全提供了新的技术支持。比如,寻找犯罪嫌疑人的人脸识别方法就需要用到数据挖掘技术。警方先通过计算机对嫌疑人进行画像,然后自动在目标人员数据库中搜索犯罪嫌疑人。不过,人脸识别技术要高效发挥破案的作用,前提就是要建立有大级别的人像数据库系统。也就是说,人脸识别的数据挖掘是需要建立在大数据的基础之上的。同样,指纹识别、虹膜识别、掌纹识别、步态识别等生物识别技术,也需要逐步完善的数据库给予支撑。
在司法领域,数据挖掘技术分析的对象一般分为两大类:一类是基于监控对象的系统,它能够帮助分析专家跟踪某个犯罪嫌疑人;另一类是基于行为模式的系统,它可以在多种活动方式中搜寻可疑的可能涉及犯罪的行为,或者可能是犯罪分子才会产生的行为。基于监控对象的数据挖掘技术又称作关联分析法,是司法机构重点开发的技术。这种方法能利用相关数据,在表面上没有关系的人或事件之间建立关联。比如,如果某人是犯罪嫌疑人,那么就可以使用关联软件发现嫌疑人可能正在影响的其他人,从相关人那里获取破案线索。