论文部分内容阅读
全球恐怖主义因其异常活动而导致经济损失,网络战争和网络犯罪,给刑事司法系统带来了挑战。因此,通过准确地从大数据中提取犯罪信息以估计国家和国际层面的潜在风险,监视恐怖组织的活动是全球性的挑战。许多常规的计算方法已成功实现,但很少或没有文献发现通过使用大数据分析工具和技术来解决这些问题。为了填补这一文学空白,本研究旨在通过使用Hadoop集群来支持社会正义组织在全球范围内打击恐怖主义活动,从海量数据中确定准确的犯罪数据。本文成功地实现了多种分类算法,如神经网络,K-最近邻,词频-逆文档频度,潜在语义分析,以取得重要成果,为安全机构在全球范围内打击恐怖主义创造了新的思路。由于恐怖主义对经济的负面影响及其对全球的影响,恐怖主义已引起全球关注。这也违反人权和国际法。因此,这是不能容忍和正当的。它必须在国家和国际层面上进行斗争和提出。恐怖分子试图通过使用暴力来实现社会或政治目标,并且与当前目标相比,它还试图引起人们的关注。它给政府带来了不必要的个人或政治利益压力。在本文中,敏感数据是指与大数据中存在的爆炸,罪犯,暴力,盗窃,谋杀,小偷和网络罪犯有关的数据。尽管对恐怖主义和对恐怖主义的反应研究(START)涉及对恐怖主义起因和后果的研究,但要观察恐怖主义活动从大数据中挖掘犯罪信息以评估对社会的潜在风险仍然是全球性挑战,城市和国家。大数据是指来自社交媒体,在线驱动器,传感器,交易,手机,数据存储,云等各种来源的数据的创建,存储,处理。所收集的数据分为三种类型:非结构化,半结构化和结构化。大数据通常处理非结构化数据集。还发现,数据呈指数增长,并且不同类型的用户可以高速访问大量数据的变体。如果数据和技术得到正确利用,将会产生显着结果。相反,如果技术和信息被滥用,那么对人类和社会来说都是一个大问题。还众所周知,全世界有数种犯罪活动在进行。他们使用该技术共享敏感信息,所有信息都以大数据形式存在于云,社交媒体中。传统的统计计算方法很难在给定的时间范围内存储,处理和分析如此大量的数据。在这种情况下,使用大数据分析工具和技术将有助于识别犯罪活动。有许多方法可从大数据中确定敏感数据。分类算法是重要的方法之一。它将大量数据分类为不同的数据块,以减少数据的大小。从减少的数据中,更容易确定我们需要查找的单词。简化的数据形式更易于存储,分析和处理,并且通过使用不同的技术,可以轻松确定预期的术语。机器学习已经成功地在反恐活动中实施,以确定隐藏的知识。分类算法以及诸如Hadoop和Spark之类的大数据分析工具已成功实施,以将海量数据减少为简化形式,以揭示有关犯罪活动的隐藏知识。通过术语频率-逆文档频率,实现了一种从大数据中敏感数据检测的新颖方法。在这种情况下,输入数据将存储在Hadoop分布式文件系统中以进行并行化。Spark API用于读取文件,数据帧是适用于不同机器学习算法的API,并且是弹性分布式数据集的优化版本。斯坦福大学的NLP用于使用注解和注解符的词法修饰。StopWords删除了对文本没有多大意义的单词。通过使用TF-IDF,可以计算出词频和文档反向频率的乘积。奇异值分解算法已实现用于数据约简,以快速分析数据。最后,从大量数据中确定敏感数据。潜在语义分析分析术语与一组文档的关系。大数据具有非结构化数据集的集合,这些数据集具有不同的格式。通过使用传统技术和方法,难以处理如此大量的数据。LSA用于解决与信息检索中发现的多义性和同义词有关的问题。LSA使用SVD技术将术语和文档与文档集合分开。在这种情况下,将单个矩阵分解为三个矩阵,即第一个矩阵代表项矩阵,第二个矩阵是对角矩阵,代表降序存在的项的强度,最后一个矩阵代表文档集合。在对角矩阵的情况下,有许多零项被消除。新获得的矩阵称为截断SVD。在实施低秩近似和余弦相似度之后,确定与犯罪活动有关的数据。神经网络通过并行处理的处理元件的互连解决了该问题。典型的处理元素称为感知器,它接受许多二进制输入并产生单个输出,并且借助阈值确定输出并受权重影响。为了从大数据中检测敏感数据,神经网络起着至关重要的作用。在单层神经网络的情况下,它将文档作为输入,并生成敏感数据作为输出。在多层神经网络的情况下,将包含敏感数据的文档作为输入,并在许多隐藏层中完成处理,直到无法获取敏感数据,最后可以生成一系列敏感数据作为输出。从大数据中确定敏感数据的另一种方法是K最近邻居算法。对于分类问题,这是最有影响力的监督学习。它以包含敏感数据的文档作为输入,并根据最近术语的距离提供敏感术语的列表。MapReduce体系结构用于确定敏感数据。在地图阶段,将训练数据传递到地图阶段以计算距离,并将结果数据输入到简化阶段。在reduce 阶段,将传递关键的HashMap和新的HashMap进行处理,并且由距离公式确定项的相似性,最后生成最接近的项作为输出。检测敏感数据的其他基本方法是TeraSort,SparkPi和WordCount,这有助于按特定顺序减小数据的大小。这些技术将大容量数据的大小减小为小数据。TeraSort是在具有Hadoop工具的分布式计算环境中使用的排序技术。该技术按升序对所有数据进行排序,并且可以从排序后的数据列表中轻松确定所有敏感数据。SparkPi使用Monte Carlo方法计算Pi值,并将所有数据分为两个不同的部分,其中非敏感数据位于一个位置,而敏感数据则隔离到另一位置。WordCount算法生成重复项的频率,从而减少了数据量。根据这些术语,可以轻松确定敏感数据。针对如何快速有效地从大数据中检索敏感数据的问题,我们提出了基于大数据,敏感数据和机器学习算法的大量工作。这项工作的主要成就概括如下:·已实施大数据分析工具和技术,以通过分类算法来管理犯罪活动,以了解和理解有关犯罪的知识和理解,并通过新的思维方式来支持刑事司法系统纠正与犯罪有关的重大问题。恐怖主义。·分类算法-在具有Hadoop集群的分布式计算环境中采用了反向传播神经网络模型来公开敏感信息。此模型一个接一个地实现了map和reduce函数。这些功能的组合可快速公开敏感信息,并减少了计算时间,并且其性能相对更好。·有效的监督式机器学习K最近邻算法已应用于确定分布式计算环境中数据的紧密度,以有效地检索敏感数据。通过使用距离公式,可以计算测试数据和训练数据之间的距离,并根据获得的大多数选票选择k的值来确定犯罪信息的类别。·已经提出了潜在语义分析来检索敏感数据,方法是使用Yarn Resource Manager将原始文档简化为三个矩阵,即术语矩阵,对角矩阵和文档矩阵。该算法还实现了映射和归约功能。此外,为了减少数据的大小,我们使用了奇异值分解,后来使用了截断的SVD和余弦相似度来公开敏感信息。·已经成功实施了许多算法方法,包括并行化,批注和注释,引词化,停用词去除器,术语频率,逆文档频率和奇异值分解,从而可以通过使用Hadoop集群从大量数据中确定准确的犯罪数据支持社会正义组织在全球范围内打击恐怖主义活动。·其他基本算法(例如TeraSort,SparkPi,WordCount)也已用于减少数据大小,以便可以轻松确定犯罪信息。·通过几次实验来实现工作的有效性,方法是更改节点和数据大小,方法是保持现实数据集上的所有环境相同,以稳、定的性能检索敏感信息,并为安全机构在全球范围内打击恐怖主义创造新思路规模。总体而言,这项工作有助于借助分类算法从大数据中确定敏感数据,借助大数据分析工具和技术来调查犯罪活动的性质,地点,犯罪模式,犯罪活动前后所涉及的人员,以及在犯罪期间挖掘罪犯的通讯细节犯罪活动。它还可以帮助进行预测分析,以在适当的时间揭露敏感数据,从而可以控制将来发生的意外事件,并发现犯罪活动,即使它们更改了策略并迅速采取了行动。