基于不确定性理论的单词语义相识度度量

来源 :吉林大学 | 被引量 : 0次 | 上传用户:saya1989
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
全球恐怖主义因其异常活动而导致经济损失,网络战争和网络犯罪,给刑事司法系统带来了挑战。因此,通过准确地从大数据中提取犯罪信息以估计国家和国际层面的潜在风险,监视恐怖组织的活动是全球性的挑战。许多常规的计算方法已成功实现,但很少或没有文献发现通过使用大数据分析工具和技术来解决这些问题。为了填补这一文学空白,本研究旨在通过使用Hadoop集群来支持社会正义组织在全球范围内打击恐怖主义活动,从海量数据中确定准确的犯罪数据。本文成功地实现了多种分类算法,如神经网络,K-最近邻,词频一逆文档频度,潜在语义分析,以取得重要成果,为安全机构在全球范围内打击恐怖主义创造了新的思路。
  由于恐怖主义对经济的负面影响及其对全球的影响,恐怖主义已引起全球关注。这也违反人权和国际法。因此,这是不能容忍和正当的。它必须在国家和国际层面上进行斗争和提出。恐怖分子试图通过使用暴力来实现社会或政治目标,并且与当前目标相比,它还试图引起人们的关注。它给政府带来了不必要的个人或政治利益压力。在本文中,敏感数据是指与大数据中存在的爆炸,罪犯,暴力,盗窃,谋杀,小偷和网络罪犯有关的数据。尽管对恐怖主义和对恐怖主义的反应研究(START)涉及对恐怖主义起因和后果的研究,但要观察恐怖主义活动从大数据中挖掘犯罪信息以评估对社会的潜在风险仍然是全球性挑战,城市和国家。
  大数据是指来自社交媒体,在线驱动器,传感器,交易,手机,数据存储,云等各种来源的数据的创建,存储,处理。所收集的数据分为三种类型:非结构化,半结构化和结构化。大数据通常处理非结构化数据集。还发现,数据呈指数增长,并且不同类型的用户可以高速访问大量数据的变体。如果数据和技术得到正确利用,将会产生显着结果。相反,如果技术和信息被滥用,那么对人类和社会来说都是一个大问题。还众所周知,全世界有数种犯罪活动在进行。他们使用该技术共享敏感信息,所有信息都以大数据形式存在于云,社交媒体中。传统的统计计算方法很难在给定的时间范围内存储,处理和分析如此大量的数据。在这种情况下,使用大数据分析工具和技术将有助于识别犯罪活动。
  有许多方法可从大数据中确定敏感数据。分类算法是重要的方法之一。它将大量数据分类为不同的数据块,以减少数据的大小。从减少的数据中,更容易确定我们需要查找的单词。简化的数据形式更易于存储,分析和处理,并且通过使用不同的技术,可以轻松确定预期的术语。机器学习已经成功地在反恐活动中实施,以确定隐藏的知识。分类算法以及诸如Hadoop和Spark之类的大数据分析工具已成功实施,以将海量数据减少为简化形式,以揭示有关犯罪活动的隐藏知识。
  通过术语频率一逆文档频率,实现了一种从大数据中敏感数据检测的新颖方法。在这种情况下,输入数据将存储在Hadoop分布式文件系统中以进行并行化。Spark API用于读取文件,数据帧是适用于不同机器学习算法的API,并且是弹性分布式数据集的优化版本。斯坦福大学的NLP用于使用注解和注解符的词法修饰。StopWords删除了对文本没有多大意义的单词。通过使用TF-IDF,可以计算出词频和文档反向频率的乘积。奇异值分解算法已实现用于数据约简,以快速分析数据。最后,从大量数据中确定敏感数据。
  潜在语义分析分析术语与一组文档的关系。大数据具有非结构化数据集的集合,这些数据集具有不同的格式。通过使用传统技术和方法,难以处理如此大量的数据。LSA用于解决与信息检索中发现的多义性和同义词有关的问题。LSA使用SVD技术将术语和文档与文档集合分开。在这种情况下,将单个矩阵分解为三个矩阵,即第一个矩阵代表项矩阵,第二个矩阵是对角矩阵,代表降序存在的项的强度,最后一个矩阵代表文档集合。在对角矩阵的情况下,有许多零项被消除。新获得的矩阵称为截断SVD。在实施低秩近似和余弦相似度之后,确定与犯罪活动有关的数据。
  神经网络通过并行处理的处理元件的互连解决了该问题。典型的处理元素称为感知器,它接受许多二进制输入并产生单个输出,并且借助阈值确定输出并受权重影响。为了从大数据中检测敏感数据,神经网络起着至关重要的作用。在单层神经网络的情况下,它将文档作为输入,并生成敏感数据作为输出。在多层神经网络的情况下,将包含敏感数据的文档作为输入,并在许多隐藏层中完成处理,直到无法获取敏感数据,最后可以生成一系列敏感数据作为输出。
  从大数据中确定敏感数据的另一种方法是K最近邻居算法。对于分类问题,这是最有影响力的监督学习。它以包含敏感数据的文档作为输入,并根据最近术语的距离提供敏感术语的列表。MapReduce体系结构用于确定敏感数据。在地图阶段,将训练数据传递到地图阶段以计算距离,并将结果数据输入到简化阶段。在reduce阶段,将传递关键的HashMap和新的HashMap进行处理,并且由距离公式确定项的相似性,最后生成最接近的项作为输出。
  检测敏感数据的其他基本方法是TeraSort,SparkPi和WordCount,这有助于按特定顺序减小数据的大小。这些技术将大容量数据的大小减小为小数据。TeraSort是在具有Hadoop工具的分布式计算环境中使用的排序技术。该技术按升序对所有数据进行排序,并且可以从排序后的数据列表中轻松确定所有敏感数据。SparkPi使用MonteCarlo方法计算Pi值,并将所有数据分为两个不同的部分,其中非敏感数据位于一个位置,而敏感数据则隔离到另一位置。WordCount算法生成重复项的频率,从而减少了数据量。根据这些术语,可以轻松确定敏感数据。
  针对如何快速有效地从大数据中检索敏感数据的问题,我们提出了基于大数据,敏感数据和机器学习算法的大量工作。这项工作的主要成就概括如下:
  已实施大数据分析工具和技术,以通过分类算法来管理犯罪活动,以了解和理解有关犯罪的知识和理解,并通过新的思维方式来支持刑事司法系统纠正与犯罪有关的重大问题。恐怖主义。
  分类算法一在具有Hadoop集群的分布式计算环境中采用了反向传播神经网络模型来公开敏感信息。此模型一个接一个地实现了map和reduce函数。这些功能的组合可快速公开敏感信息,并减少了计算时间,并且其性能相对更好。
  有效的监督式机器学习K最近邻算法已应用于确定分布式计算环境中数据的紧密度,以有效地检索敏感数据。通过使用距离公式,可以计算测试数据和训练数据之间的距离,并根据获得的大多数选票选择k的值来确定犯罪信息的类别。
  已经提出了潜在语义分析来检索敏感数据,方法是使用Yarn ResourceManager将原始文档简化为三个矩阵,即术语矩阵,对角矩阵和文档矩阵。该算法还实现了映射和归约功能。此外,为了减少数据的大小,我们使用了奇异值分解,后来使用了截断的SVD和余弦相似度来公开敏感信息。
  已经成功实施了许多算法方法,包括并行化,批注和注释,引词化,停用词去除器,术语频率,逆文档频率和奇异值分解,从而可以通过使用Hadoop集群从大量数据中确定准确的犯罪数据支持社会正义组织在全球范围内打击恐怖主义活动。
  其他基本算法(例如TeraSort,SparkPi,WordCount)也已用于减少数据大小,以便可以轻松确定犯罪信息。
  通过几次实验来实现工作的有效性,方法是更改节点和数据大小,方法是保持现实数据集上的所有环境相同,以稳定的性能检索敏感信息,并为安全机构在全球范围内打击恐怖主义创造新思路规模。
  总体而言,这项工作有助于借助分类算法从大数据中确定敏感数据,借助大数据分析工具和技术来调查犯罪活动的性质,地点,犯罪模式,犯罪活动前后所涉及的人员,以及在犯罪期间挖掘罪犯的通讯细节犯罪活动。它还可以帮助进行预测分析,以在适当的时间揭露敏感数据,从而可以控制将来发生的意外事件,并发现犯罪活动,即使它们更改了策略并迅速采取了行动。
其他文献
北戴河国家湿地公园是典型的滨海淡水湿地。自2019年4月至2019年11月期间,选取该地进行为期一年四次的后生浮游动物及水环境调查,分析探讨滨海淡水湿地后生浮游动物群落结构特征,在传统分类学基础上对后生浮游动物进行功能群划分。分析后生浮游动物功能群的时空演替规律,探讨功能群之间相关性以及对环境因子的响应,确定驱动后生浮游动物功能群时空演替的环境因子。根据综合营养状态指数评价对研究地水体进行综合评价
纳米颗粒广泛的用途使得其制备方法的研究越来越受重视.有很多纳米产品,比如用于日用的碳黑、钛白粉颜料(TiO)或者通讯中的光学纤维等,都可以通过化学气相沉积法(CVD)来制备.颗粒尺寸、尺寸分布状况以及形态等特性对颗粒产品的性能都产生极大的影响,这就要求对生产装置的结构和操作参数要有很好的了解和控制.本文应用CFD商业软件FLUENT,对火焰CVD法合成二氧化钛纳米颗粒的过程进行了详细的数值模拟.首
学位
近年来,分布式发电已被广泛研究,能源互联网具有广阔的发展前景。然而,分布式发电设备的大量接入会向配电网引入谐波,影响电力系统的稳定性,且提高了对并网变流器耐压等级的要求。传统的两电平变流器耐压等级较低,且输出电压的谐波含量较高。多电平变流器具有较高耐压等级,且输出电压谐波含量较低,是传统的两电平变流器的理想替代方案。多电平变流器拓扑结构中,级联H桥(cascaded H-bridge,CHB)多电
分布式电源系统在电气新能源领域得到了广泛的应用与研究。DC-DC变换器作为分布式电源与直流母线的能量转换接口,其稳定性对整个系统的性能有着重要影响。然而,该类DC-DC变换器系统属于一类典型的非线性被控对象,其稳定性易受到分布式电源波动性、电能间歇性及负荷随机性等不确定扰动的影响,导致线性控制器难以保证系统在大扰动工作条件下的安全稳定运行。本文以带恒功率负载DC-DC变换器、单电感多输出DC-DC
目前,大多数架空线路的设计标准往往无法满足极端天气条件。在台风天气下,架空线路由于机械强度的原因,可能发生大规模倒杆断线,引起大面积停电事故,给沿海地区电力系统造成了巨大的经济损失。为了有效提高电力系统在台风天气下的供电可靠性,有必要对架空线路进行加固规划。台风运动模拟和台风天气下架空线路可靠度评估的准确性会影响加固规划的效果,当前大多数研究未对其进行精确建模。基于此,本文在国家重点研发计划项目‘
学位
近年来,伴随无线通信业务以及新兴宽带移动互联网接入技术的快速发展,无线通信系统的优化问题显得至关重要。而在设计高性能和高频谱效率的无线通信系统时,需要充分理解无线信道的传输性能。在第五代(The Fifth Generation, 5G)移动通信技术中,大规模多输入多输出(Multiple Input Multiple Output, MIMO)和车与车(Vehicle-to-Vehicle, V
随着AI(Artificialintelligence,AI)全称人机交互的发展,人脸表情识别技术也得到了极大的发展。表情识别技术的发展带动了许多其他行业的发展,例如道路摄像头可以根据对驾驶员表情的识别,发现其有愤怒、急躁等负面情绪时,提醒或者制止其继续驾驶;在线教育课堂的摄像头可以根据听众的面部表情反应,提醒老师哪些地方需要重点解疑,哪些地方可以进行线上互动;再有一些网店店主可以根据对顾客表情的
随着智能化生产时代的到来,工业制造领域对底层设备信息与控制网络信息的统一集成管理的需求愈发强烈。但是目前在实际制造工业现场中不同硬件、软件之间的信息互通存在着由于异构而导致的通信障碍。OPCUA(OPCUnifiedArchitecture,OPC统一架构)作为旨在解决工厂中异构网络信息无法互通问题的关键技术,在面市之初,即被认为是实现工业4.0的基础。然而,工厂中的底层设备网络的资源相对受限,O
学位
在传统的烟草物流中,通常利用人工对不规则烟包进行匹配和码垛,劳动强度大、工作时间久,导致工人容易疲劳和精力不集中,从而使得码垛出错或者码垛效率低下。针对以上问题,本文在对烟草物流配送中心烟包码垛流程进行了详细分析的基础上,设计了一种不规则烟包码垛机器人系统。该系统减少了人力成本,对烟草物流自动化水平的提高具有重要的理论价值和现实意义。  首先,对不规则烟包码垛机器人系统需求进行了分析,设计出码垛机
导航技术是移动机器人研究领域的重要组成部分,也是实现移动机器人自主化和智能化的必要条件。本文围绕室内移动机器人自主导航的需求对SLAM算法、自主定位和路径规划展开研究,初步实现了机器人的自主导航。本文基于多传感器信息融合的方法解决了单一激光SLAM算法构建的地图信息不完整的问题,并提高了移动机器人自主定位和路径规划的效果。本文的主要研究内容如下:1.研究用于室内导航的自主移动机器人。根据本文研究内