基于不确定性理论的单词语义相似度度量

来源 :吉林大学 | 被引量 : 0次 | 上传用户：serinol

【摘要】

：

【作者】

：

Binod Kumar Adhikari（拜诺）

【机构】

：

吉林大学

【出处】

：

吉林大学

【发表日期】

：

2020年01期

【关键词】

：

术语频率-逆文档频率 Hadoop Spark 奇异值分解潜在语义索引神经网络 K最近邻 Sparkpi

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

全球恐怖主义因其异常活动而导致经济损失,网络战争和网络犯罪,给刑事司法系统带来了挑战。因此,通过准确地从大数据中提取犯罪信息以估计国家和国际层面的潜在风险,监视恐怖组织的活动是全球性的挑战。许多常规的计算方法已成功实现,但很少或没有文献发现通过使用大数据分析工具和技术来解决这些问题。为了填补这一文学空白,本研究旨在通过使用Hadoop集群来支持社会正义组织在全球范围内打击恐怖主义活动,从海量数据中确定准确的犯罪数据。本文成功地实现了多种分类算法,如神经网络,K-最近邻,词频-逆文档频度,潜在语义分析,以取得重要成果,为安全机构在全球范围内打击恐怖主义创造了新的思路。由于恐怖主义对经济的负面影响及其对全球的影响,恐怖主义已引起全球关注。这也违反人权和国际法。因此,这是不能容忍和正当的。它必须在国家和国际层面上进行斗争和提出。恐怖分子试图通过使用暴力来实现社会或政治目标,并且与当前目标相比,它还试图引起人们的关注。它给政府带来了不必要的个人或政治利益压力。在本文中,敏感数据是指与大数据中存在的爆炸,罪犯,暴力,盗窃,谋杀,小偷和网络罪犯有关的数据。尽管对恐怖主义和对恐怖主义的反应研究（START）涉及对恐怖主义起因和后果的研究,但要观察恐怖主义活动从大数据中挖掘犯罪信息以评估对社会的潜在风险仍然是全球性挑战,城市和国家。大数据是指来自社交媒体,在线驱动器,传感器,交易,手机,数据存储,云等各种来源的数据的创建,存储,处理。所收集的数据分为三种类型:非结构化,半结构化和结构化。大数据通常处理非结构化数据集。还发现,数据呈指数增长,并且不同类型的用户可以高速访问大量数据的变体。如果数据和技术得到正确利用,将会产生显着结果。相反,如果技术和信息被滥用,那么对人类和社会来说都是一个大问题。还众所周知,全世界有数种犯罪活动在进行。他们使用该技术共享敏感信息,所有信息都以大数据形式存在于云,社交媒体中。传统的统计计算方法很难在给定的时间范围内存储,处理和分析如此大量的数据。在这种情况下,使用大数据分析工具和技术将有助于识别犯罪活动。有许多方法可从大数据中确定敏感数据。分类算法是重要的方法之一。它将大量数据分类为不同的数据块,以减少数据的大小。从减少的数据中,更容易确定我们需要查找的单词。简化的数据形式更易于存储,分析和处理,并且通过使用不同的技术,可以轻松确定预期的术语。机器学习已经成功地在反恐活动中实施,以确定隐藏的知识。分类算法以及诸如Hadoop和Spark之类的大数据分析工具已成功实施,以将海量数据减少为简化形式,以揭示有关犯罪活动的隐藏知识。通过术语频率-逆文档频率,实现了一种从大数据中敏感数据检测的新颖方法。在这种情况下,输入数据将存储在Hadoop分布式文件系统中以进行并行化。Spark API用于读取文件,数据帧是适用于不同机器学习算法的API,并且是弹性分布式数据集的优化版本。斯坦福大学的NLP用于使用注解和注解符的词法修饰。StopWords删除了对文本没有多大意义的单词。通过使用TF-IDF,可以计算出词频和文档反向频率的乘积。奇异值分解算法已实现用于数据约简,以快速分析数据。最后,从大量数据中确定敏感数据。潜在语义分析分析术语与一组文档的关系。大数据具有非结构化数据集的集合,这些数据集具有不同的格式。通过使用传统技术和方法,难以处理如此大量的数据。LSA用于解决与信息检索中发现的多义性和同义词有关的问题。LSA使用SVD技术将术语和文档与文档集合分开。在这种情况下,将单个矩阵分解为三个矩阵,即第一个矩阵代表项矩阵,第二个矩阵是对角矩阵,代表降序存在的项的强度,最后一个矩阵代表文档集合。在对角矩阵的情况下,有许多零项被消除。新获得的矩阵称为截断SVD。在实施低秩近似和余弦相似度之后,确定与犯罪活动有关的数据。神经网络通过并行处理的处理元件的互连解决了该问题。典型的处理元素称为感知器,它接受许多二进制输入并产生单个输出,并且借助阈值确定输出并受权重影响。为了从大数据中检测敏感数据,神经网络起着至关重要的作用。在单层神经网络的情况下,它将文档作为输入,并生成敏感数据作为输出。在多层神经网络的情况下,将包含敏感数据的文档作为输入,并在许多隐藏层中完成处理,直到无法获取敏感数据,最后可以生成一系列敏感数据作为输出。从大数据中确定敏感数据的另一种方法是K最近邻居算法。对于分类问题,这是最有影响力的监督学习。它以包含敏感数据的文档作为输入,并根据最近术语的距离提供敏感术语的列表。MapReduce体系结构用于确定敏感数据。在地图阶段,将训练数据传递到地图阶段以计算距离,并将结果数据输入到简化阶段。在reduce 阶段,将传递关键的HashMap和新的HashMap进行处理,并且由距离公式确定项的相似性,最后生成最接近的项作为输出。检测敏感数据的其他基本方法是TeraSort,SparkPi和WordCount,这有助于按特定顺序减小数据的大小。这些技术将大容量数据的大小减小为小数据。TeraSort是在具有Hadoop工具的分布式计算环境中使用的排序技术。该技术按升序对所有数据进行排序,并且可以从排序后的数据列表中轻松确定所有敏感数据。SparkPi使用Monte Carlo方法计算Pi值,并将所有数据分为两个不同的部分,其中非敏感数据位于一个位置,而敏感数据则隔离到另一位置。WordCount算法生成重复项的频率,从而减少了数据量。根据这些术语,可以轻松确定敏感数据。针对如何快速有效地从大数据中检索敏感数据的问题,我们提出了基于大数据,敏感数据和机器学习算法的大量工作。这项工作的主要成就概括如下:·已实施大数据分析工具和技术,以通过分类算法来管理犯罪活动,以了解和理解有关犯罪的知识和理解,并通过新的思维方式来支持刑事司法系统纠正与犯罪有关的重大问题。恐怖主义。·分类算法-在具有Hadoop集群的分布式计算环境中采用了反向传播神经网络模型来公开敏感信息。此模型一个接一个地实现了map和reduce函数。这些功能的组合可快速公开敏感信息,并减少了计算时间,并且其性能相对更好。·有效的监督式机器学习K最近邻算法已应用于确定分布式计算环境中数据的紧密度,以有效地检索敏感数据。通过使用距离公式,可以计算测试数据和训练数据之间的距离,并根据获得的大多数选票选择k的值来确定犯罪信息的类别。·已经提出了潜在语义分析来检索敏感数据,方法是使用Yarn Resource Manager将原始文档简化为三个矩阵,即术语矩阵,对角矩阵和文档矩阵。该算法还实现了映射和归约功能。此外,为了减少数据的大小,我们使用了奇异值分解,后来使用了截断的SVD和余弦相似度来公开敏感信息。·已经成功实施了许多算法方法,包括并行化,批注和注释,引词化,停用词去除器,术语频率,逆文档频率和奇异值分解,从而可以通过使用Hadoop集群从大量数据中确定准确的犯罪数据支持社会正义组织在全球范围内打击恐怖主义活动。·其他基本算法（例如TeraSort,SparkPi,WordCount）也已用于减少数据大小,以便可以轻松确定犯罪信息。·通过几次实验来实现工作的有效性,方法是更改节点和数据大小,方法是保持现实数据集上的所有环境相同,以稳、定的性能检索敏感信息,并为安全机构在全球范围内打击恐怖主义创造新思路规模。总体而言,这项工作有助于借助分类算法从大数据中确定敏感数据,借助大数据分析工具和技术来调查犯罪活动的性质,地点,犯罪模式,犯罪活动前后所涉及的人员,以及在犯罪期间挖掘罪犯的通讯细节犯罪活动。它还可以帮助进行预测分析,以在适当的时间揭露敏感数据,从而可以控制将来发生的意外事件,并发现犯罪活动,即使它们更改了策略并迅速采取了行动。

其他文献

小麦机械脱粒降损增效机理及其关键部件仿生研究

小麦是主要粮食作物,机械化收获产生的小麦籽粒损失和损伤严重影响粮食产量和质量,创新小麦脱粒原理、革新小麦脱粒部件是推动小麦收获机械降损增效技术升级的关键。自然界中的生物经过亿万年的进化,形成了对物料的低损伤、高效率的接触特性,为解决小麦降损增效脱粒提供了天然生物模本。本文基于小麦的物料属性和机械脱粒界面特征,以黄牛舌部乳突结构的界面接触力学特性为仿生依据,进行仿生脱粒机理及其关键部件研究,具有重要

学位

小麦机械脱粒仿生脱净率损伤率降损增效

社保征缴机构改革与制造业结构升级——基于省级面板数据的实证研究

结构升级是制造业高质量发展的重点。本文基于1999一2009年我国省级制造业细分行业面板数据,使用双重差分法分析社保征缴机构改革对制造业发展的影响。研究发现:社保征缴机构改革改革使制造业中技术密集型产业的产值比重及企业数量上升,但对各产业的附加值没有显著影响;改革通过提高技术性投入促进技术密集型企业产值占比及生产效率的提升,对制造业结构升级起到一定的正向作用;但改革对产品竞争力仍无显著影响,还降低

期刊

社保征缴机构改革制造业结构结构升级

非光滑约束的高精度全波形反演方法研究

地震速度建模一直以来都是地震资料处理解释中的关键步骤,速度模型描述了地震波在地下介质中传播时的速度变化情况,直接影响偏移成像的质量,是地震数据解释和地质解释中最基础、最重要的参数之一。近年来,随着全球经济的迅速发展以及地球物理勘探技术的日益成熟,油气勘探的目标已经由陆地和浅水海域逐渐转向海洋深水区,深水区含有丰富的油气资源,而这些地区目标层一般比较深且地质条件复杂,这也给油气勘探带来了新的挑战。传

学位

全波形反演速度建模频率域全变差Hinge损失函数混合域多尺度

二硒化钨的高压物性研究

过渡族金属硫族化合物（TMD）因为具有类石墨烯的结构和卓越的光电性能,近年来引起了人们广泛的关注。随着二维单层与多层TMD材料的成功制备,人们发现了其具有许多优异的性能。比如TMD材料具有理想的带隙和较高的载流子迁移率,未来可用于制作新型的光电二极管并在集成电子器件领域有广泛的应用。高压可以有效缩短相邻原子之间的距离,提高邻近电子轨道的重合度,改变电子自旋,引发电子结构相变,甚至会引起原子的重新排

学位

高压过渡族金属硫族化合物二硒化钨拉曼光谱荧光层间耦合能带结构晶体结构

醇分子和自生压力对开放骨架磷酸铝晶化过程的影响研究

沸石分子筛等无机微孔晶体材料由于其规则的孔道结构,良好的热稳定性和化学稳定性,大的比表面积等优异的特点,被广泛应用于工业生产和日常生活中的各个领域。自从这类材料被开发和使用以来,其形成机理就一直是人们研究的重点。微孔晶体材料合成过程中的反应非常复杂,尽管人们对其晶化机理进行了大量的研究,也提出了许多观点,但至今仍没有一个广为接受的晶化机制,目前关于微孔晶体材料的合成仍然是以试错的模式进行。为了降低

学位

分子筛晶化机理开放骨架磷酸铝醇分子自生压力

多孔有机盐的设计、合成与性能研究

多孔有机材料是一类新型材料,目前为止,已经广泛的应用于各个领域,具有十分广阔的发展前景。孔作为多孔有机材料的一个特征,直接影响着多孔材料的性能,因此孔对多孔有机材料具有十分重要的意义。有机盐是一类由有机酸和有机碱通过非共价相互作用形成的盐。其合成方法简单,且通过非共价相互作用形成,可以实现一些特定的功能,近年来,引起了科学家的广泛关注。如何将孔引入到有机盐中,制备出稳定的多孔有机盐则是一个挑战。多

学位

多孔有机材料多孔有机盐质子导电电子导电水合物

基于重整化方法的非线性微分方程的渐近解

上世纪90年代,Goldenfeld等人用重整化群方法（RG）获得了许多重要的非线性微分方程的大范围渐近解,像Mathieu方程,Barenblatt’s方程,修正的多孔Medium方程、扰动能量平衡方程等等.结果表明Goldenfeld提出的RG方法在渐近分析上要比其它的扰动方法更有效并且可能更精确因为它不需要做渐近匹配,它统一了奇异摄动理论中几个经典的方法,如伸缩函数法、匹配法、多标度展开法、

学位

重整化群方法（RG）基于泰勒展开的重整化方法（TR）基于泰勒展开的同伦重整化方法（HTR）渐近分析扰动理论数值分析

新型高能碱土金属氮化物的高压截获与性能研究

压力是一个基本的物理学参量,微观上它可以缩短原子间的距离,较大程度地改变材料的电子结构及成键模式;宏观上它可以使材料的物理化学性质发生改变。如能巧妙地利用压力,我们可以有效调整材料的物理化学特性,进而获得一系列性能优异的多功能材料。近些年,静态和动态高压实验技术得到了长足的发展,这使得许多性能优异的多功能材料得以合成,例如H3S高温超导体、新型超硬材料、新型高能量密度材料等。随着计算机技术的不断发

学位

高压第一性原理氮化物高能密度材料硼化物超硬材料

国有资本划转社保基金的政策调适、实践探索及经验启示

厘清国有资本划转社保基金的历史演变逻辑,有助于强化划转后的治理能力建设。西方主要发达国家多是用股权（股份）变现后的资金或股权（股份）收益补充社保基金,而经济转型国家则是将私有化的股权直接转给社保基金持有或控制。我国经历了中央层面国有股减持、转持以及地方层面划转国有股权等探索后,由中央和地方承接主体持有国有股权成为基本统一的模式,其显著特征和内在意涵是深化国企改革和长期分享国资发展成果,实现共享发展

期刊

国有资本划转社保基金国有资本社保基金

美国天军发展动态浅析

自美国天军（USSF）成立以来，不断加速太空军事力量的调整优化，推进太空高精装备的发展，进一步将军事航天力量整合到作战行动中，强化与盟友、伙伴、工业界和国家政府部门深度合作，多措并举，积极打造太空的全面优势。1引言2019年12月20日，美国《2020年国防授权法案》生效，标志着美国第六军种——天军正式成立。

期刊

基于不确定性理论的单词语义相似度度量

其他学术论文