基于MPI和串匹配算法的关键词查重并行算法的研究

来源 :哈尔滨理工大学 | 被引量 : 0次 | 上传用户:cdhanks1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,学府腐败现象愈发严重。随着我国科教兴国战略的不断推进,各大高校发布的学术论文越来越多,抄袭改写情况也变得愈发严重,为保证论文的原创性,需要对其进行学术不端检测。但传统的单机处理系统已经无法满足需求,因此本文设计了基于MPI和串匹配算法的关键词查重并行算法,并将其应用到论文查重系统中,提高文本查重的速度。本文提出了基于MPI和串匹配算法的并行文本查重算法,其中在客户端对待查重文本进行预处理,包括中文分词等一系列操作,并得到相似度最高的N个相似文本返回给从节点进行匹配;服务器主节点接收到数据之后;以段落为基本单位进行精准匹配,通过MPI将每个段落数据平均分配给每一个从节点,每个从节点进行文本精准查重,包括计算句子编辑距离和AC自动机匹配,进而多个从节点对分段数据进行并行文本查重操作。实验部分包括三部分,一是对改进后的精准匹配和模糊匹配算法在内存占用和时间消耗上进行分析;二是多模式串匹配算法AC算法单核串行匹配与并行匹配的时间与加速比;三是服务端采用四台物理主机作为从节点,当从节点个数大于物理机个数,采用搭建虚拟机和使用MPI多线程模拟从节点的并行计算环境,采用一个主节点多个从节点的主从设计模式,实验中服务端集群的所有设备的操作系统均选用CentOS7,分别验证当文本长度不同时,即分段后段落数大小的情况下,在从节点数量分别为4,8,16,24,32时的完整的处理流程时间与准确率。实验结果表明,客户端采用并行技术对文本进行预处理相比于单核处理器进行全文预处理能极大地提升速率;AC算法并行匹配相比于串行匹配在内存占用和时间消耗上都有明显提高,服务器采用基于MPI的并行文本查重方法能够在保证查重准确率的基础上很大程度的减少文本查重操作时间,并且对比文本数据量越大,效果越明显。
其他文献
高压异步电动机广泛应用于工业、交通运输业等各种领域,由于温度过高导致电机无法正常运行时常发生,因此研究温升问题至关重要。为了提高电机运行的可靠性,本文通过有限元多物理场模拟,根据高压异步电动机内部电磁场、流场和热场分析流热特性,并对定子径向通风结构提出优化方案。为探究高压异步电动机在额定负载条件下的内部流热特性和温度分布,以YKS710-4/3600k W高压异步电动机为范例,根据电动机T型等效电
学位
长久以来,金刚石凭借硬度高的特性被作为切削工具,其中化学气相沉积(Chemical vapor deposition,CVD)金刚石膜因为拥有优良的光学、热学和电学性能被广泛应用。而金刚石的高硬度也导致CVD金刚石膜难以被抛磨加工,目前,国内外相关领域的工作人员正在使用或研究的抛磨技术主要有机械抛磨、热化学抛磨、化学机械抛磨和激光抛磨等,但皆无法兼顾抛磨效率与成本。本文通过在金刚石颗粒表面镀Cr,
学位
目的:探讨断指再植患者应用改良血管套接法对断指成活和微循环的影响。方法:回顾性分析2020年1月—2022年1月福州海福手外科医院收治的80例手指离断伤患者的资料,根据不同手术方式分为观察组(n=37,在断指再植术中选择改良血管套接法作为手术方案)和对照组(n=43,在断指再植术中选择血管端端吻合术作为手术方案)。比较术后1、3、5 d两组再植指微循环血运情况[再植指的毛细血管充盈时间(CRT)、
期刊
随着科学技术的发展,高效稳定的电机越来越受到各国专家的关注。开关磁阻电机(Switched Reluctance Motor,SRM)具有响应速度快、可靠性强且机械结构简单等优点,广泛应用于航空动力制造、飞轮储能技术、混合动力汽车驱动等工业制造和人民生活的各个领域。然而,由于其自身结构的独特性,在运行过程中存在转矩脉动大的问题,这限制着SRM的进一步使用和普及。为了降低转矩脉动,直接转矩控制(Di
学位
无线电能传输技术不需要物理连接即可实现能量传递,具有可靠性高,充电便携的优势。对于旋转工作的滑环设备,使用无线供电技术可以有效解决滑片磨损所带来的安全隐患,延长设备使用寿命。但无线充电技术依靠磁场为媒介传递能量的工作特性,常常伴随着高磁场辐射和高温升效应现象。因此,在滑环设备运行时无线电能传输伴随的高辐射和高温升是阻碍非接触式滑环发展的重要障碍。针对上述问题,本文针对无线供电技术在旋转滑环设备应用
学位
聚合物薄膜电容器具有功率密度大、安全性高、绝缘性好等优点而在电气工程领域具有广泛应用。然而,在强电场或高温等极端条件下,聚合物介质薄膜的储能性能严重劣化,改善储能介质的高温性能已成为领域内的研究热点。本文选择具有线性极化性质的聚醚酰亚胺(PEI)薄膜作为基本储能单元,通过聚合物薄膜的结构设计优化来降低高温电导损耗,进而改善高温储能性能。选择宽禁带氮化硼纳米片(BNNS)和氧化镁(MgO)作为无机功
学位
大功率应用在电子设备和电气系统中的兴起,促进了电介质储能领域对新一代高能量密度介质材料的需求。聚合物介质电容器由于其超高的放电功率密度,目前已被广泛地应用于高脉冲电源技术、新能源汽车、逆变器和电网等电子设备以及电力系统等相关领域。但聚合物介质电容器的放电能量密度相对较低,限制其在实际工程和设备中的小型化应用。为提升放电能量密度的同时保持较高的充放电效率,本文以高速定向纺丝工艺为基础,通过调控纳米填
学位
聚合物电介质广泛应用于电力电子和脉冲功率领域,普遍具有优异的常温储能能力,但是聚合物的热稳定性差,而下一代电容器中的聚合物电介质需要在极端条件下满足日益增长的电能存储和电力调节需求,所以在高温下的性能劣化无法满足需求。针对于此,本文采用耐高温线性介质PEI作为中间层,高绝缘性、宽禁带BN作为表面势垒层,构成BN-PEI/PEI/BN-PEI三明治结构聚合物基复合介质,实验变量为BN的粒径大小、BN
学位
状态检修,是一种可以依据预知状态的各种设备故障信息,以合理、恰当的方式安排其检修工作以及检修工作周期的设备检修实践方式。在高压电力设备状态检测技术中不乏对成像检测技术的应用。电场测量计算往往是高压电气设备运行状态检测的有效手段,则可以通过电场成像技术达到不停运、不接触、远距离、直观、准确的状态检测目的,故研究电场测量成像技术对于电气设备状态检测领域的发展具有深远的意义。本文首先通过叙述国内外对电场
学位
电介质电容器作为储能设备,具有较长的使用周期、良好的温度稳定性,以及较高的功率密度等优点,在混合动力汽车、滤波器、逆变器中起着十分重要的作用。具有优异柔韧性能的聚合物电介质是介质电容器的首选材料,聚合物聚醚砜(PESU)具有击穿场强高、介电损耗低等优点。然而,PESU的极化强度和储能密度并不理想,这将限制其实际应用。因此,本文研究的出发点是在提高PESU击穿场强的前提下,改善聚合物的极化强度,进而
学位