基于分布式ElasticSearch相似内容比对算法研究与应用

来源 :四川师范大学 | 被引量 : 0次 | 上传用户:caikesbad
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本匹配作为文字处理领域的一项热门技术,在查重检测、智能问答等领域有广泛的应用实践。目前,诸多学术不端行为,如论文剽窃、数据造假和内容恶意篡改,在高校和其它学术界越来越严重,许多学生通过同义词替换法、打乱语序排列法、语义重述法等主要方式来降低论文查重率。为解决上述问题,经过对已有文本比对算法的大量调研和分析,结合先进搜索引擎已具备文本精确匹配等强大功能的支撑,本文选取开源企业级搜索和数据分析引擎Elastic Search为研究基础,基于开源微服务框架Spring Cloud搭建系统平台,完成基于分布式Elastic Search文本相似内容比对算法研究与实现。本文主要研究内容如下:首先,针对TF-IDF未能反映词的重要程度和特征词的分布情况的问题,本文设计了基于Elastic Search搜索语法实现的文本加权融合算法。该算法利用POI文档处理器挖掘特殊位置文本,基于Elastic Search查询语法提高标题和段落首末句文本权重。其次,针对网络、社会环境中不断出现的网络流行词、新词及停用词在文本比对过程中对Elastic Search分词器分词工作带来的影响,本文研究并设计了一套分词器词库管理和热更新词典的解决方案,该方案保证随着新词的出现,分词器能正确进行分词工作。再次,针对自然语言预处理中经常涉及到的同义词替换导致的文本匹配失效问题,本文提出基于Elastic Search搭建同义词词库,同义词通过相连的概念来扩大搜索匹配范围,达到提高文本比对准确度的效果。利用Rabin Karp算法实现文本完全匹配预检测,以克服Elastic Search不支持识别文本完全匹配的缺陷。本文基于志愿者主观评价的实验方案,将系统评价结果与人工评价结果对比,本文研究的算法相似度比较结果与志愿者主观评价结果一致的比例达到了85.6%,而二者评价结果完全不一致的比例只有3%,这两项对比结果比例均优于“基于强类别特征的文本相似度计算及其性能评估”算法的对应对比结果(81.78%,5.52%),表明本文研究的文本相似度比较算法在正确率和准确性上有较好的改进,能更好的应用于实际。
其他文献
近年来,随着我国教育事业的快速发展,新课程改革的脚步也在不断加快,其根本目的就是为了更好地适应时代的需求以提高教学效率、获得更优的教学效果。随着网络信息技术的不断发展,教学方式已经不再是以单一的传统教学为主了,远程网络直播教学已然成为了另一种新兴的教学模式,并且其独特的教学特点与传统教学形成了鲜明的对比。结合文献调研发现目前结合远程网络直播教学以及传统教学的对比研究相对较少,基于此本文采用比较研究
中职学校进行混合式教学模式改革,必须构建适应中职学校的混合式教学质量评价体系。本文通过提出中职学校混合式教学质量评价体系的特点、评价体系的组成、评价计算方法和评价结果运用方案等,以期为更多中职教师开展混合式教学和构建教学质量评价体系提供借鉴。
前视合成孔径雷达(SAR)能够对平台正前方区域成像,具有抗干扰性好、隐蔽性强等特点,在精确制导、侦察测绘等领域具有重要价值。由于前视SAR成像处理对实时性要求高,而回波大数据量将导致成像实现非常困难;因此,研究前视SAR成像处理方法及硬件实现具有重要意义。前视SAR中的机载双基前视模式是各国研究的热点,本文以机载双基前视SAR为研究对象,进行了极坐标格式算法(PFA)、前视SAR信号处理机设计及P
物联网将海量微型设备通过有线或无线方式基于互联网构建成一种大型泛在网络,这种网络能够实现异构信息间的互联、互通与互操作,实现所有物体的智能化连接。首先,大量异构底层智能设备接入使得用户接入和控制设备变得越来越复杂。没有统一的设备管理系统,用户在访问和控制设备时需要操作不同的物联网应用,访问不同的物联网云平台。这种碎片化的设备管理模式增加了异构设备的用户接入和控制复杂性,降低了应用可扩展性。其次,为
大运河文化,即因大运河而生、而变、而传播的文化,具有"开放""包容""交流""融合"等多方面的价值内涵。今天,虽然大运河在交通、商贸等方面的功能已大大降低,但在促进经济文化发展、建构国家形象等方面,仍具有重要价值与功能,因此保护并传承好大运河文化有其现实必要性。只是,如今的大运河文化研究及其保护、传承实践,更多是从宏观、上层等角度展开进行的,而缺乏对民间、民众与生活层面的关注。为此,我们应该在已有
情感识别是计算机利用传感器采集到人的语音、表情和行为等数据来进行分析,从而来推断出人的情感状态,人类对于他人情感的识别主要是通过视觉模态或者语音模态来完成的。情感识别对于人机交互、医疗、刑侦、航天等领域有着重要的支撑作用。单模态语音情感识别是通过传感器采集到的语音信号来分析情感状态;多模态语音视觉情感识别是通过传感器采集到的语音、表情和行为等信号中的两种及两种以上的信号来进行分析情感状态。对于单模
信息技术的飞速发展对于电源系统提出了愈来愈高的要求,微型直接甲醇燃料电池(Micro direct methanol fuel cell,μDMFC)因其高能量密度、高转换效率、无污染等特点,被认为是便携式电子设备电源的理想解决方案之一。然而μDMFC面临的传质管理、催化剂中毒等问题使其无法直接在高浓度燃料下运行。此前,研究人员所提出的解决思路绝大多数从宏观尺度出发,大多会在电池内引入新的结构或器
本文提出了一种建议评论分类方法和一种建议关键短语提取方法,以实现评论文本的建议挖掘,帮助用户更便捷地作出决策,也帮助商家更精准地改进相关服务.对于评论的分类,本文提出一种基于PU(positive and unlabeled)学习的方法.与常规PU学习不同,正例样本通过简单规则获得;在PU学习一阶段中,以投票的方式综合三种方法去划分可靠负例;PU学习二阶段中,将代价敏感融入支持向量机中进行训练.在
离群点检测是数据挖掘中重要的研究方向之一,因其应用前景的广阔受到了学者们的关注。基于经典粗糙集理论的离群点检测方法一般只适用于符号型属性数据,不能直接应用于数值型属性数据。由于数值型数据的处理要预先对其进行离散化,数据本身所蕴含的信息在离散化过程中容易发生改变,甚至会因此而丢掉重要的信息。为了提高处理数值型和混合型属性数据集的效率,粗糙集理论中的等价关系发展出了邻域关系。实际上,用邻域粗糙集理论来
教育部办公厅关于印发的《2017年教育信息化工作要点》的通知中指出深入推进信息技术与教育教学深度融合。(1)在信息化、数字化教学背景下,创新的教学模式不断涌现,智慧云课堂就是其中之一。四川省某中学校也积极开展智慧课云堂在高中物理教学中的应用研究。本文采用的是教育叙事研究的方法,叙写我在自己所任教的学校四川省某中学参与智慧云课堂教学实践研究的经历过程。在研究过程中,我利用文献分析法对国内外相关文献进