试论大数据库的相似记录检测方法

来源 :中国新通信 | 被引量 : 0次 | 上传用户:sky_ywt_2001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘要】    在现阶段的大数据库相似记录检测中,存在着误差相对较大的问题。基于此,本文对二次模糊评判进行了改进,并提出了一种优化后的大数据库相似记录检测方法。经过与基于决定属性值聚类算法的大数据库相似记录检测方法的实验对比,证实了该检测方法的优越性。
  【关键词】    大数据库    相似记录检测方法    二次模糊评判
  引言:
  现阶段,大数据库被广泛应用于各个行业领域汇中,在决策型形成、总结与分析等方面发发挥着重要作用。但是,在大数据库的实际使用中,常存在相似或重复记录,造成数据冗余,导致了数据存储空间的浪费。基于这样的情况,开发一种大数据库相似记录检测方法极为重要。
  一、大数据库相似记录检测方法的原理分析
  在进行大数据库相似记录检测时,需要完成部分记录对的采集,并提取记录字段相似的特征函数,形成训练样本集,最终构建起该大数据库的相似记录检测模型。在该模型的支持下,能够完成数据库中记录相似度的计算,并确定一个阈值。通过比较记录相似度数值与阈值,实现了该大数据库相似记录的检测[1]。
  但是,在该方法中,难以消除大数据库中的非常重要数,导致相似记录检测的实际效率降低。基于这样的情况,笔者对二次模糊评判进行改进,提出了一种优化后的大数据库相似记录检测方法。
  二、大数据库相似记录检测方法的优化探究
  2.1数据属性的二次模糊评判
  在大数据库中,不同的记录均对应着一个重要程度存在差异的实体属性。这就需要利用用户对记录中不同属性展开模糊的综合评价,对部分非重要属性记性消除,确定重要属性向量集,并搭建起属性评价因素表。同时,结合用户的自身经验,完成该属性评价因素表的二次评价,形成用户属性因素评价表,完成大数据库中不同记录重要属性权值的确定[2]。
  此时,利用公式能够完成属性因素最终重要等级值的确定,其中,N为用户数量、k为大数据库中数据集的属性数量、G为属性等级集合。此时,主要从属性类型、语义、宽度、排列位置完成数据库中数据属性的评价,利用公式能够完成比重向量的计算,其中,p为所有属性中重要属性的占比、F`为依照Ti形成的重要属性向量集。需要多个用户完成保留重要属性的二次评价,利用公式能够完成用户对重要属性中某因素的评判结果计算,其中,(1~m)为各个属性等级;1为评价重要性最低;m为评价重要性最高、pij为某用户(j)对重要属性的第i个评价因素的评价等级。
  利用表达式能够完成某属性的用户评价等级的计算,其中,f为属性因素类型、p为用户对属性x的评价等级。使用公式能够完数据属性评价结果的均衡,其中,Pj为客观属性取值种类数的向量。
  完成上述计算后,需要将该数据库中的所有数据集内部的各个属性重要性等级展开统一的转换,完成权值确定。
  此时,使用公式能够权值的计算。使用公式可以实现记录属性权值的重新赋值。使用公式能够实现对数据库中所有数据记录属性的分组。其中,ξ为最终生成属性取值种类数的向量、θ`为所有数据的主观等级向量。
  总体来说,在大数据库相似记录优化检测的过程中,需要先完成数据库中所有数据属性的一次评判,对数据库中的非重要数据属性展开消除,并落实其余数据的二次模糊评判,获取数据属性的评判结果。同时,以此为基础,完成所有数据属性的分组,为相似检测提供支持。
  2.2特征向量指导下的数据库相似记录检测
  对于大数据库中的相似记录来说,其差异主要是由字符串造成的。所以,在进行大数据库相似记录检测的过程中,需要重点完成记录字段的相似度计算。在这一过程中,可以将完成分组后的数据记录属性作为基础,结合随意两个记录之间的共有字符顺序、数量,完成两个记录之间的字符相似度计算,实现对相似度特征向量的提取。
  在这一过程中,可以使用公式完成记录之间字符相似度的计算;完成权值V(w,s`)的确定后,可以使用完成字符间匹配窗口的计算,其中,当字符相似度小于等于该数值,则能够说明两记录字符相似。利用公式以及,能够实现全部记录字段相似度特征向量的确定。以此为基础,能够构建起大数据库中相似记录的检测模型,并完成相似记录分析。
  2.3仿真结果分析
  为了保证本研究的科学性以及该模型的合理性,笔者进一步展开了仿真分析。在这一过程中,主要使用了基于决定属性值聚类算法的大数据库相似记录检测方法与该方法进行实验对比。主要依照结果的查全率、查准率、运行时间完成判定。实验结果显示,本文提出的相似记录检测方法查全率、查準率明显高于对比方法,运行时间约为对比方法的二分之一。由此能够证实,该方法整体有效,具备较高的使用价值与科学性。
  三、总结
  综上所述,本文对二次模糊评判进行改进,提出了一种优化后的大数据库相似记录检测方法。经过仿真对比实验显示,优化后的检测方法在查全率、查准率方面明显优于传统方法,且运行时间更短,具备实用性与科学性。
  参  考  文  献
  [1]李莉,张晓雯.基于划分的海量数据相似重复记录检测[J].计算机系统应用, 2019, 28(03):172-178.
  [2]涂静文.大数据库的相似记录检测方法研究[J].计算机仿真, 2017,34(03):410-413.
其他文献
本文以正硅酸乙酯(TEOS),硝酸铝(Al(NO3)3·9H2O)为原料,采用以卵磷脂、氯仿、乙醇和水四元体系形成的微乳液,合成莫来石前驱粉体,并进一步煅烧处理,得到颗粒细小、分散均匀、晶形
聚偏氟乙烯(PVDF)作为一种重要的铁电聚合物,具有良好的压电、热释电、铁电等性能,因而被广泛应用于压力传感器、光电传感器、铁电存储器等。对于PVDF而言,高β相含量有利于其压
结构设计是高层建筑建设过程中至关重要的一个环节,结构设计质量的好坏直接关系到整个建筑的安全性、经济性及使用功能.文章从高层建筑结构设计的特点及设计步骤进行了分析,
本文在现有人工湿地系统研究的基础上,建立了复合垂直流(下行流—上行流)人工湿地小试系统和上行垂直流人工湿地小试系统,主要针对系统的植物筛选、系统的填料选择、系统的净化
混凝土砌块能够取代粘土砖,避免可耕地的大量减少,是国家建设部制定十五纲要中明确大力发展的新型建材;但由于混凝土砌块收缩率差异大,目前的普通抹面砂浆难以防止墙体出现裂
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
众所周知,只有通过温习,人们才能快速记忆和掌握学过的知识。温习既然对于学习如此重要,那么,采用什么方法温习,效果才更好呢?传统的做法是,要想提高学习效率,最好的办法是反
期刊
适度的晶粒细化是提高材料服役性能和加工成形性能的有效手段。ECAP(Equal-Channel Angular Pressing)技术是细化常规晶粒尺寸至亚微米级甚至纳米级晶粒尺寸最具工业化应用前
本文分别从铝合金在时效强化过程中时效析出相的析出过程、位错/析出相的相互作用、析出相强化机制以及振动时效过程中工件在重复载荷作用下应变变化规律、振动时组织内部位
田径项目是初中体育教育中重要的课程之一,初中阶段的学生身体正在快速生长,十分需要增加健康教育、加强体育锻炼.在新课改的要求下,体育课堂引入了趣味田径教学法,用在玩中