相似重复记录检测研究与发展动态的知识图谱分析

来源 :计算机应用与软件 | 被引量 : 0次 | 上传用户:xiejie_850119
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据环境下,数据库中的记录数量呈指数上升,如何高效率地检测出相似重复记录是数据清洗的关键点和提高数据质量的首要任务.近十年国内外相似重复记录检测方法又涌现出相当多的高水平成果,迫切需要对新的文献加以归纳梳理.以2008—2019年的国内外相似重复记录检测相关文献为研究样本,结合社会网络和知识图谱对其发文量、核心机构、作者合作群、研究热点和研究趋势进行分析.分析发现,作者合作结构整体上较松散,相似重复记录各类检测方式的集成、应用领域的扩展和通用框架的研究成为热点,缺失数据值的处理、多数据源的识别、大数据量的分块处理成为相似重复记录领域的挑战.
其他文献
软件多缺陷定位(Multiple Fault Localization,简称MFL)尝试在含有多个缺陷的软件程序中自动标识出这些缺陷所在的位置.传统的缺陷定位研究一般假设被测软件内仅含有一个缺陷,而实际情况下软件内往往包含多个缺陷,因此MFL问题更加贴近实际场景.当程序中存在多个缺陷时,由于缺陷数量难以准确估计,同时缺陷之间可能存在互相干扰,因此对MFL问题的研究更具挑战性.已有研究表明传统单缺陷假设下的缺陷定位技术会随着程序中缺陷数目的 增多而出现定位效果下降的问题.因此,需要对已有缺陷定位技术加以改进
经过数十年的实践,有必要对我国饮用水深度处理技术的发展进行回顾和总结.文中以杭州主城区为例,总结认为新建水厂需考虑改扩建的需求,活性炭层下设砂垫层能有效降低活性炭出水的浑浊度,前置活性炭工艺需充分考虑活性炭的强度,避免光照能有效降低砂滤池藻类繁殖的风险.同时,对改造中采用臭氧活性炭及膜处理两种典型的深度处理组合工艺的主要设计参数及出水水质进行了对比分析.结果表明,上述两种深度处理组合工艺在水质上的差异主要是浑浊度和微生物.
自然语言生成是目前非常重要且具有挑战性的一类人工智能任务.长短时记忆(Long Short-Term Memory,LSTM)语言模型是目前最为主流的自然语言生成模型.但是,LSTM语言模型的训练准则是词语级别的交叉熵,这会导致暴露偏差问题.此外,一般自然语言生成任务的评测指标是序列级别的BLEU分数或者词错误率,这与训练使用的交叉熵准则也不匹配.在本文中,我们使用马尔可夫决策过程重定义了自然语言生成问题,并通过从训练数据中提取的先验控制向量来指导生成过程.先验控制向量可以视作是对序列空间的一种先验划分的
为了使亚甲蓝分光光度法测定水体中阴离子表面活性剂的试验更节省劳动力并提高萃取效率,可采用全自动阴离子表面活性剂测定仪替代手工测定.该测定仪按照GB/T 7494—1987中的试验方法及步骤,测定饮用水、地表水、生活污水和工业废水中低浓度亚甲蓝活性物质时,其线性相关系数、准确度、稳定性、样品平行性以及加标回收率的测定结果均优于手工测定.测定仪的检出限为0.015μg/mL,符合国家标准要求的0.05μg/mL.手工测定的标准曲线相关系数平均值为0.9994,而全自动仪器的相关系数平均值为0.9998.在准确
本文设计并实现了面向深度学习的统一框架批处理矩阵乘法.我们细致地分析了利用矩阵乘法实现卷积的过程中卷积核、输入特征图和输出特征图在NCHW和NHWC两类存储格式下的矩阵数据排列特点,指出了其和矩阵行列主序的关系.在此基础上,为了更好复用共享的卷积核数据,我们提出将批量输入特征图转化为一个矩阵整体进行计算的方法.我们设计了统一框架的批处理分块矩阵乘法,该框架计算同一矩阵和多个不同矩阵的乘法,可以处理并输出任意存储格式的矩阵数据.我们优化了分块矩阵乘法实现,根据输入参数特征规划计算顺序,利用矩阵转置技巧复用核
雨水管道是城市排水系统重要环节,其排水能力关乎城市内涝严重程度,因此,快速而准确地对雨水的管道疏水能力进行评估,精确定位溢水节点、超载管网,掌握内涝风险情况显得尤为重要.文中通过建立MIKE URBAN一维管网模型,在不同重现期下模拟,利用模拟结果对研究区进行排水能力评估.结果表明,研究区雨水管网整体排水能力较弱,绝大部分管段不能满足1 a暴雨重现期要求,难以抵御强降雨威胁,易形成内涝点,城市雨水管网亟待改造.该评估结果为后期雨水管网改造等工程提供理论基础.
送水泵房作为将清水加压输送至给水管网的构筑物,其出水水流具有高流速、高压力等特点.送水泵房水泵机组根据水厂调度需要,需经常进行启停水泵操作,因此,送水泵房止回阀需具有防水锤功能稳定、水损小、密封性好、密封副不易磨损、操控简易等特点.现状各水厂送水泵房止回阀多选用多功能水泵控制阀、液控双速闸阀.多功能水泵控制阀存在水损大、缓闭功能易受膜片老化受损影响等缺点;而液控双速闸阀组成结构复杂,阀门老化后存在启闭不到位、密封不严实、维护工作多等缺点.针对传统止回阀在应用过程中的不足,某水厂在进行送水泵房止回阀更换时,
SM9-IBE是我国于2016年发布的标识加密算法行业标准.标识加密算法以用户的标识(如邮件地址、身份证号等)作为公钥,从而降低系统管理用户密钥的复杂性.然而,标识加密算法的密钥撤销和更新问题却变得更加困难.此外,SM9算法的结构特殊使得已有技术无法完全适用于该算法.为此,本文提出一种基于仲裁的SM9标识加密算法,可快速实现对用户访问权限的撤销和更新操作.该算法引入一个可信第三方(即仲裁者)用于管理用户的部分私钥,使得用户必须借助仲裁者的帮助才能访问SM9密文,同时仲裁者无法从用户密文中获取任何有用信息.
匿名通信系统诞生之初是为了保护通信实体身份的匿名性和网络中通信内容的隐私性、完整性,但随着匿名通信系统的广泛使用,其匿名性不断增强,在隐藏服务技术的支持下,匿名通信系统被不法分子滥用的情况愈演愈烈,在匿名通信系统隐藏服务技术支持下的暗网平台已然成为了“法外之地”.站在网络监管部门的立场上,对匿名通信系统,尤其是匿名通信系统隐藏服务及其定位技术的研究是必要且紧迫的.在对匿名通信系统的基本属性、分类方法和工作原理介绍的基础上,对其隐藏服务的定位技术按照用户位置的不同分为客户端定位和服务端定位分别进行了研究和阐
现实中不断涌现的高维多目标优化问题对传统的基于Pareto支配的多目标进化算法构成巨大挑战.一些研究者提出了若干改进的支配关系,但仍难以有效地平衡高维多目标进化算法的收敛性和多样性.提出一种动态角度向量支配关系动态地刻画进化种群在高维目标空间的分布状况,以较好地在收敛性与多样性之间取得平衡;另外,提出一种改进的基于Lp-范式(p<1)的拥挤距离度量方法以有效地度量高维目标空间中解群的多样性.设计了一种采用动态角度向量支配关系的高维多目标进化算法DAV-MOEA,该算法利用动态角度向量支配关系增强选择压力,