相似检测相关论文
本文对国内外程序在线评测系统中的查重算法进行了深入的研究,分析比较其弊端,并进行了有效的改进,实验结果表明,改进后的算法可以......
目前,随着信息技术的发展,互联网上的信息量越来越庞大,造成部分内容或全部内容重复的网页文件大量存在于网络中.这些文件不仅给网......
相似记录检测已成为数据清洗的一个重要分支,也是消除数据冗余提高数据质量的一个重要途径,在数据统计、数据分析、数据仓库、人工......
随着互联网技术的不断发展与多媒体平台的日益扩大,人们在生活中接触与创作的视频数量持续增多。然而,视频作品易复制、侵权证据易......
随着互联网技术及相关产业的迅猛发展,数据正以前所未有的规模急速增加,数据是与自然资源、人力资源一样重要的战略资源;掌控数据......
为保证数据迁移后新系统的数据质量,把数据清理应用于数据迁移之中,提出一种集成数据清理的交互式数据迁移系统,并分析其工作原理.为了......
剽窃是目前学术界和教育界面临的普遍问题,成熟的商业化剽窃检测系统运行时间和经济代价高,不适合实时性、轻量级的学生作业等日常检......
为了在大规模文档去重中提高相似数据检测的精度,对基于Simhash算法的大规模文档去重技术进行深入研究。在原有算法的基础之上对Si......
在多个被审计数据源中可能含有相似的内容,这些相似内容在某些情况下也许会成为审计问题的突破口。例如,从不同来源采集到的两个被......
云存储利用集群应用、网格技术、分布式文件系统等技术,将网络中海量异构存储设备通过应用软件和网络整合起来协同工作,共同对外提......
移动互联网的兴起给人们带来了极大便利,但越来越多的恶意安卓应用渗透到了人们的生活中。对安卓恶意应用进行溯源分析有助于从源......
对Simhash算法进行改进,用City Hash函数生成数据指纹特征值,以此对数据进行判重.在广州市某区政府的信访业务真实数据下进行了实......
在一个或者多个被审计数据源中可能存在相似重复实体,这些相似重复实体可能隐藏着审计项目中需要查找的疑点,笔者采用了基于B/S架......