去重算法相关论文
随着社会的进步,各个公共场所对人员的进出管理更加规范,大多公共场所的出入口均装有监控摄像头。因此,社会对针对视频的人脸识别......
学位
按照传统的教育模式,教师对学生以面对面的方式进行教学、练习和考试,其一律采用手工出题、手工批卷的方式,不但效率很低,而且极大......
由于Web镜像和网络转载抄袭,完全重复以及近似重复的网页数据对于当前的搜索引擎产生了一系列的问题:它不仅增加了网页数据索引的......
随着Internet的飞速发展,互联网的信息大爆炸给人们带来信息过载的问题,新闻资讯作为人们接触最多的一种媒体信息,发布方式已经从传统......
针对在数据服务中舆情去重不可避免且缺乏理论指导的问题,通过研究Sim Hash、Min Hash、Jaccard、Cosine Similarty经典去重算法,......
近年来,舆情信息在大数据服务中广泛被加工使用,但转载、复制等操作使得采集的舆情信息重复量庞大,给后期的加工带来困难。在这种......
在邮件服务端和邮件客户端,重复邮件浪费了大量资源。该文提出一种基于SHA-1的邮件去重算法,将邮件按大小分开处理,根据Hash值快速去......
针对文本处理中的字串去重问题,本文提出了四种有效的快速算法,其平均时间复杂度为O(n log n),空间复杂度为O(n)。其中利用首字hash方法......
随着计算机网络的发展,尤其是手机以及各种智能联网设备的发展,互联网的数据规模越来越庞大。如此巨量的信息一方面丰富了人们的生......
网页检索结果中 ,用户经常会得到内容相同的冗余页面 ,其中大量是由于网站之间的转载造成。它们不但浪费了存储资源 ,并给用户的检......
【目的】通过对科技查新中的跨库检索结果进行去重,提高查新检索效率。【方法】选取不同数据库检索记录中唯一性的特征四元组{论文......
随着互联网的发展及网络信息的指数状增长,网络上出现了大量的重复网页,降低了检索的查全率和查准率,影响了检索效率。因此,网页去......
网页检索结果中,用户经常会得到内容相同的冗余页面。提出了一种通过新闻主题要素学习新闻内容的新闻网页去重算法。该方法的基本......