论文部分内容阅读
当前,网络和多媒体技术迅猛发展,多媒体信息急剧增长,网络多媒体数据中数据重复现象很常见,尤其是一些大型多媒体分享网站中,用户上传了大量重复的多媒体数据。重复数据不仅增加了数据库存储和管理代价,也严重影响网站访问者的用户体验。因此,多媒体数据的重复检测显得尤为重要。本文围绕多媒体数据库重复检测问题展开研究,在分析现有技术的基础之上,提出了利用直方图、GMM和K-L散度的两级重复检测方案,设计了多媒体数据库重复检测系统。围绕以上问题,本文主要完成了以下工作:首先,提出了基于直方图的文件快速匹配方法,以文件为单位进行相似度比对,在很大程度上提高了重复检测的速度。由于直方图忽略了文件的时序信息,并考虑长度差异大的文件,容易误识,影响检测效果。因此,借鉴分段检索的思想,将较长的多媒体文件分成若干段,每段建立一个直方图模型,形成直方图序列。通过计算直方图序列间的总体相似度,判断文件是否相似。实验结果表明,通过直方图方法可以提高重复检测的速度。其次,直方图方法虽然提高了重复检测的速度,但是牺牲了检测精度。针对直方图方法检索结果不精确的缺点,提出了基于GMM和K-L散度的相似性比对方法,用于文件的相似性确认。实验结果证明,该方法能够有效提高结果的正确率。最后,介绍基于直方图、GMM和K-L散度的二级检索机制的多媒体数据库重复检测系统的设计与实现。本系统主要作为大规模数据库管理的一种数据重复检测手段,以便将重复的多媒体文件检测出来,便于数据库管理者根据需要对重复数据进行管理。本系统采用分布式检索方法,可以满足网络多媒体数据库的实际需求,通过实验测试,验证了系统的可实用性。