矢量量化LBG算法的研究

来源 :硅谷 | 被引量 : 0次 | 上传用户:axjlzpf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘要]论述经典的LBG算法的基本原理、量化器设计的关键之处和存在的问题。以矢量量化技术在图像压缩领域的应用作为研究目标,总结分析现有典型的LBG算法,并针对LBG算法的不足,提出改进的算法,减少计算复杂度,缩短程序运行时间。通过理论推导和具体实现,证明改进方法的可行性和有效性。
  [关键词]矢量量化 LBG算法
  中图分类号:TP3 文献标识码:A 文章编号:1671-7597(2008)0320039-02
  
  一、引言
  
  矢量量化(VQ Vector Quantization)是70年代后期发展起来的一种数据压缩技术,是一种高效的有损数据压缩技术,它具有压缩比大、解码简单和失真较小等优点。其基本思想是:将若干个标量数据组构成一个矢量,然后在矢量空间给以整体量化,从而压缩了数据而不损失多少信息。矢量量化是仙农信息论在信源编码理论方面的发展,它的理论基础是仙农的率失真理论,率失真理论是一个存在性定理,并非是一个构造性定理,它未给出如何构造矢量量化器的方法,矢量量化总是优于标量量化,这是因为矢量量化能有效地应用矢量中各分量之间的4种相互关联性质来消除数据中的冗余度。自从1980年提出矢量量化器(Vector Quantizater)码书设计的LBG算法以来,矢量量化(Vector Quantization)技术[Gray(1984)]已经成功地应用到图像压缩和语音编码中[1]。
  
  二、LBG算法中最佳量化器的设计
  
  LBG算法中的最佳矢量量化器设计的关键是最佳划分和最佳码书的设计[2]。
  一是给定码书条件下,寻找信源空间的最佳划分,使平均失真最小,由码书 和NNR得最佳划分。信源空间中的任一点矢量,,如果它和码字的失真小于它和其它码字的失真,
  
  二是在给定划分条件下,寻找最佳码书,使平均失真最小
  给定了划分后为了使码书的平均失真最小,码字必须为相应划分的形心(质心),即:
  
  式中表示选取的Y是使平均失真为最小的Y,对于一般的失真测度和信源分布,很难找到形心的计算方法。对于训练序列分布和常用的均方失真测度,形心可由下式给出:
  
  式中 表示集合中元素的个数,即集中有 个X。
  
  三、矢量量化器的设计算法
  
  经典的码书设计算法是LBG算法[2],它是Y.Linde,A.Buzo与R.M.Gray在1980年推出的,其思想是对于一个训练序列,先找出其中心,再用分裂法产生一个初始码书A^0,最后把训练序列按码书A^0中的元素分组,找出每组的中心,得到新的码书,转而把新码书作为初始码书再进行上述过程,直到满意为止。设计矢量量化器的主要任务是设计码书,在给定码书大小N的情况下,由最佳划分和最佳码书两个必要条件得到矢量量化器的设计算法,LBG算法既可用于已知信源分布特性情况,又可用于未知信源分布特性情况:
   LBG算法流程描述如下:
  
  此算法基于最佳矢量量化器设计的最佳划分和最佳码书这两个必要条件,是劳埃德算法在矢量空间的推广,其特点为物理概念清晰、算法理论严密及算法实现容易。但是,它有3个主要缺点:
  (1)在每次迭代的最佳划分阶段,从码书中搜索训练矢量的最近码字需要大量的存储空间和繁琐的计算。
  (2)初始码书的选择影响码书训练的收敛速度和最终码书的性能。
  (3)码书的自适应能力不强。
  
  四、改进的算法
  
  由上所述,LBG算法是一个不断迭代、不断调整聚类中心的过程,聚类速度慢,初始点的选取对聚类结果的影响大。因此,针对LBG算法的不足和图像压缩的特征,提出了另一种新算法,此算法的基本思想是求出一组领域,将相似度大的样本聚合在一起,将相似度小的样本分隔开来,达到聚类的效果。即给定一输入集
  (K是n维欧式空间的点集),设K分为s个子集}
   每个子集就是一个覆盖。对于领域覆盖比较少的样本点采用最短距离法(这里采用欧式距离)进行聚类,这样形成椭球形覆盖领域,即选择圆心距离最近的一对覆盖合并成一个新覆盖。计算新覆盖和其他覆盖的圆心的距离,再将距离最近的两个覆盖合并。根据实际需要,重复以上合并步骤,每次减少一个覆盖,最终得到合理的覆盖划分,且所有相似点分布在一个领域(球形或者椭球形)[4]。
  按照上面的聚类准则和欧式距离函数,并根据图像压缩特点和实际处理图像的情况,归纳出如下的新算法:
  (1)求所有矢量的重心,矢量重心用该矢量中所含像素点灰度值的平均值来表示。
  (2)取一个矢量,求此矢量重心与其它未聚类矢量重心的距离,找出最小距离对应的矢量作为类覆盖的圆心。
  (3)以这个最小距离的1.02倍作为半径r,形成一个球覆盖,即根据各矢量重心将相应的矢量归于此类,同时记录类中的个数。
  (4)求这个类的质心,以此得到一个码矢量和其对应的矢量。
  (5)找离当前覆盖的圆心最远的矢量作为下一步覆盖的圆心。
  (6)重复(2)-(6)直到所有的样本全部覆盖结束。
  (7)对于包含点比较少的覆盖采用最短距离法合并,具体步骤如下:
  ①对于要用最短距离法合并的覆盖,计算出两覆盖的圆心的距离。
  ②将离得最近的两个覆盖合并为一个新覆盖。
  ③更新其它覆盖与新覆盖的最短距离。
  ④根据实际需要,重复②、③步,确定最后的聚类数。
  (8)结束。
  
  五、测试结果与分析
  
  实验条件:矢量维数为4,以“mandrill”作为产生码书的图像,对“Lena”进行处理。
  实验环境:微型计算机:Intel P4处理器, 512MB的内存;系统:Microsoft Windows XP Profes-sional,版本2002。
  编译平台:Visual C++ .NET 2003。
  结果分析:通过反复实验测量,程序运行时间有明显的差异,采用LBG算法需要的时间为38.26s,而采用刚才提出的新算法只需2.28s,大约快了18倍。克服了LBG算法因迭代次数过大而导致程序运行时间长的缺点,大大地缩短了程序运行时间。这是由于此算法是在覆盖和最短距离相结合的基础上进行的,另外该算法的初始点选取对系统影响不大,具有一定的抗干扰能力。此种新算法主要解决了经典算法LBG算法难以解决的问题:初值的选取对系统的影响和聚类速度慢等问题。该算法是覆盖后求重心,再对覆盖做调整,得到新覆盖。因此,初值的选择对系统性能影响小于LBG算法对系统产生的影响;覆盖聚类大量减少了迭代次数,且只用最短距离法处理少量样本,聚类速度有较大提高。另外,覆盖聚类算法还可在事先不需知道聚类数目的情况下,根据实际需要确定聚类数目。
  但通过新算法产生的码书解码出来的图像质量有明显的下降。这是主要是因为虽然覆盖聚类算法可以用较快的速度获得较合理的聚类结果,但该算法覆盖半径的确定、下一个覆盖中心的选择等问题,因此我们应该进一步对此算法的研究,以便既能缩短运行的时间,同时又能提高解码出来后图形的质量。
  
  参考文献:
  [1]赵力,语音信号处理[M].北京:机械工业出版社,2003.
  [2]孙圣和、陆哲明,矢量量化技术及应用[M].北京:北京科学出版社,2002.
  [3]胡征,矢量量化原理与应用[M].西安:西安电子科技大学出版社.1988.
  [4]赵姝、张燕平、张铃,覆盖聚类算法[J].安徽大学学报(自然科学版),2005,29(2).
  
  作者简介:
  孔勇平,男,助教,硕士,从事网络软件开发环境,CAD和三维设计的研究。
  
  注:“本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。”
其他文献
[摘要]ODBC(Open DataBase Connectivity,开放数据库连接)提供了一组应用程序调用接口和一套运行支持环境,应用程序可以使用标准的函数进行数据库操作,而不必关心数据源来自于何种数据库管理系统(DBMS),只要有相应的驱动程序即可。介绍ODBC的原理,着重讨论Visual C++6.0 下应用MFC进行ODBC编程的方法。   [关键词]ODBC 数据库 驱动程序 数据源
期刊
[摘要]在答疑系统中,对于学生常见的问题收录于数据库,学生可以通过检索的方法找到自己需要的答案,充分利用已有的资源。对此查询算法进行分析和设计。  [关键词]FAQ 查询 信息  中图分类号:TP3文献标识码:A 文章编号:1671-7597(2008)0320029-02    在答疑系统中,关键问题就是如何理解学生输入的自然语言,并能够让系统自动返回让学生最满意的答案。下面分析如何解决这一问题
期刊
[摘要]针对目前校园网用户ARP病毒的频繁发作的现象,简单介绍ARP协议并分析ARP病毒攻击原理,提出了相应的解决方案。  [关键词]ARPMAC地址 木马病毒  中图分类号:TP3 文献标识码:A 文章编号:1671-7597(2008)0320038-01    近一段时间以来,“ARP欺骗”木马病毒在校园网络中猖狂的肆虐,严重影响了网络环境的正常运行。感染了病毒的计算机会出现突然断网的现象,
期刊
[摘要]首先阐述塑造城市旅游形象的必要性与将企业的CI理论导入城市旅游形象塑造的可行性,然后结合相关理论与方法,通过分析影响泸州城市旅游形象的要素,分别从理念识别子系统、视觉识别子系统、行为识别子系统三方面尝试构建泸州整体旅游形象。  [关键词]CIS 城市旅游形象 泸州  中图分类号:F592文献标识码:A文章编号:1671-7597 (2008) 0120105-02    城市旅游形象(Ci
期刊
[摘要]为了将地域分布的单台飞行模拟器进行互联,建立基于高层体系结构的分布式交互飞行仿真, 以完成更加复杂的训练任务。开发针对大规模飞行仿真的联邦运行支撑环境。论述了该系统所采用的分层分布式体系结构,阐述了各个服务的数据流程;论述该系统所采用分层式软件结构,阐述基于多线程的接口服务层、基于动态内存的数据功能层和基于完成端口模型的网络服务层的实现,并着重阐述了网络服务层的实现。进而在该系统的基础上实
期刊
[摘要]各个DCS生产厂的硬件由于不能互相代用,系统网络互不兼容,无法互通信息,导致在应用中遇到许多不便,由此将探索出一种全新的标准化编程的IEC1131-3在DCS中应用。  [关键词]PLC IEC1131-3标准 DCS  中图分类号:TP3 文献标识码:A 文章编号:1671-7597(2008)0320077-01    控制组态软件互不通用,使用户每采用一种新的软件时就得重新学习,制造
期刊
[摘要]通过利用网络和数据库技术,采用基于B/S模式研究开发了试题库与在线考试系统,它运用方便、操作简单,效率很高,现阶段虽只实现了试卷的客观题部分,但已具有试题(卷)录入、修改和查询,手工组卷与自动组卷,手工评分和自动评分以及进行在线考试管理等重要功能,也就是说实现了真正的无纸化考试,满足任何授权的考生随时随地考试并迅速获得成绩,并给出其详细的成绩分析与试卷评估,同时也大大减轻了教师出题、组卷和
期刊
森林火灾是一种由人为引发为主的自然灾害,除了人文因素外,它还涉及到可燃物的类型及其分布状况、地形地貌及气象因素等。随着社会和经济的发展,防灭火人员将极大地依赖于环境和社会方面的综合因素来做出决策。一般来说,这些综合的、动态的信息是相互交织在一起的,很难利用手工的方法来分析和描述它。  地理信息系统(GEOGRAPHIC INFORMATION SYSTEM,以下简称为GIS)是一种集软件、硬件、外
期刊
[摘要]介绍LVDS技术及其在雷达系统中的应用,应用LVDS技术解决雷达系统中多信道、高速数据的传输问题。   [关键词]LVDS数据传输PCB阻抗匹配  中图分类号:TP3文献标识码:A 文章编号:1671-7597(2008)0320083-01    在被称为信息时代的今天,为适应信息化的高速发展,高速处理器、多媒体、虚拟现实以及网络技术对信号的带宽要求越来越大,多信道应用日益普及,所需传送
期刊
[摘要]通过广西桂柳高速公路旧水泥混凝土路面加铺改造工程,论述SBS改性沥青SMA的生产、摊铺、碾压等施工工艺,并结合前场监理经验,总结SMA的质量控制措施及施工中应注意的问题。  [关键词]SMA质量控制监理  中图分类号:TU7文献标识码:A 文章编号:1671-7597(2008)0320068-01    沥青玛蹄脂碎石混合料(Stone Matrix Asphalt,简称SMA)是一种由
期刊