论文部分内容阅读
现代多媒体信息处理要求计算机能够模拟人脑的功能实现对海量图像和视频数据的检索、分类、识别、编辑、交互和存储。而形状作为物体识别的关键特征,对于上述应用起着不可或缺的作用。因此,如何准确而高效地实现形状的计算和存储,成为本文研究的重点。现实物体姿态和视角的变化,使得形状的外观千变万化。人眼对形状的区域选择性和多尺度特性,极易导致实际形状度量与视觉感知之间的差异。更不用说由形状获取导致的量化和分割噪声。这些都给形状的计算和存储带来了极大的挑战。为迎接上述挑战,本文深入研究了基于部分和轮廓的形状表示理论及应用。提出了形状部分的视觉显著度,改进了可操作率失真轮廓编码框架的失真度量和编码结构,并通过双重失真规则化优化了原有的框架。上述成果应用于形状解析、指尖检测和手势识别,均取得了良好的效果。下面给出具体的研究成果。1、提出了形状部分的视觉显著度。首先,将形状部分的视觉显著度简化成三角形的视觉显著度。然后,将三角形的视觉显著度建模成三角形的两邻边长度和、长度比和转角的函数。再利用这三个因素之间的完备性、独立性和直观性,推导出三角形的视觉显著度。实验结果表明,该度量优于现有度量,能显著提升形状解析和手势识别的准确度。2、提出了基于解析法的精确失真度量。首先,将该度量定义为原始轮廓点到参数曲线的最短距离。接着,利用最短距离线段与参数曲线段垂直这一几何关系,给出对应的参数方程。然后,通过解析法求解参数空间,获得最终的距离。为减少执行时间,提出了混合允许失真检验算法。实验结果表明,该度量能精确度量实际失真,且计算复杂度与现有度量的最低计算复杂度持平。3、提出了两种任意方向边编码结构。首先,将数字平面分成八个或者十六个扇区,然后用扇区序号、短分量和长分量表示近似边。实验结果表明,该编码结构能有效地节省近似多边形的顶点数目,在提高编码效率的同时,使得形状描述更加简洁。4、提出了基于失真双重规则化的可操作率失真形状编码方法。将基于2-范数的失真规则项引入原有的目标函数,以期在边码率与边失真之间寻求更好的平衡。为避免噪声干扰,给出了规则化参数的取值范围。并将该组合优化问题转化为带权重的有向无环图中的最短路径问题求解。实验结果表明,该方法不仅能够在保持编码效率不变的情况下减少近似边失真,同时对噪声也具有很好的鲁棒性,因而非常适用指尖检测和手势识别等应用。本文的贡献主要有两点:第一,形状部分的视觉显著度使得物体形状部分之间的视觉显著性比较成为可能,第二,基于解析法的精确失真度量、任意方向编码结构,以及双重失真规则化策略使得可操作率失真轮廓编码结果更准确、简洁而高效。这些都为基于形状的物体识别奠定了良好的基础。