计算机视觉系列(一):图像金字塔

图像金字塔

一幅图像的金字塔是一系列以金字塔形状排列,分辨率逐渐降低且源于同一张原始图的图像集合。金字塔的底部是待处理图像的高分辨率表示,而顶部是低分辨率的近似。层级越高,图像越小,分辨率越低。图像金字塔是图像中多尺度表达的一种,最初用于机器视觉和图像压缩,最主要功能用于图像分割,是一种以多分辨率来解释图像的有效但概念简单的结构。

pyramid

生成图像金字塔主要有两种方式: 向下采样向上采样

  • 向下采样:将图像从最底层(即上图中的level0)转换为level1、level2...的过程,图像分辨率不断降低。
  • 向上采样:将图像从最顶层(即上图中的level4)转换为level3、level2...的过程,图像分辨率不断增大。

常见的金字塔一般有两类:

  • 高斯金字塔: 用来向下/降采样,主要的图像金字塔;
  • 拉普拉斯金字塔: 用来从金字塔低层图像重建上层未采样图像,在数字图像处理中也即是预测残差,可以对图像进行最大程度的还原,配合高斯金字塔一起使用。

在OpenCv中提供了对图像进行上下采样的接口:pyrUp()pyrDown(),同时提供了一个对图像进行尺度变换的函数resize()

获取金字塔一般来说包括两个步骤:

  • 对于向下采样,首先对图像进行高斯平滑,然后进行降采样(将图像尺寸行和列方向缩减一半);
  • 对于向上采样,首先对图像进行升采样(将图像尺寸行和列方向增大一倍),然后进行高斯平滑;