2016-04-23

论文笔记：A Model of Saliency-Based Visual Attention for Rapid Scene Analysis

论文信息

题目：A Model of Saliency-Based Visual Attention for Rapid Scene Analysis
作者：Laurent Itti, Christof Koch, and Ernst Niebur
领域：视觉显著性
类型：新问题，新方法

问题是什么

寻找图像中的能够优先引起人类关注的位置。

已有解决方案

通过分析人眼的运动来研究人类视觉关注点的特征，以此做进一步分析。

作者的核心思想、创新点

从人类视觉心理学的角度入手来研究该问题，采用方法包含了两部分，一是提取显著图(Saliency Map, SM)，二是动态更新关注点(Focus of Attention, FOA)。

提取显著图

受生物学启发，该方法模仿人类自下而上的视觉选择性注意过程，提取图像的底层特征，构造相应的显著图。

显著图的构造基于“特征集成理论”(feature integration theory)，每一种特征都会有自己的显著图，在某个特征下，不同位置的像素之间互相竞争，最终会有一些像素脱颖而出，成为该特征中的显著点。作者根据“中心-周围”拮抗理论，算出每一个像素点（作为中心点）相对于周围的像素点的显著值，所有点的显著值就构成了一副显著图。而不同特征下的显著图经过某种方式，汇集成最终的场景显著图。

系统框架结构

作者在这里采用了三种特征：亮度，颜色（根据“颜色双对立”系统[color double-opponent]），角度（使用Gabor滤波器），为了生成这些特征的显著图(Conspicuity Maps)，作者先对原图像进行尺度变换，生成九层高斯金字塔，这一方面增强了该方法的尺度不变性，另一方面也模拟了层级感受野的机制。我们可以把金字塔中的低层级图像的像素点看成“中心”，把高层级图像的对应像素点看成“周围”。然后把高层级图像通过插值的方式变成和低层级图像相同的大小，最后，把两个图像对应像素点的某种特征的值，进行逐点相减，产生一个尺度下某种特征的显著图。

最后还要把得到的不同特征的不同尺度的显著图进行合并，得到最终的显著图。

首先是合并同一特征不同尺度的显著图。作者把它们都缩小到金字塔的第四层级（最开始选择的时候，中心点只取2,3,4这三级，所以得到的显著图只有这三级的，因此在这里就是把这些级通过降采样缩小到第四级），然后把每张显著图的每一个像素点的显著值进行归一化。作者归一化的方式比较特别，原则就是去除不同特征因为幅值不同而带来的不均衡性，以及尽可能地让最显著的点突出出来（加大“贫富差距”）。最后，把所有图对应点的显著值相加，得到最终该特征的显著图。要注意的是，对于角度特征，作者采用了四个角度，因此实际上可以看成是四个特征，所以在对角度特征进行显著图合并时，作者是先对各个角度做一次显著图合并，然后把合并好的四个图直接叠加起来得到角度特征的显著图。

归一化的直观表示

接下来是合并不同特征的显著图。作者先把三个特征的显著图都做再一次上述的归一化，然后进对三者求平均，便得到最终的显著图。有趣的是，作者把得到的结果记为S，而不是SM (Saliency Map)，这是因为重头戏在接下来的部分。

动态更新关注点

一般而言，我们得到上一步的显著图就完事了，而作者又增加了一个动态更新关注点的过程，目的就是为了模拟人类视觉注意力转移的过程，从而生成更具表现力的显著图。此处，作者把真·显著图(SM)类比成一个动态更新的神经层，它的初始输入是上一步得到的静态显著图(S)，然后作者又定义了一个激活神经网络：“胜者为王”网(winner-take-all)，S、SM、WTA网络三者的大小是一致的，并且每一个点都是一一对应的。初始时，SM的值由S决定（通过类似神经信号传导的方式），而之后它又会在WTA网络的影响下进行更新。S中最显著的点会给SM中对应的点最大的初始激励值。SM中每一个点又会刺激WTA网络中对应的点，当WTA网络中的某个点首先达到激活阈值时，一个真·注视点(FOA)就产生了，这个机制很好地模拟了当有多个显著点时，人类是怎样产生注意的：第一个引起注意的就是注视点（至于哪个会是第一个，就仁者见仁智者见智了，毕竟WTA网络的激活方式并没有指定，比如可以所有的点同步变更，也可以先变更中心区域的点）。当WTA网络出现了一个胜者时，将会同时执行以下三个过程：

将FOA转移到胜者对应的点上，即更新注视点
重置WTA网络（清零），为下一次注视点变更做准备
在SM中对注视点周围的区域做一定时间的局部抑制，确保能够发生注视点转移，并且确保注视点不会立刻返回来。

为了模拟“近邻优先”(proximity preference)的原则，作者还在SM上对注视点周围（除了抑制区域外）的点加了一个短时间的激励。

当然作者对它的模型进行调参了，以便使注视点转移的过程更接近人类视觉系统的行为。

如何实验与验证

眼见为实！让程序跑出来的结果和我们人类的判断作比较就好。作者将他人做过的根据眼动观测仪的结果(Spatial Frequency Content)，与自己用程序跑出来的结果进行对比，可以看出来结果还是不错的。当然这个模型也是有缺点的，就是太依赖特征的选择了，没有考虑到的特征就不会产生出显著性，太过于human-design，比较适合专用系统。此外，由于最终的显著图是在第四级高斯金字塔下呈现的，这就导致了分辨率的降低，也就损失了一些图像的信息。作者之所以这样做，是因为他不关心精确的分割问题，只是找出显著点，然后大致画一块区域。

启发

这一篇论文仅仅六页，但是把整个框架搭得很清楚，为什么？因为简单！为什么简单？因为自然！而且作者并没有说详细的实现过程，这就让人读起来如丝顺滑，同时给读者自己发挥的空间（完全可以用其它的特征和别的理论来构造相应的显著图），论文就应该这样写啊！

本文总阅读量: 次

文章标题: 论文笔记：A Model of Saliency-Based Visual Attention for Rapid Scene Analysis
文章作者: undefined
发布时间: 四月 23日 2016, 10:38 上午
最后更新: 二月 16日 2023, 1:10 凌晨
本文字数: 本文一共有1,960字
原始链接: https://chenyangyu.top/2016/04/23/a-model-of-saliency-based-visual-attention-for-rapid-scene-analysis/
许可协议: 自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）

转载请保留以上信息。

Meta