基于边缘引导的光场图像显著性检测--专家综述--论文--机器视觉网

摘要：

针对光场图像显著性检测存在检测目标不完整、边缘模糊的问题，本文提出了一种基于边缘引导的光场图像显著性检测方法。利用边缘增强网络提取全聚焦图像的主体图和边缘增强图，结合主体图和焦堆栈图像所提取的特征获得初始显著图，以提高检测结果的准确性和完整性；将初始显著图和边缘增强图通过特征融合模块进一步学习边缘特性的信息，突出边缘细节信息；最后，使用边界混合损失函数优化以获得边界更为清晰的显著图。实验结果表明，本文所提出的网络在最新的光场图像数据集上，F-measure和MAE分别为0.88和0.046，表现均优于现有的RGB图像、RGB-D图像和光场图像显著性检测算法。所提方法能够更加精确地从复杂场景中检测出完整的显著对象，获得边缘清晰的显著图。

关键词：显著性检测；深度学习；光场图像；卷积神经网络；边缘检测网络

引言：

相比于传统的图像，光场图像能同时记录光线在空间中的位置和方向信息［1］，在很多场景中得到了应用，例如图像分割［2］、显著性检测［3］和图像重建［4］等。

光场通过一组微透镜阵列提供场景的多视点图像，使其不仅记录了输入光线的强度，同时也捕捉了光线的方向，提供了更高维度和更灵活的场景信息；同时经过数字重聚焦技术产生了一组包含丰富的空间视差信息和深度信息的焦堆栈图像，而焦堆栈图像的重聚焦切片中聚集着大量的深度信息，可以通过图像融合技术得到信息更加丰富的全聚焦图像。利用焦堆栈图像的聚焦区域线索，可以为显著性检测提供颜色、对比度、纹理等线索，还可以提供空间布局信息、深度信息以及聚焦度信息，使得显著性检测精度在复杂场景中得到很大的提高。

随着深度学习神经网络的发展，通过设计不同的编解码器来自主学习和聚合多级特征，可以使光场图像的显著性检测算法的性能得到进一步提升。Wang等人［5］提出了第一个以焦堆栈图像和全聚焦图像作为输入的算法，并新建了一个大规模的光场图像显著性检测数据库。该算法采用两个网络分支分别对焦堆栈图像和全聚焦图像进行特征提取，最后进行融合得到显著图。Zhang等人［6］提出角度变化算法（Angle Change Module，MAC），以多个视点的微透镜图像为网络的输入，把特征图输入到改进后的金字塔池化（Atrous Spatial Pyramid Pooling，ASPP）模型中，获得图像的多尺度信息和空间信息，最后经过融合得到预测显著图。Zhang等人［7］设计了一个有记忆力的光场图像显著性检测网络（Memory Oriented Decoder for Light Field，MOLF），深入探索焦堆栈图像的内部相关性。该算法利用循环注意力机制将焦堆栈图像和全聚焦图像中丰富的聚焦信息和空间信息进行融合，并使用卷积长短期记忆模型（Convolution Long-Short Term Memory，ConvLSTM）逐步细化边缘信息，进而得到显著图。Zhang等人［8］提出光场图像融合网络（Light Field Fusion Network，LFNet）算法，通过残差的方法充分提取焦堆栈图像和全聚焦图像的高层语义信息，再通过细化模块以递归的方式提炼光场特征，最后以光场整合模块作为后处理，优化边缘细节，从而得到显著性图。Piao等人［9］提出ERNet（Exploit and Replace Network）算法，用学生网络学习全聚焦图像特征，用教师网络学习焦堆栈图像的特征，同时将所有的聚焦度信息转移到学生网络中进行融合，使焦堆栈图像和全聚焦图像之间的信息互补，从而得到显著图。Piao等人［10］提出PANet（Patch-Aware Network）算法以区域的方式探索光场数据，利用多源学习模块（Multisource Learning Module，MSLM）重点挖掘聚焦显著区域，从而指导显著性、边界和位置等信息，再利用锐度识别模块（Sharpness Recognition Module，SRM）进行特征集成，从而得到更完整的显著图。

大部分光场图像的显著性检测算法是将显著性检测看作是一个数据传输的黑盒，随着网络的加深会造成特征图分辨率的下降，在边缘、前/背景纹理相似等区域表现出较差的学习能力；并且忽视了显著性目标信息与边缘信息之间的空间相关性，可能无法对显著性目标的位置以及目标边缘轮廓信息进行精准定位，导致检测的目标边缘模糊，在复杂场景无法得到精确的显著图。

现有的针对边缘模糊问题的显著性检测算法分为两种方法：基于边缘损失函数的显著性检测和基于分支网络的显著性检测。

（1）基于边缘损失函数的显著性检测

Feng等人［11］提出了BEL（Boundary-Enhanced Loss）损失函数，前面几层的卷积层包含了大量的细节边缘信息，因此只在前3层使用L2损失（欧式损失）提取边界信息。Qin等人［12］根据边界感知显著目标检测提出了混合损失函数（由交叉熵损失、SSIM（Structural Similarity IndexMod-ule）损失和IoU（Intersection over Union）损失组成），从像素块、区域块和特征块3方面指导网络学习输入图像和真值图之间的变换。Pang等人［13］设计了CEL（Consistency Enhanced Loss）损失函数作为辅助来突出整个显著区域，更好地处理区域间的像素不平衡问题。Wei等人［14］设计了一个PPA（Pixel Position Aware）损失函数，使用位置加权的方式并综合像素的局部结构信息，引导网络更加关注局部细节。使用边缘损失函数的方法虽然考虑了边缘信息和显著图之间的关系，但未考虑显著边缘信息和显著目标信息之间的互补性，忽视了图像的空间一致性，会造成信息的冗余，从而影响最终的检测结果。

（2）基于分支网络的显著性检测算法

Hou等人［15］通过在边缘检测器网络HED（Holistically-nested Edge Detection）体系结构中引入跳跃层结构的短连接，提出了一种新的显著目标检测方法，在边缘检测方面比一般FCN（Fully Convolutional Networks）模型有了很大的改进。然而，在HED模型中，具有深度监控的跳跃层结构并不能显著提高显著性检测算法的性能。Zhao等人［16］引入边缘信息作为监督提出了EgNet（Edge guidance Network）网络，该网络通过将边缘先验知识嵌入到多级特征中来保留显著对象的边界，并利用IoU函数对边缘信息进行处理。Wu等人［17］提出一种新颖的边缘感知显著目标检测SCRN（Stacked Cross Refinement Net-work）网络，在显著目标检测和边缘检测两个任务之间双向传递信息，同时细化多层边缘和分割特征，从而得到显著图。但该网络融入了过多低层纹理特征的边缘信息作为干扰项，并与高层语义特征融合，无法获取边缘精确的显著图。Su等人［18］根据显著性模型的选择性-不变性提出了BAN（Boundary-Aware Network）网络，由边界位置提取、显著区域提取和特征融合3条支路组成，三者相互补充，并使用3个交叉熵损失函数来改善最终的输出结果。在此基础上，Wei等人［19］考虑到像素越靠近边缘越难预测，提出了标签解耦框架，通过LD（Label Decoupling）过程将特征图像分离为两部分：主体图和边缘细节图，利用特征交互网络进行信息交换，最后使用损失函数得到显著图。使用分支网络提取边缘特征可以得到显著边缘特征中丰富的边缘信息和位置信息，再使用边缘损失函数有助于更准确地定位显著对象。

为了提高边缘区域显著性检测的准确性，保留显著目标更多的细节信息和边缘轮廓信息，本文充分考虑了边缘信息和显著目标信息之间的互补性，利用边缘分支网络和光场图像的重聚焦特性，提出了一种新的基于边缘引导的光场图像显著性检测网络。该网络具有以下特点：

（1）利用边缘感知模块的EEM（Edge En-hancement Module）网络提取全聚焦图像边缘及其周围的像素，获得主体图和边缘增强图，从而更加充分考虑到显著边缘信息和显著目标信息之间的互补性与图像的空间一致性，使其更好地进行边缘监督，提高显著性检测的边缘准确性。

（2）使用特征聚合模块的FSM（Feature Se-lection Module）网络对焦堆栈图像进行通道级和空间级的加权，强调有用的特征；用FIM（Fea-ture Interaction Module）网络更好地获取全局语义信息，用高层次的全局上下文特征指导低层次的细节特征选择，充分考虑了光场图像之间的几何特征，提高了光场图像显著性检测的精度。

（3）将学习到的焦堆栈图像特征与主体图相融合得到初始显著图，用于突出显著对象，再与边缘增强图通过FFM（Feature Fusion Module）网络进行融合，突出显著边缘。最后，为了获得高质量的区域分割和清晰的边界，采用混合损失函数对初始显著图和显著图进行交叉熵损失函数的监督，有助于所有像素点的收敛。对主体图和边缘增强图进行IoU损失函数的监督，更多地关注前景目标以获得边界清晰的显著图。

二、基于边缘引导的光场图像显著性检测

本文提出了一种基于边缘引导的光场图像显著性检测网络，结构如图1所示。首先对焦堆栈图像和全聚焦图像进行特征提取；其次利用边缘感知模块得到全聚焦图像的主体图和边缘增强图，从而更好地进行边缘监督；再通过FSM网络对焦堆栈图像从通道级和空间级两个方面有效地增强显著性目标区域的权重，以提高特征表示能力，并通过FIM网络更好地获取全局语义信息；然后将学习的焦堆栈图像特征与主体图相融合得到初始的显著图；最后把初始显著图和边缘增强图输入到FFM网络中进行融合，进一步优化得到最终的显著图。

640.webp.png

2.1特征提取模块

本文以VGG-19（Visual Geometry Group-19）为网络主干架构，删除最后一个池化层和全连接层，保留5个卷积块以更好地适用于显著性检测。本文将一张全聚焦图像和12张焦堆栈切片分别输入到VGG-19网络的Conv1~Conv5中提取不同层次的特征，提高计算效率并避免产生冗余信息。将最后4个卷积块用作输出层，分别用{f0/m，m=2，3，4，5}，表示全聚焦图像支路的每个卷积层输出；用

表示焦堆栈图像支路的每个卷积层输出，各卷积层输出图像的空间分辨率分别为原始图像的1/2、1/4、1/8和1/16。

2.2 边缘感知模块

在面对前/背景颜色相似、背景纹理复杂和显著目标被部分遮挡的场景时，低层特征主要包含了位置、细节等信息，语义性较低，噪声更多；而高层特征具有更强的语义信息，但细节、纹理信息较少，使显著目标的边界细节不够完整，导致显著图的边缘模糊。因此，常引入边缘约束来提高显著性检测算法的精度。

边缘像素较少，越靠近边缘的像素越难学习到并且部分边缘区域并不连续，难以有效提取且容易引入噪声，导致显著性检测效果减弱。与以往的边缘提取模块不同，本文以EEM网络作为全聚焦图像的显著性目标信息和边缘信息的提取特征模块，对全聚焦图像的特征进行边缘提取，得到主体图和边缘增强图。主体图是真值图的中心区域，边缘增强图是真值图边缘及其周围的区域。EEM网络通过对不同层的特征进行整合实现显著边缘信息和显著目标信息之间的互补，有效缓解了卷积层数增加所造成的信息丢失问题，且充分学习到边缘像素，成功地避免了训练过程中边缘像素对显著性目标像素的干扰。如图2所示，本文使用传统距离变换算法得到主体图和边缘增强图的真值图。

640.webp (1).png

本文采用的EEM网络如图3所示，以全聚焦图像的特征为输入。为了减少不同尺度间的细节信息和语义信息的干扰，采用卷积和采样将图像降维到64个通道，得到既有高层语义信息又有低层细节信息的特征，输出的特征图为64×64×64。由于高层语义信息适合于突出显著性目标，而低层纹理信息更适合于细化目标边缘，因此再经过两个“Conv-BN-Relu”结构获取高层和低层信息，通过主体图和边缘增强图的真值图的监督得到主体图和边缘增强图。

640.webp (2).png

2.3 特征聚合模块

光场图像独特的重聚焦能力可以为显著性检测提供有用的聚焦性、深度和客观性线索，因此本文利用特征聚合模块的FSM从通道级和空间级两个方面提取焦堆栈图像的有用信息，使聚焦在不同深度层的焦堆栈切片上充分融合以强调有用的特征；利用特征聚合模块的FIM充分考虑特征的多尺度信息，用高层次的全局上下文特征指导低层次的细节特征选择，更好地获取全局语义信息，避免有效信息的丢失，提高了光场图像显著性检测的准确性。

2.3.1特征选择模块FSM

焦堆栈图像对预测显著图起着不同的作用，聚焦在显著性物体上的切片提供更多的显著性物体特征，聚焦在背景区域的切片提供更多的背景特征；并且聚焦在高层的特征包含更多高层次语义信息，聚焦在低层的特征包含丰富的局部空间细节信息。注意力机制具有强大的选择特征能力，非常适合于光场图像显著性检测。因此，本文提出了FSM网络，从通道级和空间级两个方面加权光场特征，利用通道级注意力机制对联系更密切的高层次语义特征分配更大的权重，而对于非显著的目标响应变小，从而自适应地学习焦堆栈切片的贡献度，给每个切片特征赋予不同的权重，自动学习有用信息，过滤无用的信息；利用空间注意力从空间的角度赋予特征权重，过滤掉背景区域特征，提高了注意力机制的学习能力，从而更好地强调有用的光场特征，这有助于生成有效的特征以进行显著性预测。

与以往的CBAM（Convolutional Block Atten-tion Module）注意力模块［20］不同，本文的FSM网络采用无降维的方式进行通道级和空间级的加权，提高特征表示能力，选择最有用的特征。FSM网络如图4所示，先将VGG-19输出的12张特征图进行级联，再在不降低通道维数的情况下，对特征图进行全局平均池化以整合全局信息。在池化层后输入一个1×1×K的一维卷积，再通过sigmoid激活函数得到权重系数。将通道注意力机制得到的特征通过1×K×N全局平均池化以整合全局信息，最后执行K×1×N全局最大池化以细化边缘信息，通过两种池化方式的结合进一步提高网络捕捉有效信息的能力。然后经过sig-moid激活函数得到权重系数，最后用权重系数与焦堆栈图像相乘，得到最终的通道级和空间级的注意力特征。其中卷积核K表示局部跨通道间的覆盖范围，通过一个与特征通道数相关的函数自适应确定：

640.webp (3).png

其中：Ф表示K和通道C之间的映射关系，Podd表示P的相邻最近奇数。将具有不同权重的特征张量用sigmoid激活函数归一化处理，并与对应的特征块相乘，实现了对特征块中不同特征的自适应校准。

640.webp (4).png

2.3.2特征交互模块FIM

特征的高底层之间存在信息和分辨率的差异，具体表现为低层的细节特征分辨率更高，而高层的语义特征分辨率较低。因此为了取得准确的显著结果往往需要考虑图像的全局信息，本文采用FIM网络自适应地用高层次的全局上下文特征指导低层次的细节特征选择，以渐进方式选择性地集成多级上下文信息，让网络在训练阶段能够自适应地处理不同样本的尺度变化。通过对不同层的特征进行整合实现信息互补，有效地改善了不同卷积层融合所造成的信息丢失问题，使每个层级的特征切片都更加精准地对显著目标进行定位。

如图5所示，经过FSM网络之后，输出Conv2~Conv5四层不同尺寸的特征图，分别为64×64×（64×13）、32×32×（64×13）、16×16×（64×13）、16×16×（64×13）。利用不同特征间的关系，通过CIM（Convolution Interaction Module）网络将特征反馈给上一层特征，用高层的全局上下文特征指导低层的细节特征选择，使每个层级的特征切片都更加精准地对显著目标进行定位。最后将上一层输出特征与FIM网络输出的特征进行相加，再利用一个1×1的卷积对特征进行通道压缩，获得具有64维度的特征块，使低层结构信息和高层语义信息融合，从而实现信息的交互。

640.webp (5).png

CIM网络如图6所示。为了能够捕获多尺度对象和适应交互操作，首先对输入CIM模块的低分辨率特征进行上采样，对高分辨率特征进行卷积，使其具有相同的特征分辨率。用“Conv-BN-Relu”结构的卷积块获取高层信息，然后用池化和卷积进行特征编码提取低层信息。最后将低层信息通过卷积压缩特征，使低层细节信息和高层语义信息逐像素相加，得到交互的特征。

640.webp (6).png

2.4优化模块

焦堆栈图像和全聚焦图像都代表相同的场景，并且在颜色和纹理上具有很大的相似性。焦堆栈图像之间的差异反映了焦点深度的变化，全聚焦图片的聚焦信息可以作为辅助信息，帮助定位显著物体。因此，本文先将主体图与焦堆栈图像输出的特征相融合得到初始显著图，从而有效提高显著图的完整性；再利用显著性检测与边缘检测之间的相关性，使用FFM网络将边缘特征引入到显著性检测中，通过对高层和低层信息进行充分融合实现信息互补，从而补充显著目标在边缘处的完整性，有效提高检测的显著效果。

FFM网络如图7所示。以初始显著图和边缘增强图为FFM网络的输入，使对应层的特征逐像素相加，再通过“Conv-BN-Relu”结构的卷积块，最后使用上采样得到与输入图像相同分辨率的显著图。FFM网络巧妙地将边缘增强图和初始显著图相融合，实现了信息互补，有效地保留了显著图的边缘细节信息。

640.webp (7).png

2.5混合损失函数

由于显著性检测是像素级分割任务，因此显著性检测一般使用交叉熵损失函数。但交叉熵损失函数通常是平均对待每个像素，无法对像素特性做针对处理，并且用交叉熵损失函数训练出来的模型在判别边界像素点时，忽略了图像的全局结构，导致边缘模糊。

因此，本文从图像的分割和整体角度考虑，使用IoU损失函数监督主体图和边缘增强图，使用交叉熵损失函数监督初始显著图和最终的显著图。本文的混合损失函数可以优化全局结构，而不是专注于单个像素，更多地关注在前景目标上，获得了边界更加清晰的显著图。混合损失函数如式（2）所示：

640.webp (8).png

其中：（i，j）表示像素大小，G（i，j）和S（i，j）分别表示像素（i，j）的标签值和预测值。

三、引言实验及结果分析

3.1实验细节

为了评估网络的性能，本文在两个公共的光场图像数据集DUT-LF［5］和LFSD［21］中进行了实验。其中DUT-LF数据集包含1462个样本，1000个样本用于训练，其余462个样本用于测试；LFSD数据集由Lytro相机捕获的100个光场样本组成。由于DUT-LF数据集中包含了许多挑战性场景，如前景与背景颜色相似、背景杂乱、前景有遮挡等，因此本文选择DUT-LF数据集中的训练集来训练所提出的模型，用DUT-LF和LFSD数据集中的的测试集测试本文的网络。本文的VGG-19网络在ImageNet［22］数据集上进行预训练以初始化参数，其余模型参数进行随机初始化。本文网络是在Pytorch0.4框架上实现的，在配置为GeForceRTX1080-TiGPU电脑上执行。本文采用了一些数据增强操作：翻转、裁剪和旋转等，把训练图像扩展为原始的11倍。具体操作为：使用水平翻转和垂直翻转，分别从上、下、左、右和中裁剪部分图像，使图像分别旋转90°、180°和270°。整个网络训练采用端到端的方式，使用随机梯度下降（StochasticGradientDe-scent，SGD）优化。Weightdecay、momentum、learningrate分别设置为0.0005、0.99、1e-10。本文所有训练图像和测试图像的大小均为256×256×3，Batchsize设为1。该网络训练5天，在15个epoch后收敛，每个epoch的时间为3h。

为了对本文显著性检测算法的性能进行评估，将本文提出的方法与现有的传统显著性检测方法LFS算法［21］、RDFD算法［23］和FPM算法［24］，基于深度学习的RGB图像显著性检测方法DSS算法［15］和EgNet算法［16］，基于深度学习的RGB-D图像显著性检测方法S2MA算法［25］，基于深度学习的光场图像显著性检测方法MAC算法［6］、MOLF算法［7］、LFNet算法［8］、ERNeT算法［9］和PANeT算法［10］进行了全面的比较。为了公平比较，本文使用作者公布的显著性结果（LFS算法、RDFD算法、DSS算法和MAC算法、ERNeT算法和PANeT算法）或者使用它们公开的参数和代码进行了测试。

3.2定量评价与分析

本文采用了5种评估指标，包括广泛使用的精确召回率PR（Precisionand Recall）曲线来评估显著性算法的性能，F-measure衡量网络的总体性能，平均绝对误差MAE（Mean Absolute Error）评估手工标注的真实显著性图与预测结果图的相近程度，S-measure评估捕获图像空间级的结构相似性，E-measure通过同时考虑局部像素和全局整体来评估预测结果和真值图的相似性。

在DUT-LF和LFSD两个数据集中，本文方法和其他算法对比的PR曲线图如图8所示。可以看出，本文算法在DUT-LF数据集测试中位于最右上方，在LFSD数据集测试中仅次于PANeT和ERNeT算法，从而更直观地证明了所提方法的有效性和准确性。LFSD数据集图像的分辨率为360×360，而本文训练网络输入图像的分辨率为256×256，将图像下采样之后分辨率会减小，图像所包含的特征信息也相对减小，此外本文网络输入的焦堆栈切片个数为12张，而LFSD数据集为每个场景提供的焦堆栈切片个数为1~12张不等，因此将下采样之后的LFSD数据集的图片输入到本文算法中进行测试时，检测的PR曲线图的效果没有达到最优。

640.webp (9).png

表1显示了在DUT-LF和LFSD两个数据集中，本文方法和其他方法在F-measure、MAE、S-measure和E-measure四个指标上的对比结果。可以看出，本文所提出的网络在DUT-LF数据集上仅次于PANeT算法和ERNeT算法；在LFSD数据集中，MAE为最优，S-measure为次优。虽然PANeT算法和ERNeT算法在指标上优于本文的算法，然而这些算法对显著性目标的边缘信息与显著性目标信息之间的互补性尚未得到足够的重视，且未充分考虑高层语义信息和低层纹理信息对检测网络的贡献差异性，难以获得边界更清晰的显著图。而本文算法引入边缘分支网络去保留显著目标更多的细节信息和边缘轮廓信息，充分考虑到显著目标与显著边缘之间的互补性，通过特征聚合模块以强调有用的特征，抑制不必要的特征，并充分考虑特征的多尺度信息，用高层次的全局上下文特征指导低层次的细节特征选择，从而获得了精度更高、边缘更加清晰的显著图。

640.webp (10).png

3.3定性评价与分析

图9和图10分别显示了在DUT-LF和LFSD两个数据集中，本文方法和其他方法在视觉效果上的对比结果。从两幅图中可以直观地看出，传统的光场图像显著性检测算法不能很好地抑制背景，甚至对显著目标的检测都不完整，而基于深度学习的显著性检测算法要优于传统的显著性检测算法。基于深度学习的光场图像显著性检测算法基本都优于基于深度学习的RGB图像和RGB-D图像的显著性检测算法，并且更符合人眼感知机制。

在DUT-LF数据集中，本文选取7个场景进行分析比较，第一个为复杂背景的场景，本文算法能准确地突出显著对象，完整地检测出人体，预测图更接近于真实显著图，而且对小细节处理地更好。第二至第四个为前景与背景颜色相似的场景，和其他算法相比，本文提出的方法能够较好地检测出显著物体，并且利用边缘增强感知模块和混合损失函数生成了边界清晰的显著图。最后三行为有遮挡的场景，其他的网络均不能有效地抑制背景和提取显著目标，而本文算法可以有效地抑制背景，检测出显著目标，得到基本完整且边界清晰的显著图。

在公开的光场图像数据集LFSD中，对本文所提出的算法进行了测试，并对比了其他先进算法，结果如图10所示。本文展示了7张复杂的自然场景图像，实验结果表明，本文算法能够有效地利用特征交互和主体图找到完整的显著物体，较好地检测出显著对象，有效地抑制非显著区域，同时利用边缘增强图改善边界模糊问题，获得边界清晰的显著图，从而进一步证明本文算法的有效性。

640.webp (11).png

640.webp (12).png

从图9和图10可以看出，本文算法虽然在定量分析的客观指标上仅次于PANeT和ERNeT算法未达到最优，但在主观的定性分析测试结果上，尤其是在复杂场景中，如背景杂乱、前景与背景纹理相似显著目标遮挡等情况下，均优于其他算法，同时可以准确地突出显著对象，抑制非显著区域，获得边界清晰的显著图。

3.4消融实验

本文通过多个消融实验来验证所提出的基于边缘引导的光场图像显著性检测网络在显著性检测过程中所起到的作用和对最终结果的贡献程度，其中将特征提取模块和特征聚合模块组成一个编解码网络对全聚焦图像和焦堆栈图像进行预测，将这种网络定义为“基本网络”。

定量比较的结果如表2所示。从消融实验的结果可以看出，在DUT-LF数据集中，当使用基本网络时，MAE和F-measure分别为0.058和0.781。将边缘图（真值图的边缘区域）和主体图添加到基本模型中，得到MAE的下降，F-measure的上升。当把边缘增强图和主体图添加到基本模型中时，显著性效果更好。从这两个实验对比结果可以看出，使用边缘增强图可以更好地获取边缘细节，检测性能更加优越。最后，在上述网络的基础上分别加入交叉熵和混合损失函数，MAE和F-measure分别为0.046和0.88，可以看出添加混合损失函数的网络模型获得了最佳效果。

640.webp (13).png

消融实验结果表明，每个模块对显著性检测都有一定的促进作用，验证了基于边缘引导的光场图像显著性检测方法的有效性；也表明本文的网络充分考虑了边缘信息和显著目标信息之间的互补性，成功地避免了训练过程中边缘像素对显著性目标像素的干扰。该网络的检测性能无论在准确性还是在降低误差方面都有了一定的度提升，能够更加精确地从复杂场景中检测出完整的显著对象，获得边缘清晰的显著图。

四、结论

本文提出的基于边缘引导的光场图像显著性检测算法，先利用边缘感知模块对全聚焦图像进行学习，更好地提取边界信息；再对焦堆栈图像从通道级和空间级两个方面有效地增强显著目标区域的权重，通过FIM网络更好地获取全局语义信息；然后，将学习到的焦堆栈图像特征与主体图融合得到初始显著图，更好地获得完整的显著目标；最后，将初始显著图和边缘增强图输入到FFM网络中进行融合，充分考虑显著目标与显著边缘之间的互补性，同时使用混合损失函数训练网络以得到边界清晰的高精度显著图。实验结果表明，与现有的算法相比，本文的网络在最新的光场数据集上，F-measure和MAE分别为0.88和0.046，且在前景与背景相似、背景复杂、前景有遮挡等复杂场景下，能获得显著目标更加完整和边缘更加清晰的显著图，证明了本文方法的有效性。后续工作考虑只在低层网络中添加边缘损失增强结构，用低层丰富的细节边界信息作为辅助，进一步提高检测的准确性。

(文章来源于液晶与显示，如有侵权，请联系删文)