Attentive Fine-Grained Structured Sparsity for Image Restoration

2022/5/23

来源:CVPR22
resource:github上备份的包括ipad标注的pdf版本。
作者是首尔大学的Junghun Oh, Heewon Kim, Seungjun Nah, Cheeun Hong, Jonghyun Choi, Kyoung Mu Lee等人,话说Kyoung Mu Lee这个B也太能水了吧。

Summary:A+B了个M:N剪枝;用不同剪枝比例的模型拼出一个dynamic patch inference flow。具体来讲,将1:M的参数tensor(幅值排序)作为基本的剪枝单元,用STE训一个channel-wise的binary mask(大于阈值取1,小于阈值取0),将mask作为约束项进行训练。

Key words

  • N:M pruning
  • dynamic patch inference

Rating: 2.8/5.0 一般,就一普通A+B LLCV+pruning,倒是做了很多实验。
Comprehension: 4.5/5.0 挺好懂。

  • 一张图总结全文:

Preliminary

  • N:M剪枝
    • 结构化剪枝和非结构化剪枝的一种中间态?
      • 细粒度剪枝(√),通用GPU加速(√)
    • 剪输入feature(等效剪参数/剪输出feature?),将计算节约至N:M

Methods

  • N:M pruning
    • 将 1:M参数作为剪枝的单元,由一个mask决定该单位(这个通道)的参数是否保留

    • (经典瞎说) In the case of N:M sparsity pattern, however, it is challenging to determine such structural units because there are many possible configurations for preserving N weights out of M weights.

    • 使用STE训练这个binary mask(latent mask大于阈值取1,反之取0)

    • 初始参数的权重用于分组,为避免大幅值参数先于小幅值参数被剪去,利用Priority-Ordered Pruning"保证剪枝顺序,先剪小幅值通道:

    • 但是有个问题,如果有的通道在训练中被训小了呢?/原始的大小关系被打破了?(没有回答)

    • 将mask作为约束训练,直到硬性约束满足,再拿掉正则项finetune:

  • Adaptive Inference
    • 相当于ensemble方法,每个ensemble对象都是剪枝比例不同的网络,根据patch的难度和消耗的计算资源做trade-off
    • (MSE Estimator)对于每个剪枝网络训练一个轻型CNN,估计还原出来的图像和GT之间的MSE分数
    • 利用下式+调超参确定性能-效率 trade-off:

    • 最后可以实现灵活权衡的inference

Results

  • Extensive实验,Deblur + SR两个任务,每个任务各做三个模型,比较不同方法: