resource:github上备份的包括ipad标注的pdf版本。
作者是首尔大学的Junghun Oh, Heewon Kim, Seungjun Nah, Cheeun Hong, Jonghyun Choi, Kyoung Mu Lee等人,话说Kyoung Mu Lee这个B也太能水了吧。
Summary:A+B了个M:N剪枝;用不同剪枝比例的模型拼出一个dynamic patch inference flow。具体来讲,将1:M的参数tensor(幅值排序)作为基本的剪枝单元,用STE训一个channel-wise的binary mask(大于阈值取1,小于阈值取0),将mask作为约束项进行训练。
Key words:
Rating: 2.8/5.0 一般,就一普通A+B LLCV+pruning,倒是做了很多实验。
Comprehension: 4.5/5.0 挺好懂。
(经典瞎说) In the case of N:M sparsity pattern, however, it is challenging to determine such structural units because there are many possible configurations for preserving N weights out of M weights.
使用STE训练这个binary mask(latent mask大于阈值取1,反之取0)
但是有个问题,如果有的通道在训练中被训小了呢?/原始的大小关系被打破了?(没有回答)
将mask作为约束训练,直到硬性约束满足,再拿掉正则项finetune:
Extensive实验,Deblur + SR两个任务,每个任务各做三个模型,比较不同方法: