resource:github上备份的包括ipad标注的pdf版本。
作者又是Adrian Bulat、Brais Martinez和Georgios Tzimiropoulos,这仨哥们还真能水文章啊(呜呜,还能中顶会,数据还好看就是不知道数据保不保真)。
Summary:文章挺有用的,感觉 rating 4/5 的样子?主要的思路是一种类似ensemble的expert/conditional conv,用input通过gate func选一个expert出来,然后扩大width,通过group conv抵消掉增大的op num,还有就是半自动地设计了binary network的结构?但是没有看实现细节(我也不实现是吧)。
文章的贡献有:
有点打开新世界的窗户的感觉,这种方法总体很有道理,背景review的时候说了四种(后两种有点意义不明)现有的工作,1)skip-connect: bypass some part of a model 2)split dataset & seperately train different part.
训练的时候也是2-Stage进行的。每个expert也是通过正交的数据训练的。训练的时候先训一个expert,再用这个expert作为初始化。在4.2里讲了group conv,这里是用width expansion涨点,然后用group conv把op num拉回来,非常聪明。
讲得有点意义不明的感觉…就是很多东西堆砌在一起?小标题有Effect of block arrangement
(就是N~0~N~1~N~2~N~3~保持complexity不变,具体分布排列组合测点数据,就这?)、Depth vs Width
(preference, known)、Effect of aggregation over groups
(说在grouped conv layer后接 1x1 conv layer without group可以涨点)、Effect of groups
(用group conv会降点)。
说用4x experts只占了2x storage。
说width ↑ 也会影响downsample里的op num(合理),解决方法是把一个strided conv拆成两个小conv(似乎没说在哪层里用stride?)
more aggressive augmentation leads to consistently better results.
对狙,说老师↑学生跟着↑。