2021/5/19结果反馈与讨论记录

2021/5/15

BinaryDuo设置实验后续

实验设置：

困难：

NES的超参sigma搜索起来代价太大（花费时间太长），而CDG的超参epsilon在Toy model上搜索较快，可饱和搜索，因此希望CDG的表现持续弱于某一NES的表现（这样就不用搜索NES超参的最佳值了）。
CDG lr-loss decrease plot
- Dim = 8
- Dim = 16
- Dim = 32
- Dim = 64
NES lr-loss decrease plot
- Dim = 8 Sample = 500
  
  Sample = 5000
  
  Sample = 50000
- Dim = 16
  Sample = 500
  
  Sample = 5000
  
  Sample = 50000
- Dim = 32
  Sample = 500
  
  Sample = 5000
  
  Sample = 50000
- Dim = 64
  Sample = 500
  
  Sample = 5000
  
  Sample = 50000
best loss decrease - num_dim plot

实验设置：

问题：
NES grad似乎不能指向loss下降的方向

CDG lr-loss decrease plot
- Dim = 8
- Dim = 16
- Dim = 32
- Dim = 64
NES lr-loss decrease plot
- Dim = 8 Sample = 500
  
  Sample = 5000
  
  Sample = 50000
- Dim = 16
  Sample = 500
  
  Sample = 5000
  
  Sample = 50000
- Dim = 32
  Sample = 500
  
  Sample = 5000
  
  Sample = 50000
- Dim = 64
  Sample = 500
  
  Sample = 5000
  
  Sample = 50000

实验设置：

ABOLISHED

（从输入端算起）第1层，kernel size=8*8*3*3

（从输入端算起）第8层， kernel size=16*16*3*3

（从输入端算起）倒数第二层， kernel size=64*64*3*3

（从输入端算起）第1层，kernel size=16*16*3*3

（从输入端算起）第8层，kernel size=32*32*3*3

（从输入端算起）倒数第二层， kernel size=256*256*3*3 Absent

（从输入端算起）第1层，kernel size=8*8*3*3

（从输入端算起）第8层， kernel size=16*16*3*3

（从输入端算起）倒数第二层， kernel size=64*64*3*3

Stochastic Rounding流程：
- （预训练模型）
- 输入一个input，对于evaluate model每一层的输出（Activations，A），（另一种方法？）分正负分别除以torch.abs(torch.max(A))/torch.abs(torch.min(A))，将A的取值范围映射到[-1, 1]，再对A加1除2，得到[0, 1]上的A作为prob，设定temperature进行relaxed Bernoulli采样，采样值取值范围为[0, 1]，减去0.5后通过sign得到stochastic rounding activation
- STE-like forward & backward
Exp on raw model
batch size = 640k
batch size = 256
Exp on pretrained model
使用STE进行预训练，batch size = 16k，训练500step（至loss不再有明显下降）
batch size = 256

Mr.Chen:

FP model上测试CDG/NES算对了（https://en.wikipedia.org/wiki/Rosenbrock_function）
- 还可能是平滑后的梯度指向的不是loss decrease的方向/平滑本身有问题
- 不找平滑之前的函数的最佳方向了/离散函数的方向 - NES max point（sample之后normalize，看哪个点下降最快）
Stochastic rounding 前传量化的图随机性
在STE grad上做扰动，找loss下降最快的点
STE backprop改成随机的。

妃哥：