Kaleido's Personal Page

2021/4/9 会议记录

2021/4/9

Mr.Chen's 只言片语:

BinaryDuo： 1.数值梯度无穷多时间/样本要比STE好。
2.appendix H & 4.1

weight空间是离散的（所以需要平滑）：

看一下这个问题是否存在（做一遍binaryduo的实验验证一下）-> 类NES方法search ->  
  

NES
e_i是方向，相减是下降的大小：

验证benchmark estimator （可行的方向）
低维的toy，看看STE为什么不行

妃哥：

clean code base（摘出来） / NonAWNAS
实现一下gradient functions /工程上完善
为什么要smoothed loss？需要问一下陈老师

天辰：

数值梯度方法的库？（自己搭一下）
reference 4 code base:https://github.com/A-suozhang/meanteacher-pytorch/blob/master/utils.py

To-Do

1. 对齐配置跑一下BMXNet XNOR实现（早期epoch对齐，eva7）
2. 搭toy model（类BinaryDuo，两三层CONV，FP weights & Binary activation, priority ++）
3. 搭code base
4. 扩大width看一下accuracy。
5. 看一下陈老师给的NES的文章，和他新给的另一篇文章。

Questions

Q1:为什么要做smooth -> gradient 方向更丰富（而不是0/1）？ Q2：BMXNet的weight initialization？（我们似乎是norm，忘记BMXNet的initialization方法了。

Kaleido's Personal Page

master