2022/8/27 LLCV talk总结
2022/8/27
Summary
- Talk分成五个议题,分别是:
- Transformer是LLCV未来发展的趋势吗?
- 实验室技术在实际生产中效果并不好,该怎么解决?
- 进一步的,这个问题主要是讨论合成数据和真实case不匹配的情形
- 如何看待LLCV研究目前进入定式化状态,还有什么高价值的研究内容?
- 就是指LLCV发展陷入刷榜打点的陷阱
- LLCV有什么区别于其他任务的特点、难点?
- LLCV发文技巧;趣事分享。
- 议题讨论与结论
- (与我们的研究兴趣无关)Transformer议题请到了LLCV第一个A+B文章SwinIR的作者,除了他以外的嘉宾都暗示transformer只是一个新的A+B方式,难堪大用(除了一些minor的改进,似乎不能支撑领域进一步发展);细节可看讨论记录。
- (与我们的研究方向无关)实验室结果和实际结果不能匹配的原因来自①合成数据和真实数据特性背离严重;②模型overfitting到特定数据集;
- 有三条解决思路(完全含于我们目前的认知):
- 做unsupervision;(效果不好,前两年火过现已式微,或者改做semi-supervision)
- 采集paired数据(成本太高;工业界最主流的做法);
- 真实degradation过程建模 + 合成数据(sxs:困难,目前已有很多尝试,似可继续做);
- 工业界最主流的LLCV解决方案还是暴力采数据;数据相比模型是LLCV领域更核心的要素;
- 有三条解决思路(完全含于我们目前的认知):
- LLCV领域确实饱和了(所以会有很多定式化的工作);
- 可做基于数学物理prior + DL研究的工作,寻找LLCV领域的first principle(sxs:一直有人在做,但是不温不火;和传统方法的结合确实是继续发展的方向);
- DL-LLCV领域的进步基本靠搬运high-level的工作,应该从LLCV任务特性出发;(sxs:正确但无用)
- 近期发文密码是diffusion;
- 最重要的议题,因为时间跳过了,进入发文经验分享环节了
- 分享了一些AI领域发文共性问题。
- 结论:没有收获;讨论的预设问题与我们的关心的不重合,比如高效性问题没有纳入讨论,弹幕里多次申请互动未果;感觉LLCV领域taste可能不怎么好;嘉宾似乎有所保留;
一、LLCV里transformer是未来发展的趋势吗
- jinyun liang:
- transformer是一种新的backbone;动态感受野(感受野大,LLCV里感受野大对性能好);
- transformer理论计算量小,但是测试/训练速度慢;(因为实现的问题?小op和投影等);
- Conv的进展停滞很久了;18年的RCNN已经很好了;transformer比RCNN明显要好;
- transformer可以提供一个数据集上的upperbound(我反对);
- 需要进一步研究怎么变小、部署;
- transformer可以提供可解释性的窗口(不同意);
- jinjin liang:
- 不同意transformer是未来方向;
- ruicheng feng:
- local-attention 和 transformer的区别是什么?是设计成熟(传统non-local)吗?还是有本质区别?
- jinyun liang:
- transformer的思想和non-local很像(算patch和周围background的相似度等),可能只是实现上有些区别;
- jinjin liang:
- SwinIR里每个token是像素,在LLCV里很成熟,在high-level task里不行;
- 像素token计算量大,但是更准(不丢失信息);
- denoise和deblur可以用U-Net类的架构降采样降低计算量(但是SR不行) -> 一个新知识;
- yihao liu:
- (LLCV里CNN+Transformer很重要,没法剔除CNN)LLCV里在transformer前后都要插入Conv(似乎和提取处理输入输出有关),没有这种Conv层性能下降很严重;
- transformer对不同任务有倾向性;dehaze上效果不行;transformer的结构设计对任务也有倾向性(不就是说不同结构效果不一样吗。。);
- LLCV transformer的pretrain可以研究(目前已经有文章了);
- jinjin liang:
- transformer废卡,提高门槛;
- yihao liu:
- 要加速,去除冗余;
- jinyun liang:
- (一个有效信息)小模型有效那么大模型也会更强;
- 可用小模型做surrogate;
- yihao liu:
- 有一些case不行;模型增大后小模型上有效的module大模型上可能就不好了(。。。);
- ruicheng feng:
- 讲了mobile的故事(transformer的高效性);
- jinjin liang:
- 大的CNN都不容易在mobile上跑,更不必说transformer;
- 高通6系soc上没优化的CNN跑LLCV任务跑个几十秒没问题(LLCV模型高效性很差);
二、实验室技术在真实场景下效果并不好,怎么能解决落地问题?
问题细化:仿真数据上性能好的方法可迁移性不好。
- jinyun liang:
- unsupervised;
- jinjin gu:
- unsupervised最近研究变少了;效果也不行;
- ruicheng feng:
- degradation -> restoration的循环,artifacts多,不符合LLCV的要求,但是可以做style transfer;
- jinjin gu:
- 收集配对LR-HR图像(和相机有关,也很不好对齐);
- jinjin gu:
- huawei 计算光学;建模模组(每个元件的畸变都不一样,且每个个体都不一样),开销很大; -> 工业界喜欢暴力出奇迹?
- 数据采集的方法很boring,流水线;各个公司比性能还都是在比数据收集;数据才是核心,壁垒;
- 过于依赖数据反而说明学术界不行(同意,做了个寂寞);
- jinjin gu:
- 真实退化模型(从头到尾的噪声建模);
- unsupervised;
- yihao liu:
- 原因:domain迁移特征不匹配;overfitting;
- 成本问题(为各个组件建模等);
- 解决方法1:合成数据需要了解退化特征(精确噪声建模);
- 问题:没法精准建模,因素太多;
- 解决方法2:采集paired数据集;
- 问题:采集代价也很大,时间成本也很高;老电影复原等任务没法采用这种方法(特殊任务下label不好收集)
- 解决方法1:合成数据需要了解退化特征(精确噪声建模);
- unsupervised:
- (类似半监督)可与采集的方法结合,扩展数据;减少收集成本;
- ruicheng feng:
- 有些问题没法用数学建模;(iphone上的鬼影 -> flare?)多次折射等(随机性、入射角度等); -> 只能数据驱动;
三、如何看待底层视觉研究进入定式化状态,还有什么高研究价值的问题?
问题分析:现在的工作都是在任务上打点,很无聊。
- jingyun liang:
- 有好有坏,很无聊,但是比较起来规范。
- yihao liu:
- LLCV里一般都是把high-level的东西拿过来用;-> 数学方法建模+DL;
- 目前饱和了。
- ruihao liu:
- 下一波论文密码是diffusion。
- haitao mao:
- 找物理中的first principle,做DL+physical modeling。
四、LLCV独特于其他领域的难点是什么? 时间不够了,跳到第五个问题了。 ???这么关键的问题能跳过的?直接跳到发文章是吧?
五、怎么发LLCV论文?
- yihao liu:
- 换着benchmark刷点(A不行了去刷B);
- 做LLCV可解释性;
- 做IQA;
- jinjin gu:
- 论文不能露怯;
- 拒稿常用理由:
- novelty;
- 多来点数学包装(不能太简单,也不能太复杂);
- ruicheng feng:
- 多编些故事,来点knowledge。