论文ADAPTING IMAGE MODELS FOR EFFICIENT VIDEO ACTION RECOGNITION

tag:adapter,vit,task specific

一言以蔽之:把一个基于vit的网络冻住,分别加入一个结构简单的adapter可以让效果变好训练参数更少。

Method

首先先说一下adapter的结构 很简单。fc down->activation function->fc up,用残差链接一下。

特征提取用的就是vit,非常的经典了。结构大致就是这样。也非常形象。

adapter模块被安装在了vit的这些层中间,当然vit本身也不止这一层,而且msa是互相共享参数的,不过这个无所谓了因为反正都冻结,只在adapter上做训练。在这里,下面的被叫做temporal adapter,上面的被叫做spatial adapter,最上面的叫joint adapter,带有一个额外的权重因子,结构都是一样的。后面作者也有讲,对于一个12层的vit,在最高的六层加adapter性价比比较高。

这个不是做few shot的,但是可以用这个方法。在我看师兄的文章之前就告诉我是在这篇的基础上完成的,那我估计越然师兄的论文或许是对小样本做了一些单独的模块或者优化,借助这个理念完成的。

Strength

这是我总结的第一篇此类章,工作很简单,新增加的adapter也非常简单,非常好理解,而且效果很好。

据师兄所说,在这篇文章之前很少见到用vit的,大部分都还是resnet50,好像很有道理。也算是非常有创新的点。

疑问点

  1. 针对最上面的joint adapter,我觉得增加的因子作用没用交代清楚,为什么非要用残差连接一下也没说到我心坎里。

  2. 其实为什么要加一个joint adapter,他交代的也不是很清楚,可能是得倒回去再看他引用的其他文献。