论文Temporal-Relational CrossTransformers for Few-Shot Action Recognition

tag:temporal

一言以蔽之:作者提出了一种高效利用时序特征的TRX模型。

Method

对于一个视频分类,单帧的信息缺乏表现力,所以选了相对有序的两帧进行比对。作者从query video的所有帧集合Q中选择任意两帧的组合构成一个pair p,并用

Q_p=[\Phi(q_{p1})+PE(p_1),\Phi(q_{p2})+PE(p_2)]\in \mathbb{R}^{2\times D}

表示query representation,其中\Phi(\cdot)表示一个卷积,把帧映射为D维的条。PE(\cdot) 是positional encoding。相同的道理,构建了一个集合S_c,这个集合包含了support set中类别c的k个的样本的所有pair representation。

作者接着使用了一中类似于spatial crossTransformer的temporal crossTransformer,在crossTransformer中qkv分别由\Upsilon\Gamma\Lambda表示,只不过其qkv不是来自同一输入。后续就是近乎transformer的处理,点积求相似度。用support v和之前的j结果想乘得到prototype,再与query v计算距离,离得最近的就是一类。

说实在话有点复杂,我只能说看懂了,讲是讲不太明白,写出来更是不知道自己在说什么。

后面作者提出选2、3帧。不过基本的计算原理都类似。

创新之处:这个是我目前回头总结的第一篇单独处理时间序列问题的,改编了一下attention的机制,不再self了,但是本质上还是qkv一通计算,最后算一下相似度。作者为了这个时间序列,找了前后两帧作为输入,蛮有想法。

思考

  1. 我看师兄有用这个方法做实验部分,还有otam和bi mhm,这样后面也可以根据代码再研究研究。