Long-Tailed Classification by Keeping the Good and Removing the Bad Momentum Causal Effect NIPS,2020
背景和动机

在传统的长尾分布处理方法中,普遍使用的重采样、重加权等re-balancing办法可能导致对头部类欠拟合且对尾部类过拟合,从而产生shortcut。而Decoupling为代表的二阶段训练方法则不太符合深度学习端到端的理念。
$$
v_{t}=\underbrace{\mu \cdot v_{t-1}}_{\text {momentum }}+g_{t}, \quad \theta_{t}=\theta_{t-1}-l r \cdot v_{t},
$$
通过分析优化器的动量项可能在训练数据时引入数据分布,于是试图通过因果分析去改进动量项,得出一种通用且有一定可解释性的长尾问题解决方法。