Knowledge Distillation

some KD-related notes

21_ICLR_Rethinking Soft Labels for Knowledge Distillation: A Bias-Variance Tradeoff Perspective

知识蒸馏被视为一种正则化方式。从统计学的角度看，正则化旨在降低模型的方差。
在模型训练的过程中，拟合数据和正则是一对矛盾体。拟合数据需要模型的bias尽量减小，靠近数据的均值，正则需要减小模型的方差防止过拟合。
使用软标签进行训练会导致较大的bias和较小的方差。