some KD-related notes
知识蒸馏被视为一种正则化方式。从统计学的角度看,正则化旨在降低模型的方差。 在模型训练的过程中,拟合数据和正则是一对矛盾体。拟合数据需要模型的bias尽量减小,靠近数据的均值,正则需要减小模型的方差防止过拟合。 使用软标签进行训练会导致较大的bias和较小的方差。