221130 TIL: Transformer와 그래디언트 안정화November 30, 20221. Transformer out = self.embedding(x) * math.sqrt(self.d_embed) 이 코드는 그래디언트 안정화 목적이다. navigation = {"previous": "221128 TIL: PyTorch Warmup과 Pandas 효율성","next": "221201 TIL: 앙상블 학습 기법"}