1. Transformer

  • out = self.embedding(x) * math.sqrt(self.d_embed) 이 코드는 그래디언트 안정화 목적이다.