exploding gradients
문제를 피하기 위한 기법
value clipping
과 norm clipping
이 있음
torch.nn.utils.clip_grad_norm_(모델 파라미터, 설정한 norm 최대값)
🙋 NLP에서 exploding gradients
이 발생하는 경우 ?
batch normalization
은 exploding gradients
문제를 해결하는 데 대부분 도움이 됨
하지만, 구현이 조금 까다롭기에 → gradient clipping 사용해 간단하게 문제 해결할 수 있음(쉽지만 효과적)
유튜브 동영상 : [Gradient Clipping for Neural Networks] (https://www.youtube.com/watch?v=KrQp1TxTCUY)
origin gradient vector
와 벡터 방향이 완전히 다르게 변함
모든 값을 -1 에서 1 범주 안으로 변환시켜줌
origin gradient vector
의 방향을 유지할 수 있음
하지만, 어떤 gradient vector
는 값이 매우 매우 작아질 수 있음 → 가중치 업데이트 시 효과 미미
➕)