본문 바로가기

728x90

전체 글

(61)
[Week 3] 2. Batch Normalization Batch Normalization 1. Normalizing activations in a network 2. Fitting Batch Norm into a neural network 3. Why does Batch Norm work? 4. Batch Norm at test time 1. Normalizing activations in a network 1) 기본개념 Normalization이 필요한 이유에 대해서는 Opimization 강의노트에 자세히 기술했으니 참고 바란다. 학습 속도를 높이기 위해 feature들을 Normalization하는 작업은 꼭 필요한데, 이를 통해 feature들의 scale을 맞춰주어 gradient descent 의 속도를 물리적으로 높일 수 있기 때문이다. 이건 ..
[Week 3] 1. Hyperparameter tuning Hyperparameter tuning 1. Tuning process 2. Using a appropriate scale to pick parameter 3. Hyperparameter tuningin practice : Panda vs. Cavier 1. Tuning process 정갈하게 바둑판 모양으로 hyperparameter를 선택해서 하는 것보다 산발적으로 random하게 뽑는 것이 더 좋다. 이유는 여러개의 hyperparameter 중에 뭐가 중요한지 모르며, random으로 할 경우 더 많은 값을 시도해볼 수 있기 때문이다. random하게 선택하고 성능을 체크하면 특정 부분에서 성능이 좋아짐을 확인할 수 있는데, 그 부분의 hyperparameter 조합을 더 밀도있게 적용시켜보는 '..
[Week 2] Programming Assignments 과제를 하며 momentum 에 대해 다시 고민해보았다. W[l]은 층별로 모두 다른 parameter이며 이를 iteration과 헷갈리면 안된다. 즉, Vdw[l] = beta * Vdw[l-1] + (1-beta)dw[l] 가 아니고 Vdw[l] := beta * Vdw[l] + (1-beta)dw[l] 이다. 이것은 코딩형식이므로 런던 온도의 예시와 같게 만들어준다면, Vdw[l](1) = beta * Vdw[l](0) + (1-beta)dw[l] => update( W[l] := W[l] - a*VdW[l]) Vdw[l](2) = beta * Vdw[l](1) + (1-beta)dw[l] => update Vdw[l](3) = beta * Vdw[l](2) + (1-beta)dw[l] => up..

728x90