728x90
Week 1 과제를 수행하면서 참고할 점
1. W를 크게 설정하면 마지막 activation 함수(sigmoid라 하면) 결과값이 0 혹은 1로 귀결될 가능성이 높다.
그러면 Loss 함수의 특성상(Logistic Regression의 Loss 함수) cost가 무자비하게 높아질 수 있고, 그로 인해 최적의 W와 b 값을 찾기 위한 시간이 오래 걸린다.
따라서 , W의 분산을 작게 설정하여 좀 더 activation 함수의 결과값이 0과 가깝게 되도록 만들어 update를 빠르게
한다.
728x90
'DeepLearning Specialization(Andrew Ng) > Improving Deep Neural Networks' 카테고리의 다른 글
[Week 3] 1. Hyperparameter tuning (0) | 2020.10.24 |
---|---|
[Week 2] Programming Assignments (0) | 2020.10.24 |
[Week 2] 1. Optimization Algorithms (0) | 2020.10.23 |
[Week 1] 3. Setting up your Optimization problem (0) | 2020.10.19 |
[Week 1] 2. Regularizing your neural network (0) | 2020.10.18 |