본문 바로가기

728x90

전체 글

(61)
[Week 2] 1. Optimization Algorithms 1. Mini-batch gradient descent 2. Understanding Mini-batch gradient descent 3. Exponentially weighted averages 4. Understanding exponentially weighted averages 5. Bias correction in exponentially weighted averages 6. Gradient Descent with momentum 7. RMS prop 8. Adam optimization algorithm 9. Learning rate decay 10. The problem of local optima 1. Mini-batch gradient descent 1) 목적 mini-batch 를 하는..
[Week 1] Programming Assignments Week 1 과제를 수행하면서 참고할 점 1. W를 크게 설정하면 마지막 activation 함수(sigmoid라 하면) 결과값이 0 혹은 1로 귀결될 가능성이 높다. 그러면 Loss 함수의 특성상(Logistic Regression의 Loss 함수) cost가 무자비하게 높아질 수 있고, 그로 인해 최적의 W와 b 값을 찾기 위한 시간이 오래 걸린다. 따라서 , W의 분산을 작게 설정하여 좀 더 activation 함수의 결과값이 0과 가깝게 되도록 만들어 update를 빠르게 한다.
[Week 1] 3. Setting up your Optimization problem Setting up your Optimization problem 1. Normalizing Inputs 2. Vanishing & Exploding Gradients 3. Weight Initialization for network 4. Numerical approximation for gradients 5. Gradient Checking 1. Normalizing Inputs 1) Normalization 을 하는 이유 Normalization을 하지 않아도 NN은 W와 b를 J를 최소화 하는 방향으로 update할 것이다. 다만, 위와 같이 Weight(b포함) 의 그래프가 Normalization했을 경우에 비하여 짜부되어 물리적으로 계산 효율이 떨어지는 것. hleecaster.com/ml-n..

728x90