1. 적절한 학습률(learning rate)
- 학습률이 높을 경우
- 한 번에 이동하는 거리가 커지므로 최적값에 빨리 수렴할 수 있다.
- 그러나 너무 크게 설정하면 최적값에 수렴하지 못하고 다른 곳으로 발산하는 경우 발생
- 학습률이 낮을 경우
- 발산하지 않는 대신 최적값에 수렴하는 시간이 오래 걸림

2. local minimum
- 지역 최솟값에 안착해 버리는 경우
- 전역 최솟값을 찾지 못하고 local minimum에 수렴

3. 해결법
- Adaptive Gradient Descent
- 학습 도중에 학습률을 지속적으로 변경
- Momentum GD
- local minimum에 빠지는 경우를 방지하기 위해 관성력을 추가
- 이외에도 다양한 경사하강법 존재