일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- ddpm
- multimodal
- 오블완
- dl
- UE5
- animation retargeting
- deep learning
- 디퓨전모델
- userwidget
- Font Generation
- Generative Model
- BERT
- 딥러닝
- Few-shot generation
- WBP
- ue5.4
- 언리얼엔진
- CNN
- Unreal Engine
- Diffusion
- WinAPI
- 폰트생성
- RNN
- NLP
- GAN
- 모션매칭
- Stat110
- 생성모델
- cv
- motion matching
- Today
- Total
목록SGD (2)
Deeper Learning
Momentum Momentum 방식은 Gradient Descent에 관성을 적용한 것으로 각 weight의 과거 시점의 정보를 저장하고 이를 활용하여 weight가 업데이트된다. $\gamma$는 momentum term으로 0.9를 기본값으로 대부분 사용한다. 위의 그림처럼 Oscillation이 발생할 경우 Momentum을 사용하면 이동방향이 계속해서 바뀔 경우 업데이트가 덜 되며, 같은 방향으로 업데이트가 계속될 경우 더 빠르게 업데이트되기 때문에 결과적으로 SGD보다 빠르게 global minima에 도달할 수 있다. Adagrad Adagrad(Adaptive Gradient)는 지금까지 각 변수의 누적 변화 정도를 기록하여, 변화가 많았던 변수는 step size를 작게 하고 변화가 없었..
Gradient Descent 경사하강법은 미분을 통해 얻은 Gradient Vector를 빼서 Weight를 업데이트하여 cost function을 줄이는 알고리즘이다. Loss fucntion의 기울기를 미분을 통해 구하고 경사의 절댓값이 낮은 쪽으로 계속 이동시켜 극값에 이를 때까지 반복시킨다. Formula $f(x)$: 최소값을 만드는 것이 목표인 Loss function $x_{i}$: i번째 업데이트된 weights $x_{0}$: x의 초기값 $\eta$: Learning Rate 위의 과정을 반복하여 $f(x)$의 값이 정해진 값 보다 작아질 때까지 이를 반복한다. #gradient: grad function #eps: epsilon var = init grad = gradient(var..