일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- ue5.4
- BERT
- Font Generation
- WinAPI
- motion matching
- Unreal Engine
- ddpm
- GAN
- Stat110
- dl
- 디퓨전모델
- UE5
- Few-shot generation
- animation retargeting
- CNN
- 폰트생성
- 딥러닝
- multimodal
- deep learning
- RNN
- userwidget
- inductive bias
- 생성모델
- cv
- Generative Model
- Diffusion
- 모션매칭
- WBP
- NLP
- 언리얼엔진
- Today
- Total
목록AI/Deep Learning (99)
Deeper Learning
Why Inception score GAN은 생성된 결과물의 performance의 측정이 어렵다. Generator와 Discriminator의 loss만을 보고 생성된 결과물의 performance를 측정하는 것은 정확하지 않다. 완벽한 가상의 Discriminator를 속일 수 있는 Generator가 존재한다면 측정이 가능하지만 현실적으로 불가능하다. Generated output에 대한 performance를 측정하기 위한 metrics가 필요하고 이를 위해 고안된 여러 가지 방법 중 하나가 Inception Score. Inception Score (IS) Inception score(이하 IS)는 pre-trained된 inception v3 모델을 사용하기 때문에 붙여진 이름이다. Imag..
Feature Extraction Neural Net은 "Black box"라고 불립니다. 중간과정에서 정확히 무슨 일이 일어나는지 표현이 힘들기 때문입니다. 간단하게 이에 대한 insight는 Feature Extraction으로 얻을 수 있습니다. CNN을 예시로 들어 설명하겠습니다. 만약 사람의 얼굴 인식이 가능한 학습이 완료된 모델이 Deep CNN이있다고 생각하면 여러 은닉층은 각각 다른 특징에 대해 다른 가중치를 부여합니다. 위 그림과 같이 은닉층의 unit을 최대로 활성화 시키는 input을 시각화하면 다음과 같이 특징을 추출해내는 Feature Extraction의 역할을 하는 것을 알 수 있습니다. 얕은 은닉층에서는 선이나 모양등 간단한 low-level의 feature를 주로 감지합니다..
LSTM GRU와 비슷하게 기초 RNN에 Gate를 추가한 구조의 모델 Forget Gate, Update Gate, Output Gate를 사용합니다. Structure Forget Gate는 previous cell state (memory)인 $c^{}$를 얼마나 "Forget" 할 것인지 결정합니다. $\tilde{c}^{}$는 현재 시점의 정보를 담고 있습니다. Update Gate는 현재 시점의 정보를 담고 있는 $\tilde{c}^{}$의 특정 부분을 최종 $c^{}로 전달하기 위한 mask 역할을 합니다. Output Gate는 현시점에서 output을 정하기 위한 Gate입니다. Forward Propagation 위에서 설명한 Gate들을 사용하여 Forward Propagation이 ..
Why GRU? 기본 RNN을 구조를 사용할 경우 Deep Neural Network의 고질적인 문제인 Gradient vanishing과 Exploding gradient가 발생한다. 이를 해결하기 위한 기존 RNN와 다른 구조의 RNN이 필요하다. Structure GRU는 2개의 Gate(r: reset, z: update)를 사용하여 계산이 이루어진다. 위의 더 자세한 그림을 통해 보면 현재 시점의 input x와 전 시점의 hidden unit의 activations인 h가 하나의 Cell에 input으로 입력되는 것은 Basic RNN과 같다. 하지만 2개의 Gate와 tanh activation function이 추가로 GRU에서 사용된다. Weight관련 표기는 $W_{rc}$는 c와의 내..
Language Model 통계적 언어모델은 단어 시퀀스에 확률을 각각 할당하는 모델이다. input에 따라 같은 단어 or 문자에 부여되는 확률이 다르기 때문에 보편적인 결과를 위해서는 광범위한 데이터의 수집이 필요하다. 언어모델을 모델링 하는 방법은 여러가지가 있지만 앞에 주어진 단어를 기준으로 다음 단어를 예측하는 언어모델에 대해 서술하겠다. Modeling RNN모델을 사용하여 언어모델을 만드는 학습과정은 다음과 같다. input x = 'Failure is an option here' $x^{}$은 Sequence의 첫 input으로 zero vector 또는 문장의 시작을 알리는 token을 삽입한다. input x는 원래 input에서 문장의 마지막인 EOS를 제외하고 $x^{}$를 이어붙인..
Vocabulary Recurrent Neural Network(이하 RNN)은 주로 비정형 문자 데이터를 다루는데 사용된다. 딥러닝 신경망 알고리즘의 적용을 위해 비정형 데이터는 수치형 데이터로 전환되어야 한다. Lorem ipsum dolor sit amet. consectetur adipiscing elit. 위와 같은 문장 2개가 데이터로 주어졌을 때 이를 수치형 데이터로 변환하기 위해 간단한 Vocab을 만들면 다음과 같다. 첫 번째 문장에 Vocabulary를 사용하여 One-hot encoding을 적용한다. 각 행은 단어를 나타내고 각 열은 vocab의 단어의 출현 여부를 1 또는 0으로 나타낸다. 이와 같이 수치로 변환한 텍스트 데이터를 input으로 모델을 학습시킬 수 있다. Seque..
Fréchet inception distance GAN의 모델의 학습이 어려운 이유 중 하나는 완벽한 평가지표가 없기 때문이다. Generator와 Discriminator의 Loss는 실질적으로 유의미한 정보를 담고 있지 않기 때문이다. Fréchet inception distance은 GAN으로 생성된 output과 real data를 비교할 수 있는 지표로 사용된다. 생성된 이미지들과 실제 이미지의 분포를 비교하여 이를 평가지표로 선정한다. Intuitive definition Imagine a person traversing a finite curved path while walking their dog on a leash, with the dog traversing a separate finit..
Neural Style Transfer 이미지 C와 content가 비슷하고 이미지 S와 style이 비슷한 이미지 G를 만드는 알고리즘 Cost function의 정의는 다음과 같다. hyperparameter $\alpha$와 $\beta$에 의해 content loss, style loss에 weight가 적용된 Cost function Content Cost Function $a^{(C)}$ = input C가 hidden layer를 통과한 activations (1, n_h, n_w, n_c) $a^{(G)}$ = input G가 hidden layer를 통과한 activations (1, n_h, n_w, n_c) (n_h,n_w,n_c) = hidden layer의 output shape ..
Face Regonition의 문제점1. 각 label(사람)에 대한 많은 data(사진) 부족2. 기존 softmax와 일직선형 Network 구조를 사용할 경우 정확도가 낮다3. 새로운 label이 추가될 시 처음부터 training이 필요 => 두 이미지의 distance를 측정하도록 학습된 Network를 사용 $d(\alpha ,\beta ) \leq \tau $ -> 같은 이미지로 판별 Siamese Network구조가 같은 2개의 Network를 형성하여 last layer의 output을 비교Ex) A(64x64x3) -> NN -> 128d output = f(A) , B(64x64x3) -> NN -> 128d output = f(B)같은 네트워크를 통해 임베딩 하는 개념 $d..