- 딥러닝
- 다층이 아니라 심층을 의미함
- 모델은 학습된 파라미터의 집합이라고 할 수 있음
- MLP (Multi Layer Perceptron)
- sklearn의 neural_network
- 층이 3개만 있음(input, hidden, output)
- 오차역전파
- 목적 : 수치미분을 수행하지 않고, 학습에 필요한 편미분값을 획득
- 원리
- 체인룰(연쇄법칙) : 합성 함수의 미분은 합성 함수를 구성하는 개별 함수 미분의 곱으로 처리
- 역전파 : 파라미터 업데이트를 위해 출력층의 오차값을 은닉층으로 전파
- DNN
- 딥러닝 모델링 이슈
- Vanishing Gradient → Activation 함수
- sigmoid의 미분값이 0~0.25의 범위라서, 은닉층 증가에 따라서 미분값이 0이 되는 현상
- relu, tanh(hyperbolic tangent), leaky relu
- global minimum이 아닌 local minimum에 빠지는 문제 → Optimization
- SGD(Stochastic Gradient Decent) : 배치 사이즈를 조정하여 데이터를 변경하는 방식
- Momentum : 움직이는 쪽으로 가중치를 주는 방식
- AdaGrad(Adaptive Gradient) : 학습률을 변경하는 방식
- RMSProp : Adaptive 방식으로 제곱합을 지수평균(이동평균)으로 변경
- Adam : Momentum + RMSProp를 융합한 방식
- Over Fitting 이슈
- 학습 데이터의 부족 → 추가 학습 데이터 수집
- 모델의 Capacity가 너무 높다
- 레이어 수를 조절하여 파라미터의 개수를 줄인다
- L1(절댓값), L2(제곱) 규제를 설정한다
- L2규제는 최소한의 파라미터를 찾는 것이고, L1규제는 필요한 파라미터를 뽑는 것이다
- DropOut를 설정한다 (기본값 및 권장값은 0.5)
- BatchNormalization를 설정한다 (레이어의 개수가 적으면 효과적이지 않을 수 있음)
- Vanishing Gradient → Activation 함수
- 모델링 팁
- 배치사이즈는 2의 제곱으로 설정하는 것이 좋다
- 레이어 3개까지는 sigmoid를 사용해도 되는데, 5개 이상부터는 sigmoid를 안 쓰는 것이 좋다
- 다중분류의 출력층은 softmax, 손실함수는 CEE(Cross Entropy Error)를 사용하기를 권장
- CEE 계산시에 이진분류는 y값이 0 또는 1이지만, 다중분류에서는 y값은 1만 계산한다
- 이진분류의 출력층은 1개로, 활성화함수는 sigmoid를 사용한다
- 수치예측의 출력층은 activation을 사용하지 않고, wx + b의 형태로 반환하여야 한다.
- EarlyStopping의 patience는 150~200으로 설정하는 편이
- 딥러닝 모델링 이슈
- CNN
- 합성곱 연산이란 파라미터 행렬을 의미한다
- Feature Extraction Layer(특징추출)와 Classification Layer(분류) 레이어로 구분된다.
- 가중치 수를 줄이고 연산량을 감소시켜 성능을 향상하고자 한다.
- Hyper Parameter
- Filter의 개수와 크기
- Feature Map를 생성하게 해준다.
- FIleter의 크기는 주로 홀수를 설정한다.
- Stride : 이동 간격, 기본값은 1
- Padding
- 기본값은 줄어드는 것으로 same padding을 설정해야 크기가 줄지 않는다.
- 단 stride를 2로 설정하면 크기가 줄어든다.
- 레이어가 10개만 되어도, 이미지가 소멸하지 않기 위해서 padding이 필요하다.
- 기본값은 줄어드는 것으로 same padding을 설정해야 크기가 줄지 않는다.
- Pooling : 주로 MaxPooling를 사용하나, 요새는 사용하지 않는 추세
- Pooling은 대부분 반으로 축소시키는데, 홀수인 경우에는 1줄을 날리고 반으로 축소시킨다.
- 1줄이 소실되는 것을 막으려면 미리 padding으로 이미지를 채우면 된다.
- Filter의 개수와 크기
- 데이터세트
- imdb
- x데이터만 있다 → y레이블을 어떻게 구성해야 하나?
- x의 개수가 제각각이다 → 길이를 동일하게 바꾸자
- mnist
- x데이터만 있다 → y레이블을 어떻게 구성해야 하나?
- input의 shape와 model의 shape가 다르다
- 1차원의 데이터가 아니라 2차원데이터로 되었다 → 지역적 특징이 사라진다
- 파라미터 개수가 줄었는데 성능이 좋게 나왔다
- cats vs dogs
- 이미지 사이즈가 다르다 (input shape를 정의하기 힘들다)
- x데이터만 있다 → y레이블을 어떻게 구성해야 하나?
- imdb