지난번 포스팅에서는 과적합(Over-fitting)이란 무엇인지, 그리고 과적합이 왜 문제인지에, 과적합이 아니라 데이터에 내재한 구조, 관계, 규칙을 일반화(generalization)하여 적정적합을 시킬 수 있도록 학습하는 것이 왜 중요한지에 대하여 알아보았습니다.

 

그렇다면 이번 포스팅에서는 어떻게 과적합을 파악하고 피할 수 있는지(How to detect and prevent over-fitting)에 대하여 소개하도록 하겠습니다. 그것은 바로 'Validation Set'을 활용하는 방법(Cross-Validation)입니다.

 

기계학습, 데이터마이닝 초심자라면 과적합(Over-fitting)을 정확히 이해하기 힘들 수도 있구요, 과적합을 이해했다고 하더라도 Training set vs. Validation set vs. Test set 으로 데이터셋을 나누어서 훈련시키는 과정에서 검증하고, 마지막 모형 결과를 테스트하는 구조, 절차를 이해하는게 처음에는 좀 힘들 수도 있을 것 같습니다.  (제가 처음 배울 때에 이걸 잘 이해를 못했었어요... ^^;;) 

 

이걸 제대로 이해하지 못하면 분석가가 가지고 있는 데이터셋을 몽땅 집어넣어서 예측이나 분류 모델을 만들다가 과적합(over-fitting)의 함정에 빠지는 위험에 맞닥뜨리게 됩니다. 

 

 

 

 

 

1) Training with all original data set

 

가지고 있는 데이터셋을 몽땅 넣어서 예측 혹은 분류 모델을 훈련 시키면 이게 과소적합(under-fitting)인지, 적정적합(generalized-fitting)인지, 과적합(over-fitting)인지를 가늠하기가 힘듭니다. 

 

아래의 그림에 나오는 것처럼 training model의 error rate이 낮으면 낮을 수록 더 좋은 모델인 것일까요?

 

문제는 훈련을 시키면 시킬 수록 Error rate는 계속 줄어드는 경향이 있으므로 결국은 과적합(over-fitting)으로 귀결된다는 점입니다.  중간에 적정적합 구간에서 훈련을 중단시키지 않으면 말이지요.  그런데 가지고 있는 모든 데이터를 Training set 으로만 활용하면 어디서 훈련을 중단시켜야 할지 도무지 알 수가 없답니다.  바로 이 문제의식에서 Validation set의 필요성이 시작합니다.

 

 

 

 

 

 

2) Training Set vs. Validation Set

 

과적합을 탐지하고 방지하기 위해서, 보유하고 있는 데이터셋을 Training set (50%~60%), Validation set (20%~25%), Test set (20%~25%) 의 3개의 set으로 구분을 한 후에, (저는 보통 Training : Validation : Test set = 60% : 20% : 20% 로 분할)

 

 - (1) Training set 을 가지고 예측 혹은 분류 모델을 훈련시키고

 

 - (2) Validation set을 가지고서 (1)번의 Training set을 가지고 훈련 중인 모델이 혹시 과적합(over-fitting)의 유혹에 빠지고 있는 건 아닌지, 아니면 훈련 더해야 하는데 농땡이 치다가 과소적합(under-fitting)인 것은 아닌지 검증, 감시를 하면서 최적의 적정적합(generalized-fitting) 구간을 찾아 모델을 선택한 후 (즉, 모델의 coefficients, weights 결정)

 

 - (3) Test set을 사용해서 (1)번과 (2)번의 협동작업으로 도출한 최종 모델(final model)에 대해서 성적을 매기는 작업을 하게 됩니다.

 

Validation set과 Test set을 혼동하는 분도 있을 것 같습니다.  (제가 그랬습니다....  ^^;)  Validation set은 과적합 방지용, Test set은 최종 모델 평가용도 입니다.

 

아래 그림은 Training set으로 만든 예측 혹은 분류 모델에 Validation set 데이터를 적용해서 예측 혹은 분류 error 를 측정한 그래프입니다.  Training set으로 모델을 만들면 반복(iterarion)을 계속할 수록 error rate은 계속 줄어드는데요, 이 모델을 처음 보는 데이터셋인 Validation set 에 적용을 하게 되면 error rate이 처음에는 줄어들다가 어느 순간 부터는 방향을 바꾸어서 증가하게 됩니다(보통은 Training set의 error보다 Validation set의 error가 조금씩 높음).  바로 이 변곡점이 과적합(over-fitting)이 시작되는 지점으로 합리적으로 의심을 할 수 있습니다

 

이 변곡점을 지나서도 계속 훈련을 시키게 되면 '데이터에 내재한 구조, 관계, 패턴'을 학습해서 '일반화(generalization)'하는 것이 아니라 training set을 통째로 외우게 됨에 따라 --> 처음 보는 데이터셋인 Validation set에 대해서는 자꾸 틀린 답을 내놓게 되어 Validation set의 error rate은 거꾸로 올라가게(나빠지게) 되는 것입니다.

 

 

 

 

3) k-fold Cross Validation

 

데이터셋을  Training set (50%~60%), Validation set (20%~30%), Test set (20%~30%)으로 나누게 되면 모델 훈련에는 Training set (50%~60%)만이 사용이 됩니다.  나머지 Validation set과 Test set으로 빼놓은 데이터가 아깝다는 생각이 들지요? 

 

특히, 확보한 데이터의 개수가 작은 경우에는 문제가 심각해질 수 있습니다.  데이터가 충분하지 못한 상태에서 그걸 3개의 훈련, 검증, 테스트 셋으로 나누면 분할된 데이터셋에 무슨 데이터가 들어갔느냐에 따라 모형이 심하게 영향을 받을 수가 있습니다. 

 

이런 경우에 k-fold Cross Validation 기법을 사용하면 좋습니다. k-flod Cross Validation기법은 Traning set을 k 등분한 후에 --> (k-1) 개의 fold (= (k-1)/k 구성비) 는 Training set으로 사용하고, 나머지 1개의 fold (1/k 구성비)은 validation set으로 사용하며, --> Validation set 에 해당하는 fold를 round를 거듭하면서 바꿔주게 됩니다.  말로 설명하면 좀 이해하기 어려울 수도 있는데요, 아래의 5-fold Cross Validation 예시 그림을 참고하시기 바랍니다.  4개 fold의 Training set 과 1개 fold의 Validation set을 이용해서 모형 훈련을 시키는 것을 5 round 시행하여 분류 모형(classifier)을 선택하고, Test set을 가지고 이 최종모형을 평가하는 data flow 예시입니다.

 

 

 

k-fold Cross Validation을 극단으로 가져가면 k를 데이터 관측치 수 n 만큼 하는 경우도 있는데요, 이를 leave-one-out Cross Validation (LOOCV) 이라고 합니다.  보유하고 있는 데이터를 fully 활용할 수 있는 장점이 있고, 특히 데이터 샘플 수가 작을 경우 유용하겠지요.  다만, leave-one-out Cross Validation은 연산 비용이 높다는 점은 염두에 두어야 하며, 샘플 사이즈가 크다면 보통은 10-fold Cross Validation을 많이 사용하는 편입니다.

 

 

참고로, re-sampling methods 를 tree 형식으로 정리해놓은 자료가 있어서 소개합니다.  아래 구분 tree에서 색깔 칠해놓은 부분이 이번 포스팅에서 소개한 방법이 되겠습니다.  색 안칠해진 부분도 많고, 공부해야 할 것이 참 많지요? ^^"

 

* Source : “Performance Evaluation for Learning Algorithms”, Nathalie Japkowicz, School of Electrical Engineering & Computer Science University of Ottawa

 

 

다음번 포스팅에서는 이번 포스팅과 직접 관련된 bias-variance trade-off 에 대해서 소개하겠습니다.

 

이번 포스팅이 도움이 되었다면 아래의 '공감 ~♡'를 꾸욱 ~ 눌러주세요. ^^

 

728x90
반응형
Posted by Rfriend
,