앞으로 몇 번의 포스팅으로 나누어서 불균형 데이터 (imbalanced data)에 대해서 다루어보도록 하겠습니다. 

 

1. 불균형 데이터 (Imbalanced Data) 란 무엇인가? 
2. 불균형 데이터는 분류 모델링 시 무엇이 문제인가? 
3. 불균형 데이터로 분류 모델링하는 방법에는 무엇이 있나? 


1. 불균형 데이터 (Imbalanced Data) 란 무엇인가? 


불균형 데이터 (Imbalanced Data) 는 목표 변수(target/output variable) 가 범주형 데이터 일 때, 범주 별로 관측치의 개수, 비율의 차이가 많이 나는 데이터를 말합니다. 


아래의 각 산업별 예처럼, 정상 대 비정상의 비율이 90%:10% 처럼 불균형하거나, 더 심하면 99%:1% 처럼 극심하게 불균형한 데이터 (extremely imbalanced data) 도 있습니다. 우리가 관심있어하고 예측하고 싶어하는 비정상 관측치가 정상보다 매우 적은 불균형 데이터를 실무에서는 어렵지 않게 볼 수 있습니다. 

  - 제조회사에서 양품 대 불량품
  - 신용카드회사에서 정상 거래 대 사기 거래 (Fraud) 
  - 은행의 정상 거래 대 돈세탁 거래
  - 의료검진센터에서 정상 대 암(cancer) 진단
  - 사이버보안 회사에서 정상 IP 대 비정상 IP 
  - 통신회사에서 유지 고객 대 이탈(Churn) 고객 
  - 설비/장비의 정상 대 이상 운영
  - 유통회사 대리점의 정상 대 비정상 거래

 


불균형 데이터에서 다수를 차지하는 범주를 ‘다수 범주(majority class)’라고 하고, 적은 수를 차지하는 범주는 ‘소수 범주 (minority class)’ 라고 합니다. 

 

 

 

 

2. 불균형 데이터는 분류 모델링 (Classification Modeling) 시 무엇이 문제인가? 

 


불균형 데이터를 가지고 분류 모델을 훈련시키면 우리가 관심있어하는 minority class 를 제대로 분류할 수 없는 쓸모없는 모델이 만들어질 위험이 있습니다. 가령, 정상(majority class) : 비정상(minority class) 의 비율이 99% : 1% 라고 해보겠습니다. 이런 불균형 데이터에 대해 분류 모델을 훈련시킨 후 예측을 하면 모든 데이터를 ‘정상(majority class)’ 이라고 분류한다고 했을 때 정확도(accuracy)는 99%가 됩니다. 얼필 보면 잘 만들어진 모델 같습니다만, 우리가 관심있어하는 ‘비정상(minority class)’ 범주는 하나도 제대로 분류를 해내지 못했으므로 쓸모없는 모델이라고 하는 것입니다. 

또한, 소수 집단(minority class) 의 관측치 개수가 적으면 소수 집단의 모집단 분포를 샘플링한 소수의 관측치가 대표하기에는 부족하므로 분류 모델이 과적합 (overfitting)에 빠질 위험이 있습니다. 그래서 훈련 데이터셋에는 소수 집단을 분류했다고 하더라도, 새로운 데이터에 대해서는 소수 집단을 제대로 분류를 못할 위험이 있습니다. 

 



3. 불균형 데이터로 분류 모델링하는 방법에는 무엇이 있나? 

 

아래의 6가지 방법이 있는데요, 3-2번 부터 해서 하나씩 차근차근 이어서 포스팅을 해보겠습니다. 

  3-1. 소수 클래스의 데이터 추가 수집 (Get more minority data) 
  3-2. 불균형 데이터 분류 모델에 적합한 성능평가 지표 선정 
       (evaluation metrics for imbalanced classification)
  3-3. 샘플링 방법 (Sampling methods)
    3-3-1. Undersampling
      : Random Sampling, Tomek Links
    3-3-2. Oversampling
      : Resampling, SMOTE, Borderline SMOTE, ADASYN
  3-4. 비용 또는 가중치 조정 방법 (Cost, Weight)
  3-5. Outlier detection 방법
      : One-class SVM, Isolation Forest, DBSCAN clustering
  3-6. 확률 튜닝 알고리즘 (Probability Tuning Algorithms)

 

 

이번 포스팅이 많은 도움이 되었기를 바랍니다. 

행복한 데이터 과학자 되세요!   :-)

 

728x90
반응형
Posted by Rfriend
,

지난 포스팅에서는 지도학습(Supervised Learning)에 있어서

  - 과적합(Over-fitting)이란 무엇인가?

  - 과적합을 파악하고 피하기 위한 방법은? (How to avoid over-fitting?)


에 대하여 알아보았습니다.

 

이번 포스팅에서는 과적합 이야기 세번째로, Bias-Variance Trade-off, 다른 말로는 Bias-Variance Delimma 에 대해서 소개하도록 하겠습니다.  지난번 소개한 과적합에 나왔던 내용과 핵심은 똑같은데요, Bias와 Variance 용어와 수식을 사용해서 과적합(Over-fitting), 과소적합(Under-fitting)을 다른 view로 풀어보겠습니다.  학습(Training)과 과적합(Over-fitting)에 대해서 정확히 이해하는 것이 매우 매우 중요하므로 이번에 한번 더 복습하는 셈 치면 좋겠습니다.


 

먼저, Wikipedia에서 정의하고 있는 Bias와 Variance의 뜻부터 살펴보겠습니다.

 

  • Bias : Bias는 학습 알고리즘에서 잘못된 가정으로 부터 나오는 에러이다.  높은 bias는 학습 알고리즘이 설명변수(독립변수)와 목표변수(종속변수) 간의 연관성있는 관계를 놓치게 한다.
    ("The bias is error from erroneous assumptions in the learning algorithm. High bias can cause an algorithm to miss the relevant relations between features and target outputs (underfitting).")
  • Variance : Variance는 훈련 데이터 내의 작은 변동에 대한 민감성으로부터 나오는 에러이다. 높은 variance는 의도한(일반화) 학습결과를 내기보다는 훈련 데이터 내의 무작위 소음을 모델링함에 따라 과적합을 야기한다.
    ("The variance is error from sensitivity to small fluctuations in the training set. High variance can cause overfitting: modeling the random noise in the training data, rather than the intended outputs.")

    - From : Wikipedia

 

 

Wikipedia 설명 내용이 좀 어려울 수도 있는데요, 아래 그림을 참고하시면 이해하는데 도움이 될 것 같습니다.

 

Bias는 쉽게 말하면 Truth 값으로 부터 평균이 얼마나 떨어져 있느냐는 척도입니다.  아래 예시 그림에서, Truth 평균으로 부터 Observed 평균이 가까운 (1)번과 (3)번은 Bias가 작고, 평균의 거리가 먼 (2)번과 (4)번은 Bias가 큽니다.

 

Variance는 통계학에서 말하는 '분산', 그 분산입니다.  편차 제곱의 합을 자유도로 나누어준 값이요. (= 표준편차(standard deviation)을 제곱한 값).  아래 그림 예시에서, 퍼진 정도가 좁은 (1)번과 (2)번은 variance가 작고, 퍼진 정도(산포)가 큰 (3)번과 (4)번은 variance가 큽니다.  

 

 

 

군대 다녀오신 분들은 신병교육대랑 자대 배치 후 첫 사격에서 '영점 사격'을 했을 텐데요, '영점 사격' 할 때는 Bias보다 Variance가 중요합니다.  Variance가 작아야지 가늠쇠를 조절해서 Bias를 줄일 수 있거든요.  Bias가 작아도 Variance가 크다면 그건 스나이퍼 기질이 없다는 거고(영점조정을 할 수 없으므로 대책이 없음 -_-;), PRI(피터지고, 알통배고, 이갈리는....) 얼차레 꾀나 받았을 거라고 필자는 감히 예상해봅니다.  (여담으로, 필자는 군대 시절 '스나이퍼' 소리 들었음 ^^v)

 

 

통계학 시간에 정규분포(Normal Distribution)에 대해서 배우셨을 텐데요, 위의 그림에서 소개한 (1) Bias : Low,  Variance : Low,  (2) Bias : High,  Variance : Low,  (3) Bias : Low,  Variance : High, (4) Bias : High,  Variance : High 의 4개 유형을 정규분포 확률밀도함수 그래프로 그려보면 아래와 같습니다.

 

 

 

 

Bias, Variance에 대해서 이제 이해하셨으리라 믿고요, Bias-Variance Trade-off 로 넘어가보겠습니다.

Bias-Variance Trade-off 란

 - Bias를 작게 하려면 Variance가 높아지고 (아래 그림의 오른쪽 Over-fitting 상황),

 - Variance를 작게 하려면 Bias가 커지는 (아래 그림의 왼쪽 Under-fitting 상황)

Delimma 를 말합니다. 

 

즉, Bias와 Variance를 동시에 작게 하기가 불가능하다는 뜻입니다. 

 

Bias 를 작게(Bias : Low) 한다고 계속 Training을 시키면 데이터 셋에 있는 Noise까지 통째로 암기를 해버리는 과적합(over-fitting)에 빠져서, 즉 온갖 x변수를 죄다 가져다 써서 유연성을 높이는 대신에 모델 복잡도를 확 높여버려서, 새로운 데이터에 모델을 적용시키면 제대로 예측이나 분류를 못하고 틀리게(variance : high) 됩니다.

 

 

 

이런 딜레마 상황에서 우리는 Bias를 작게 하는 데 몰빵을 한다거나 (Over-fitting), 혹은 Variance를 작게 하는데 몰빵(Under-fitting)할 수는 없는 법이고, 결국은 Bias와 Variance의 적절한 균형점(위 그림의 optimum model complexity, ie, sweet zone)을 찾게 됩니다. 

 

어떻게 찾느냐구요?  지난번 포스팅에서 소개한 Cross-validation 기법을 사용합니다.  데이터 셋을 Training set, Validation set, Test set으로 나누어서 -> Training set으로 훈련시켜 모형을 만들고 (iteration....) --> Validation set을 사용해서 over-fitting 시작하는 지점을 탐지해서 적정 시점에 훈련을 중지시킨 후에 (Over-fitting 방지) --> Test set으로 최종 모델의 성능을 평가합니다.

 

 

위의 그림, 그래프로 직관적으로 이해할 수 있도록 설명하였다면, 좀 어렵더라도 통계 수식으로 풀어보면 아래와 같습니다.  'Variance of the fit'과 (Bias of the fit)^2 은 trade-off 관계에 있으므로, 둘 모두를 동시에 작게 할 수는 없습니다.

 

 

 

[Reference]  “The Bias-Variance Tradeoff ,Cross-Validation and Over-fitting in Prediction”, 
               Professor. George S. Easton

 

 

과적합을 피하는데 샘플을 많이 확보한다거나, 독립변수의 수를 줄이는 것 또한 도움이 됩니다.  나중에 (회귀분석 포스팅 후반부에) 변수 선택기법으로 LASSO (The Least Absolute Shrinkage and Selection Operator) 소개하면서 Bias, Variance 개념 사용하니 잘 알아두시면 좋겠습니다.

 

 

이번 포스팅이 도움이 되었다면 아래의 '공감 ♡~' 단추를 꾸욱~ 눌러주세요. ^^

 

728x90
반응형
Posted by Rfriend
,

지난번 포스팅에서는 과적합(Over-fitting)이란 무엇인지, 그리고 과적합이 왜 문제인지에, 과적합이 아니라 데이터에 내재한 구조, 관계, 규칙을 일반화(generalization)하여 적정적합을 시킬 수 있도록 학습하는 것이 왜 중요한지에 대하여 알아보았습니다.

 

그렇다면 이번 포스팅에서는 어떻게 과적합을 파악하고 피할 수 있는지(How to detect and prevent over-fitting)에 대하여 소개하도록 하겠습니다. 그것은 바로 'Validation Set'을 활용하는 방법(Cross-Validation)입니다.

 

기계학습, 데이터마이닝 초심자라면 과적합(Over-fitting)을 정확히 이해하기 힘들 수도 있구요, 과적합을 이해했다고 하더라도 Training set vs. Validation set vs. Test set 으로 데이터셋을 나누어서 훈련시키는 과정에서 검증하고, 마지막 모형 결과를 테스트하는 구조, 절차를 이해하는게 처음에는 좀 힘들 수도 있을 것 같습니다.  (제가 처음 배울 때에 이걸 잘 이해를 못했었어요... ^^;;) 

 

이걸 제대로 이해하지 못하면 분석가가 가지고 있는 데이터셋을 몽땅 집어넣어서 예측이나 분류 모델을 만들다가 과적합(over-fitting)의 함정에 빠지는 위험에 맞닥뜨리게 됩니다. 

 

 

 

 

 

1) Training with all original data set

 

가지고 있는 데이터셋을 몽땅 넣어서 예측 혹은 분류 모델을 훈련 시키면 이게 과소적합(under-fitting)인지, 적정적합(generalized-fitting)인지, 과적합(over-fitting)인지를 가늠하기가 힘듭니다. 

 

아래의 그림에 나오는 것처럼 training model의 error rate이 낮으면 낮을 수록 더 좋은 모델인 것일까요?

 

문제는 훈련을 시키면 시킬 수록 Error rate는 계속 줄어드는 경향이 있으므로 결국은 과적합(over-fitting)으로 귀결된다는 점입니다.  중간에 적정적합 구간에서 훈련을 중단시키지 않으면 말이지요.  그런데 가지고 있는 모든 데이터를 Training set 으로만 활용하면 어디서 훈련을 중단시켜야 할지 도무지 알 수가 없답니다.  바로 이 문제의식에서 Validation set의 필요성이 시작합니다.

 

 

 

 

 

 

2) Training Set vs. Validation Set

 

과적합을 탐지하고 방지하기 위해서, 보유하고 있는 데이터셋을 Training set (50%~60%), Validation set (20%~25%), Test set (20%~25%) 의 3개의 set으로 구분을 한 후에, (저는 보통 Training : Validation : Test set = 60% : 20% : 20% 로 분할)

 

 - (1) Training set 을 가지고 예측 혹은 분류 모델을 훈련시키고

 

 - (2) Validation set을 가지고서 (1)번의 Training set을 가지고 훈련 중인 모델이 혹시 과적합(over-fitting)의 유혹에 빠지고 있는 건 아닌지, 아니면 훈련 더해야 하는데 농땡이 치다가 과소적합(under-fitting)인 것은 아닌지 검증, 감시를 하면서 최적의 적정적합(generalized-fitting) 구간을 찾아 모델을 선택한 후 (즉, 모델의 coefficients, weights 결정)

 

 - (3) Test set을 사용해서 (1)번과 (2)번의 협동작업으로 도출한 최종 모델(final model)에 대해서 성적을 매기는 작업을 하게 됩니다.

 

Validation set과 Test set을 혼동하는 분도 있을 것 같습니다.  (제가 그랬습니다....  ^^;)  Validation set은 과적합 방지용, Test set은 최종 모델 평가용도 입니다.

 

아래 그림은 Training set으로 만든 예측 혹은 분류 모델에 Validation set 데이터를 적용해서 예측 혹은 분류 error 를 측정한 그래프입니다.  Training set으로 모델을 만들면 반복(iterarion)을 계속할 수록 error rate은 계속 줄어드는데요, 이 모델을 처음 보는 데이터셋인 Validation set 에 적용을 하게 되면 error rate이 처음에는 줄어들다가 어느 순간 부터는 방향을 바꾸어서 증가하게 됩니다(보통은 Training set의 error보다 Validation set의 error가 조금씩 높음).  바로 이 변곡점이 과적합(over-fitting)이 시작되는 지점으로 합리적으로 의심을 할 수 있습니다

 

이 변곡점을 지나서도 계속 훈련을 시키게 되면 '데이터에 내재한 구조, 관계, 패턴'을 학습해서 '일반화(generalization)'하는 것이 아니라 training set을 통째로 외우게 됨에 따라 --> 처음 보는 데이터셋인 Validation set에 대해서는 자꾸 틀린 답을 내놓게 되어 Validation set의 error rate은 거꾸로 올라가게(나빠지게) 되는 것입니다.

 

 

 

 

3) k-fold Cross Validation

 

데이터셋을  Training set (50%~60%), Validation set (20%~30%), Test set (20%~30%)으로 나누게 되면 모델 훈련에는 Training set (50%~60%)만이 사용이 됩니다.  나머지 Validation set과 Test set으로 빼놓은 데이터가 아깝다는 생각이 들지요? 

 

특히, 확보한 데이터의 개수가 작은 경우에는 문제가 심각해질 수 있습니다.  데이터가 충분하지 못한 상태에서 그걸 3개의 훈련, 검증, 테스트 셋으로 나누면 분할된 데이터셋에 무슨 데이터가 들어갔느냐에 따라 모형이 심하게 영향을 받을 수가 있습니다. 

 

이런 경우에 k-fold Cross Validation 기법을 사용하면 좋습니다. k-flod Cross Validation기법은 Traning set을 k 등분한 후에 --> (k-1) 개의 fold (= (k-1)/k 구성비) 는 Training set으로 사용하고, 나머지 1개의 fold (1/k 구성비)은 validation set으로 사용하며, --> Validation set 에 해당하는 fold를 round를 거듭하면서 바꿔주게 됩니다.  말로 설명하면 좀 이해하기 어려울 수도 있는데요, 아래의 5-fold Cross Validation 예시 그림을 참고하시기 바랍니다.  4개 fold의 Training set 과 1개 fold의 Validation set을 이용해서 모형 훈련을 시키는 것을 5 round 시행하여 분류 모형(classifier)을 선택하고, Test set을 가지고 이 최종모형을 평가하는 data flow 예시입니다.

 

 

 

k-fold Cross Validation을 극단으로 가져가면 k를 데이터 관측치 수 n 만큼 하는 경우도 있는데요, 이를 leave-one-out Cross Validation (LOOCV) 이라고 합니다.  보유하고 있는 데이터를 fully 활용할 수 있는 장점이 있고, 특히 데이터 샘플 수가 작을 경우 유용하겠지요.  다만, leave-one-out Cross Validation은 연산 비용이 높다는 점은 염두에 두어야 하며, 샘플 사이즈가 크다면 보통은 10-fold Cross Validation을 많이 사용하는 편입니다.

 

 

참고로, re-sampling methods 를 tree 형식으로 정리해놓은 자료가 있어서 소개합니다.  아래 구분 tree에서 색깔 칠해놓은 부분이 이번 포스팅에서 소개한 방법이 되겠습니다.  색 안칠해진 부분도 많고, 공부해야 할 것이 참 많지요? ^^"

 

* Source : “Performance Evaluation for Learning Algorithms”, Nathalie Japkowicz, School of Electrical Engineering & Computer Science University of Ottawa

 

 

다음번 포스팅에서는 이번 포스팅과 직접 관련된 bias-variance trade-off 에 대해서 소개하겠습니다.

 

이번 포스팅이 도움이 되었다면 아래의 '공감 ~♡'를 꾸욱 ~ 눌러주세요. ^^

 

728x90
반응형
Posted by Rfriend
,

지난번 포스팅에서는 기계학습(machine learning)의 정의와 3가지 유형 (supervised learning, unsupervised learning, reinforcement learning)에 대해서 알아보았습니다.

 

이번 포스팅에서는 학습의 일반화(generalization)와 과적합(overfitting), 혹은 과잉적합에 대해서 알아보도록 하겠습니다.  이번 포스팅은 기계학습의 3가지 유형 중에서 지도학습(supervised learning)에 대해 한정한 내용이긴 합니다만, 기계(컴퓨터)가 학습한다고 했을 때의 핵심이 되는 아주 아주 중요한 개념이므로 분석 기법/알고리즘으로 들어가기 전에 짚어보고 넘어가고자 합니다.

(기계학습 공부하는 대학원생이라면 '과(잉)적합(Over-fitting)에 대해서 논하시오'라는 문제가 중간고사에 무조건 나온다에 500원 걸겠습니다. ㅎㅎ)

 

기계학습의 정의에서 보면 과거의 대량의 data인 Experience (E) 로 부터 예측/추정이나 분류 등의 Task(T)를 어느 수준 이상의 정확도(Performance, P)로 향상시킬 수 있다면 기계(컴퓨터)가 해낼 수 있다면 컴퓨터가 학습을 하고 있다고 말할 수 있다고 했었습니다.  이때 중요한게 하나 있는데요, 훈련 데이터셋(Training Data Set)에서 뿐만이 아니라 컴퓨터가 본적이 없는 새로운 데이터 셋(Test Data Set, or New Data Set)에 대해서도 예측/추정이나 분류 모델이 잘 working 하느냐가 오늘의 포스팅의 주제입니다.

 

가령, 훈련 데이터(Training Data Set)를 가지고 지난 학기 기계학습 수업의 Pass와 Fail한 학생을 분류하는 모형을 만들었는데요, 그게 훈련 데이터에 너무나도 과도하게 적합이 된 나머지, 올해 신입생을 대상으로 한 새로운 데이터 셋(Test Data Set)에 대해서는 분류가 잘 맞지가 않는 경우 과(잉)적합(Overfitting)이 되었을 가능성이 아주 많다고 의심해볼 수 있습니다. .

 

아래 그림에 과소적합(Under-fitting), 적정적합, 과(잉)적합(Over-fitting) 분류 예를 가상으로 만들어서 들어보았습니다.   상단의 그림은 훈련 데이터셋(Training set)을 가지고 분류 모델을 만든 것이구요, 하단 그림은 새로운 데이터인 테스트 데이터셋(Test set)에 다가 훈련 데이터셋으로 만든 분류 모델을 적용해 본 그림입니다.

 

(1) 상단 좌측의 과소적합(Under-fitting)의 경우 훈련 데이터셋을 대상으로 훈련이 부족하여 파란점과 빨간점을 잘 분류를 못하고 있습니다. (정확도 65%). 

 

중간고사 앞두고 시험공부 하라고 했더니 기계학습 서문 서너페이지 읽다 말고는 태양의 후예 재방송 보느라 농땡이 친 학생이 여기에 해당이 되겠습니다.  이런 학생은 하단 좌측의 테스트 데이터셋에 보면 아시겠지만 처음보는 새로운 시험문제가 나오는 중간고사에서 좋은 점수를 받을리가 없겠지요. (정확도 60%)

 

(2) 상단 가운데의 적정적합(Generalized-fitting)의 경우 훈련 데이터셋을 대상으로 파란점과 빨간점을 분류하라고 시겼더니 비록 일부 오분류가 있기는 합니다만 전반적으로 적절하게 제법 분류를 해냈습니다.(정확도 90%)  그리고 훈련데이터로 만든 분류 모델을 하단의 가운데에 신규 데이터셋인 테스트 셋에 적용해 보았더니 역시 약간 오분류가 늘어나기는 했지만 그래도 85%의 정확도로 꽤 높은 분류 성과를 냈습니다. 

 

수업시간에 선생님께서 문제풀이를 하면서 '이론'과 '원리'를 가르쳐주실 때 정신 바짝 차리고 공부 잘하고 복습도 잘한 학생이 여기에 해당이 됩니다. '원리'를 깨우쳐서 '일반화(generalization)'을 했기 때문에 중간고사에서 응용문제가 나와도 그걸 풀 수 있는 힘이 있는 것입니다.

 

(3) 상단의 오른쪽에 있는 과(잉)적합(Over-fitting)은 훈련 데이터셋(Training Set)을 대상으로 파란점과 빨간점을 100% 정확하게 기가 막히게 잘 분류를 해놨습니다.  모델이 삐뚤빼뚤 비선형으로 해서 아주 복잡하게 생겼지요?  이 분류 모델을 새로운 데이터셋, 즉 테스트 셋(Test set)에 적용해서 분류를 시켜봤더니, 글쎄 정확도가 65%로 곤두박질을 쳤습니다.

 

중간고사 이틀 남겨놓고 코피 터지게 벼락치기로 '달달 외워서' 공부한 학생이 여기에 해당되겠습니다.  공부를 하면서 '원리'에 대해서도 생각을 해보고 음미도 해봤어야 하는건데요, 너무 의욕이 앞선 나머지, 아니면 공부하는 전략이 부족하고 미련해서 인지, 예제 문제 자체를 토씨하나 안틀리고 달달 외워버린 경우입니다 (아마 자신감 100% 만땅 이었겠죠?).  이렇게 교과서 문제를 너무나 과하게 통째로 외워버리다 보니 중간고사에 약간 문제를 비튼 '응용문제'가 나오자 당황하고 문제를 잘 못푼 학생을 생각하시면 됩니다. (성적은 중하위권...?) 

 

 

[ 과소적합(Under-fitting) vs. 적정적합(Generalized-fitting) vs. 과잉적합(Over-fitted) ]

 

 

 

 

기계학습이 지향하는 학습 수준은 당연히 일반화(generalization)가 된 적정수준의 학습 입니다.  과소적합(under-fitting)도, 과(잉)적합(over-fitting)도 아니구요.  특히 과적합(over-fitting)은 기계학습 분석가가 조심해야 합니다.  왜냐하면 훈련 데이터를 가지고 모형을 만들 때 과적합(over-fitting)을 하게 되면 성과(정확도)가 아주 좋게 나오거든요.  그러면 이 분석가는 자기가 대단한 일, 큰 일을 한 줄로 알고 착각하게 됩니다.  과적합(over-fitting)이 아마추어 분석가만 저지르는 실수로 생각할 수도 있습니다만, 지진을 예측하는 과학자도 실수하고, 일본 후쿠시마의 핵 원자로가 폭발한 원인 제공자가 바로 과적합이라는 사실을 아시나요? Nate Silver의 신호와 소음(The Signal and The Noise)에 실린 내용을 아래에 인용해 봅니다.

 

"그러나 자료의 이상적 관계를 알지 못할 때 우리는 탐욕에 사로잡히기도 한다. 이런 탐욕의 결과로 나타난 과잉적합 사례를 보면, 모든 측정점을 연결하는 복잡한 함수를 만들었다. 그러다 보니 아래위로 마구 오르내리는, 현실에서 있음직하지 않은 곡선이 나타났다. 이렇게 될 때 우리는 측정점들에 내재된 진정한 관계에서 한참 멀어지고 말며, 결국 우리 예측은 한층 엉뚱한 곳을 향하고 만다.

 

(중략)... 우리는 우리가 접할 수 있는 증거에서 그 구조를 추론해내야 한다. 이 과정에서, 자료가 한정되어 있고 소음이 많을 때 그리고 자료 안에 내재하는 근본 관계에 대해 이해가 부족할 때, 사람들은 대개 과잉적합의 오류를 범한다

 

(중략)... 과잉적합은 이중적 불운을 나타낸다. 이 모델은 연구논문에서는 '더 나은 것'으로 보이지만 실제 현실에서는 '더 나쁜' 성적을 거둔다. 과잉적합 모델은 후자의 특성 때문에 결국 실제 현실에서 예측하는데 동원될 경우 호된 대가를 치룬다. 이 모델은 또한 전자 때문에 겉보기에는 더 인상적이다. 매우 정확하고 또 뉴스 가치가 있는 예측을 할 수 있으며 과거에 사용된 여러 기법보다 훨씬 나은 듯 보인다. 그렇기에 이런 모델은 학술지에도 좀 더 쉽게 발표가 되고 또 고객들에게 환영을 받는다. 반면 좀 더 정직한 모델은 시장에서 내몰린다. 그러나 과잉적합 모델은 신호가 아닌 소음에 적합하도록 만들어진 만큼 결국 정확성, 다시 말해 과학성을 훼손할 수 밖에 없다.

 

- 출처 : 신호와 소음(The Signal and The Noise), Nate Silver

 

지진을 예측하는데 최고난이도의 수학으로 어마무시하게 복잡하고 정교한 모델을 만든 케일리스-보르크 지진학자가 있었다고 합니다.  '신호와 소음'에 소개된 성적표에 의하면, "이 모델은 믿을 수 없을 만큼 복잡한 방정식들을 동원해 소음에 물든 자료들에까지 적합하게 만들어졌다. 그리고 결국은 대가를 치러야 했다. 스물여섯 개 예측을 했지만 세 개 밖에 적중하지 못했다. 데이비드 보먼은 자기도 비슷한 문제를 안고 있다는 사실을 인식하고, 결국은 자신의 모델을 폐기하고 만다". 라고 하는군요.  케일리스-보르크든 데이비드 보먼이든, 훈련 데이터로는 아마 기가 막히게 정확하게 예측을 했었을 것이고 흥분을 했을 겁니다.  나중에 현실 세계에서 초라한 성적표를 받고 나서야 과적합(over-fitting)이었다는 걸 알기 전까지는 말이죠.

 

과적합은 소음(Over-fitting due to Noise), 부족한 사례(Over-fitting due to Insufficient example), 과도하게 복잡한 모형 개발(unnecesarily complex model)로 인해서 생기는데요, 기계학습 분석가에게는 참 조심하고 주의를 기울여야할 주제입니다.

 

오컴의 면도날(Occam's Razor )에 의하면 복잡한 모델보다는 단순한 모델을 선택(선호)하라고 합니다.  Variable, Feature를 있는 것 모두 때려 집어넣고 모델 만들지 말고 똘똘한 Variable, Feature를 선별해서 가능한 단순하게 만들라는 것입니다. 오컴의 면도날은 과적합(over-fitting)을 아주 싫어한다고 말할 수 있겠습니다.

 

다음번 포스팅에서는 과적합을 어떻게 피할 수 있나에 대해서 알아보도록 하겠습니다. 

(Training Set vs. Test Set error rate, cross-validation, Prunning, Sample size up)

 

많은 도움이 되었기를 바랍니다.

 

도움이 되었다면 아래의 '공감 ♡'를 꾸욱~ 눌러주세요. ^^

 

728x90
반응형
Posted by Rfriend
,