데이터는 크게 (1) 명목형 또는 순서형의 범주형 데이터 (categorical data)와 (2) 연속형 데이터 (continuous data) 로 구분할 수 있습니다. R에서는 범주형 데이터를 요인(factor)형 데이터 구조라고 부르고 있으며, 순서(order)가 있는 경우는 순서형 요인(ordered factor)라고 해서 구분하기도 합니다.
분석하고자 하는 데이터 셋을 받으면 제일 먼저 데이터 구조와 데이터 형태를 탐색하게 됩니다. 그리고 분석 목적과 시나리오에 따라서 변수를 변환하게 되지요. 이번 포스팅에서는 연속형 변수를 범주형 변수로 변환하는 3가지 방법에 대해서 알아보도록 하겠습니다. 통계기법 중 도수분포표, 교차분할표, 카이제곱 검정이라든지, 로지스틱회귀분석, 그래프 중 막대그림, 원그림, 점그림 등의 경우 범주형 변수로 변환을 해야만 하며, 데이터 탐색 시에도 범주형 변수로 변환하여 분포 형태나 집단 간 비교를 하게 되므로 이번 포스팅은 활용도가 매우 높다고 하겠습니다.
cut() 함수, ifelse() 함수, within() 함수를 이용해서 아래 예를 들어 설명하도록 하겠습니다.
연속형 변수를 범주형 변수로 변환하기: cut(), ifesle(), within() |
(1) cut()
> # 데이터 프레임 생성 > score_d.f <- data.frame(student_id, stat_score) > score_d.f student_id stat_score 1 s01 56 2 s02 94 3 s03 82 4 s04 70 5 s05 64 6 s06 82 7 s07 78 8 s08 80 9 s09 76 10 s10 78 > rm(student_id, stat_score) |
위의 통계시험 성적을 가지고 cut() 함수를 이용하여 "수", "우", "미", "양", "가" 등급을 매겨보도록 하겠습니다.
right = TRUE 옵션을 주면 a < x <= b 와 같이 오른쪽 숫자까지 포함하여 해당 등급을 부여하게 됩니다.
right = FALSE 옵션을 주면 a<= x <b 의 조건으로 등급을 부여하며, include.lowest = TRUE 옵션을 주면 구성요소 값이 최소값과 같아도 변환을 시키게 됩니다.
> ## (1) cut() > score_d.f <- transform(score_d.f, + stat_score_1 = cut(stat_score, breaks = c(0, 60, 70, 80, 90, 100), + include.lowest = TRUE, + right = FALSE, + labels = c("가", "양", "미", "우", "수") + ), + stat_score_2 = cut(stat_score, breaks = c(0, 60, 70, 80, 90, 100), + include.lowest = FALSE, + right = FALSE, + labels = c("가", "양", "미", "우", "수") + ), + stat_score_3 = cut(stat_score, breaks = c(0, 60, 70, 80, 90, 100), + include.lowest = FALSE, + right = TRUE, + labels = c("가", "양", "미", "우", "수") + ), + stat_score_4 = cut(stat_score, breaks = c(0, 60, 70, 80, 90, 100), + include.lowest = TRUE, + right = TRUE, + labels = c("가", "양", "미", "우", "수") + ) + ) > > score_d.f student_id stat_score stat_score_1 stat_score_2 stat_score_3 stat_score_4 1 s01 56 가 가 가 가 2 s02 94 수 수 수 수 3 s03 82 우 우 우 우 4 s04 70 미 미 양 양 5 s05 64 양 양 양 양 6 s06 82 우 우 우 우 7 s07 78 미 미 미 미 8 s08 80 우 우 미 미 9 s09 76 미 미 미 미 10 s10 78 미 미 미 미 |
그런데 사용하다 보면 right 옵션, include.right 옵션, 그리고 labels 부여하는 순서도 그렇고, 머리속이 복잡해집니다. 아래의 ifelse()나 within() 함수는 위의 cut()보다는 수식의 부호를 직접 입력한다는 측면에서 사용하기에 더 편하고 직관적인 면이 있습니다.
(2) ifelse()
|
위 표의 제일 오른쪽에 'stat_score_5' 변수가 ifelse() 함수를 이용해서 만든 범주형 변수가 되겠습니다. cut() 대비 수식 등호, 부등호를 직접 입력하니 직관적으로 분석가가 원하는 범주로 수식을 적을 수 있는 장점이 있습니다만, 범주의 수준(level)이 많아질 수록 괄호 열고 닫는데 유의해야 합니다. 위의 예제의 경우 5개 범주로 나누는데 괄호 열고 "((((" 닫는 것이 "))))" 총 4개가 사용이 되었네요. 갯수 조심하지 않으면 콘솔 창에 에러날거예요. RStudio 사용하면 ifelse() 괄호 하나씩 더해갈 때 마다 괄호 닫는것도 저절로 생기니 차근 차근 하시면 될겁니다.
그리고 stat_score_5 의 속성(class)이 요인(factor)이 아닌 문자(character)로 되어 있습니다. 만약 요인별로 통계 분석을 하고자 한다면 as.factor() 함수로 문자형을 요인형으로 먼저 변환을 시킨 후에 분석을 진행해야 합니다.
(3) within()
> ## within() > score_d.f <- within( score_d.f, { + stat_score_6 = character(0) + stat_score_6[ stat_score < 60 ] = "가" + stat_score_6[ stat_score >=60 & stat_score < 70 ] = "양" + stat_score_6[ stat_score >=70 & stat_score < 80 ] = "미" + stat_score_6[ stat_score >=80 & stat_score < 90 ] = "우" + stat_score_6[ stat_score >=90 ] = "수" + + stat_score_6 = factor(stat_score_6, level = c("수", "우", "미", "양", "가")) + }) > > score_d.f$stat_score_6 [1] 가 수 우 미 양 우 미 우 미 미 Levels: 수 우 미 양 가
|
within() 함수는 먼저 새로 만들 변수 stat_score_6 = character(0) 이라고 해서 문자형 변수라고 신규생성/지정을 해주고 시작합니다.
수식 등호, 부등호로 구간 설정하구요, 제일 마지막 줄에 factor() 함수로 해서 level = c("수", "우", "미", "양", "가") 라고 해서 수준을 지정해 줄 수 있습니다. 성적은 순서(order)가 있으므로 level 에 지정한 순서가 stat_score_6 요인 변수의 level 순서가 되겠습니다.
score_d.f$stat_score_6 라고 해서 indexing을 해서 보면 제일 아랫줄에 "Levels: 수 우 미 양 가" 라고 해서 순서가 제대로 인식되어 있음을 알 수 있습니다. 개인적으로 within() 함수를 순서형 요인변수 만들 때 위 셋 중에서 가장 많이 사용하는 편입니다.
아래는 제일 오른쪽에 within()함수로 만든 stat_score_6 변수까지 모두 한꺼번에 열어본 score_d.f 데이터 프레임이 되겠습니다.
|
많은 도움이 되었기를 바랍니다.
이번 포스팅이 도움이 되었다면 아래의 '공감 ~♡' 단추를 꾸욱 눌러주세요.^^