[Python pandas] 연속형을 범주형으로 변환하는 np.digitize(), pd.cut() 비교 (comparison of categorization using np.digitize(), pd.cut())

Python 분석과 프로그래밍/Python 데이터 전처리 2020. 2. 18. 17:19

이번 포스팅에서는 연속형 변수를 여러개의 구간별로 구분하여 범주형 변수로 변환(categorization of a continuous variable by multiple bins) 하는 두가지 방법을 비교하여 설명하겠습니다.

(1) np.digitize(X, bins) 를 이용한 연속형 변수의 여러개 구간별 범주화

(2) pd.cut(X, bins, labels) 를 이용한 연속형 변수의 여러개 구간별 범주화

np.digitize(X, bins)와 pd.cut(X, bins, labels) 함수가 서로 비슷하면서도 사용법에 있어서는 모든 면에서 조금씩 다르므로 각 함수의 syntax에 맞게 정확하게 확인하고서 사용하기 바랍니다.

[ np.digitize()와 pd.cut() 비교 ]

구분	np.digitize(X, bins)	pd.cut(X, bins, labels)
bins=[start, end]	[포함, 미포함)	(미포함, 포함)
bin 구간 대비 작거나 큰 수	bin 첫 구간 보다 작으면 [-inf, start) --> 자동으로 '1'로 digitize bin 마지막 구간 보다 크면 [end, inf) --> 자동으로 bin 순서에 따라 digitize	bin 첫번째 구간보다 작으면 --> NaN bin 마지막 구간보다 크면 --> Nan
label	0, 1, 2, ... 순서의 양의 정수 자동 설정	사용자 지정 가능 (labels option)
반환 (return)	numpy array	a list of categories with labels

(1) np.digitize(X, bins) 를 이용한 연속형 변수의 여러개 구간별 범주화

먼저 예제로 사용할 간단한 pandas DataFrame을 만들어보겠습니다.

import pandas as pd

import numpy as np

df = pd.DataFrame({'col': np.arange(10)})

	col
0	0
1	1
2	2
3	3
4	4
5	5
6	6
7	7
8	8
9	9

이제 np.digitize(X, bins=[0, 5, 8]) 함수를 사용해서 {[0, 5), [5, 8), [8, inf)} 구간 bin 별로 {1, 2, 3} 의 순서로 양의 정수를 자동으로 이름을 부여하여 'grp_digitize'라는 이름의 새로운 칼럼을 df DataFrame에 만들어보겠습니다.

참고로 '(' 또는 ')'는 미포함 (not included), '[' 또는 ']' 보호는 포함(included)을 나타냅니다.

bins=[0, 5, 8]

# returns numpy array

np.digitize(df['col'], bins)

[Out]: array([1, 1, 1, 1, 1, 2, 2, 2, 3, 3])

df['grp_digitize'] = np.digitize(df['col'], bins)

[Out]:

	col	grp_digitize
0	0	1
1	1	1
2	2	1
3	3	1
4	4	1
5	5	2
6	6	2
7	7	2
8	8	3
9	9	3

(2) pd.cut(X, bins, labels) 를 이용한 연속형 변수의 여러개 구간별 범주화

이번에는 pd.cut(X, bins=[0, 5, 8]) 을 이용하여 {(0, 5], (5, 8]} 의 2개 구간별로 범주화해보겠습니다. array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]) 의 각 원소가 어느 bin에 속하는지를 나타내는 category 리스트를 반환합니다.

import pandas as pd

import numpy as np

df = pd.DataFrame({'col': np.arange(10)})

# pd.cut(미포함, 포함]

bins=[0, 5, 8]

# returns a list of catogiries with labels

pd.cut(df["col"], bins=bins)

[Out]:
0           NaN
1    (0.0, 5.0]
2    (0.0, 5.0]
3    (0.0, 5.0]
4    (0.0, 5.0]
5    (0.0, 5.0]
6    (5.0, 8.0]
7    (5.0, 8.0]
8    (5.0, 8.0]
9           NaN
Name: col, dtype: category
Categories (2, interval[int64]): [(0, 5] < (5, 8]]

위 (1)번의 np.digitize() 가 [포함, 미포함) 인 반면에 pd.cut()은 (미포함, 포함]으로 정반대입니다.

위 (1)번의 np.digitize() 가 bin 안의 처음 숫자보다 작거나 같은 값에 자동으로 '1'의 정수를 부여하고, bin 안의 마지막 숫자보다 큰 값에 대해서는 bin 순서에 따라 자동으로 digitze 정수를 부여하는 반면에, pd.cut()은 bin 구간에 없는 값에 대해서는 'NaN'을 반환하고 bin 구간 내 값에 대해서는 사용자가 labels=['a', 'b'] 처럼 입력해준 label 값을 부여해줍니다.

df['grp_cut'] = pd.cut(df["col"], bins=bins, labels=['a', 'b'])

[Out]:

	col	grp_digitize	grp_cut
0	0	1	NaN
1	1	1	a
2	2	1	a
3	3	1	a
4	4	1	a
5	5	2	a
6	6	2	b
7	7	2	b
8	8	3	b
9	9	3	NaN

이렇게 연속형 변수를 범주형 변수로 변환을 한 후에 'col' 변수에 대해 groupby('grp_cut') 로 그룹별 합계(sum by group)를 집계해 보겠습니다.

df.groupby('grp_cut')['col'].sum()

[Out]:

grp_cut
a    15
b    21
Name: col, dtype: int64

'grp_cut' 기준 그룹('a', 'b')별로 합(sum), 개수(count), 평균(mean), 분산(variance) 등의 여러개 통계량을 한번에 구하려면 사용자 정의 함수를 정의한 후에 --> df.groupby('grp_cut').apply(my_summary) 처럼 apply() 를 사용하면 됩니다. 그룹별로 통계량을 한눈에 보기에 좋도록 unstack()을 사용해서 세로로 길게 늘어선 결과를 가로로 펼쳐서 제시해보았습니다.

# UDF of summary statistics

def my_summary(x):

result = {

'sum': x.sum(),

'count': x.count(),

'mean': x.mean(),

'variance': x.var()

}

return result

df.groupby('grp_cut')['col'].apply(my_summary).unstack()

[Out]:

	sum	count	mean	variance
grp_cut
a	15.0	5.0	3.0	2.5
b	21.0	3.0	7.0	1.0

많은 도움이 되었기를 바랍니다.

이번 포스팅이 도움이 되었다면 아래의 '공감~'를 꾹 눌러주세요. :-)

728x90

저작자표시 비영리 변경금지

'Python 분석과 프로그래밍 > Python 데이터 전처리' 카테고리의 다른 글

[Python pandas] TimeStamp와 ID의 모든 조합 MultiIndex로 시계열 데이터 만들기 (0)	2020.06.21
[Python pandas] read_csv() 로 데이터 읽어올 때 날짜/시간 데이터 파싱하기 (parsing datetime from file using read_csv()) (4)	2020.05.17
[Python] 층화 무작위 추출을 통한 train set, test set 분할 (Train, Test set Split by Stratified Random Sampling in Python) (3)	2020.02.15
[Python numpy] Train, Test 데이터셋 분할하기 (split train and test set) (2)	2020.02.11
[Python Numpy] numpy array 거꾸로 뒤집기 (how to reverse numpy array) (0)	2020.02.05

Posted by Rfriend

R, Python 분석과 프로그래밍의 친구 (by R Friend)

[Python pandas] 연속형을 범주형으로 변환하는 np.digitize(), pd.cut() 비교 (comparison of categorization using np.digitize(), pd.cut())

'Python 분석과 프로그래밍 > Python 데이터 전처리' 카테고리의 다른 글

카테고리

태그목록

티스토리툴바