[Python pandas] 그룹 별 무작위 표본 추출 (random sampling by group)

Python 분석과 프로그래밍/Python 데이터 전처리 2018. 12. 26. 12:14

이번 포스팅에서는 Python pandas의 GroupBy()와 apply() 함수를 사용하여 그룹별로 무작위 표본 추출 (Random Sampling and Permutation by Groups) 하는 방법을 소개하겠습니다.

무작위 표본 추출을 하는 데는 np.random.permutation() 함수를 사용해서 순열을 무작위로 뒤섞은 후에 n개 만큼 indexing 해오는 방법을 사용하였습니다.

[ 그룹 별 무작위 표본 추출 (Random Sampling and Permutation by Groups) ]

먼저 예제로 사용한 'grp_1'과 'grp_2'의 두 개의 그룹을 포함한 DataFrame을 만들어보겠습니다.

import numpy as np

import pandas as pd

# setting seed number for reproducibility

np.random.seed(123)

# Make a DataFrame

df = pd.DataFrame({'grp': ['grp_1']*10 + ['grp_2']*10,

'col_1': np.random.randint(20, size=20),

'col_2': np.random.randint(20, size=20)})

	col_1	col_2	grp
0	13	16	grp_1
1	2	4	grp_1
2	2	17	grp_1
3	6	3	grp_1
4	17	2	grp_1
5	19	7	grp_1
6	10	2	grp_1
7	1	15	grp_1
8	0	16	grp_1
9	17	7	grp_1
10	15	9	grp_2
11	9	3	grp_2
12	0	6	grp_2
13	14	1	grp_2
14	0	2	grp_2
15	15	1	grp_2
16	19	12	grp_2
17	14	8	grp_2
18	4	3	grp_2
19	0	10	grp_2

사용자가 지정한 샘플링 비율(sample_pct) 만큼 무작위 표본 추출을 해주는 사용자 정의 함수 (User Defined Function)을 정의해보겠습니다.

# UDF of random sampling

def sampling_func(data, sample_pct):

np.random.seed(123)

N = len(data)

sample_n = int(len(data)*sample_pct) # integer

sample = data.take(np.random.permutation(N)[:sample_n])

return sample

이제 위의 무작위 샘플링 사용자 정의 함수(UDF)를 GroupBy()와 apply() 함수에 적용해서 그룹별 특정 비율(이 예에서는 80%)만큼 무작위 표본 추출(random sampling and permutation by groups)을 해보겠습니다.

# Apply random sampling UDF to groups

sample_set = df.groupby('grp').apply(sampling_func, sample_pct=0.8)

sample_set.sort_index()

		col_1	col_2	grp
grp
grp_1	0	13	16	grp_1
	1	2	4	grp_1
	3	6	3	grp_1
	4	17	2	grp_1
	5	19	7	grp_1
	6	10	2	grp_1
	7	1	15	grp_1
	8	0	16	grp_1
grp_2	10	15	9	grp_2
	11	9	3	grp_2
	13	14	1	grp_2
	14	0	2	grp_2
	15	15	1	grp_2
	16	19	12	grp_2
	17	14	8	grp_2
	18	4	3	grp_2

위의 무작위 표본 추출 결과에서 group_keys 를 없애려면 group_keys = False 를 지정해주면 됩니다.

# disable group_keys

sample_set = df.groupby('grp', group_keys=False).apply(sampling_func, sample_pct=0.8)

sample_set.sort_index()

	col_1	col_2	grp
0	13	16	grp_1
1	2	4	grp_1
3	6	3	grp_1
4	17	2	grp_1
5	19	7	grp_1
6	10	2	grp_1
7	1	15	grp_1
8	0	16	grp_1
10	15	9	grp_2
11	9	3	grp_2
13	14	1	grp_2
14	0	2	grp_2
15	15	1	grp_2
16	19	12	grp_2
17	14	8	grp_2
18	4	3	grp_2

위의 80% 무작위 샘플링이 된 sample_set 에 있는 데이터셋을 training_set 이라고 가정해보고, 위의 sample_set에는 없지만 원래 데이터에는 있던 나머지 20% 데이터를 test_set 으로 별도로 만들어보겠습니다.

test_set = df.drop(df.index[sample_set.index])

test_set

	col_1	col_2	grp
2	2	17	grp_1
9	17	7	grp_1
12	0	6	grp_2
19	0	10	grp_2

참고로, pandas DataFrame에 대한 무작위 표본 추출 방법은 https://rfriend.tistory.com/602 를 참고하세요.

많은 도움이 되었기를 바랍니다.

이번 포스팅이 도움이 되었다면 아래의 '공감~'를 꾹 눌러주세요. ^^

728x90

저작자표시 비영리 변경금지

'Python 분석과 프로그래밍 > Python 데이터 전처리' 카테고리의 다른 글

[Python Numpy] 배열에서 0보다 작은 수를 0으로 변환하는 방법 (0)	2019.02.21
[Python pandas] 다수 그룹 별 다수의 변수 간 상관관계 분석 (correlation coefficients with multiple columns by groups) (0)	2019.02.17
[Python pandas] 그룹 별 선형회귀모형 적합하기 (Group-wise Linear Regression) (0)	2018.12.25
[Python pandas] 그룹 별 변수 간 상관관계 분석 (correlation with columns by groups) (0)	2018.12.24
[Python Pandas] 동일 길이로 나누어서 범주 만들기 pd.cut(), 동일 개수로 나누어서 범주 만들기 pd.qcut() (3)	2018.12.23

Posted by Rfriend

R, Python 분석과 프로그래밍의 친구 (by R Friend)

[Python pandas] 그룹 별 무작위 표본 추출 (random sampling by group)

'Python 분석과 프로그래밍 > Python 데이터 전처리' 카테고리의 다른 글

카테고리

태그목록

티스토리툴바