[Python pandas] DataFrame에서 무작위(확률, 임의) 표본 추출하기: DataFrame.sample()
Python 분석과 프로그래밍/Python 데이터 전처리 2021. 1. 16. 21:58이전 포스팅에서는 무작위(확률, 임의) 표본 추출과 관련하여,
- numpy.random() 메소드를 이용하여 확률분포별 확률 표본 추출, 난수 생성: https://rfriend.tistory.com/284
- 그룹별 무작위 표본 추출: https://rfriend.tistory.com/407
- 기계학습을 위한 Train, Test 데이터셋 분할: https://rfriend.tistory.com/519
- 층화 무작위 추출을 통한 Train, Test 데이터셋 분할: https://rfriend.tistory.com/520
방법에 대하여 소개하였습니다.
이번 포스팅에서는 Python pandas 모듈의 DataFrame.sample() 메소드를 사용해서 DataFrame으로 부터 무작위 (확률, 임의) 표본 추출 (random sampling) 하는 방법을 소개하겠습니다.
(1) DataFrame으로 부터 특정 개수의 표본을 무작위로 추출하기 (number)
(2) DataFrame으로 부터 특정 비율의 표본을 무작위로 추출하기 (fraction)
(3) DataFrame으로 부터 복원 무작위 표본 추출하기 (random sampling with replacement)
(4) DataFrame으로 부터 가중치를 부여하여 표본 추출하기 (weights)
(5) DataFrame으로 부터 칼럼에 대해 무작위 표본 추출하기 (axis=1, axis='column)
(6) DataFrame으로 부터 특정 칼럼에 대해 무작위 표본 추출한 결과를 numpy array로 할당하기
[ pandas DataFrame에서 무작위 (확률) 표본 추출하기: pandas.DataFrame.sample() ]
(1) DataFrame으로 부터 특정 개수의 표본을 무작위(확률)로 추출하기 (number) |
예제로 사용할 4개의 관측치와 3개의 칼럼을 가진 pandas DataFrame을 만들어보겠습니다.
(참조 [1] 의 pandas tutorial 코드 사용하였습니다.)
import pandas as pd
|
DataFrame.sample() 메소드의 n 매개변수를 사용해서 특정 개수 (number)의 표본을 무작위로 추출할 수 있습니다. 그리고 random_state 매개변수는 무작위(확률) 표본 추출을 위한 난수(random number)를 생성할 때 초기값(seed number) 로서, 재현가능성(reproducibility)을 위해서 설정해줍니다.
아래 예에서는 총 4개 관측치 중에서 2개의 관측치 (n=2) 를 무작위 표본 추출해보았습니다. Index를 기준으로 n 개수 만큼 표본을 추출해서 모든 칼럼의 값을 pandas DataFrame 자료구조로 반환합니다.
df.sample(n=2, # number of items from axis to return.
|
(2) DataFrame으로 부터 특정 비율의 표본을 무작위로 추출하기 (fraction) |
DataFrame으로 부터 특정 비율(fraction)으로 무작위 표본 추출을 하고 싶으면 frac 매개변수에 0~1 사이의 부동소수형(float) 값을 입력해주면 됩니다.
df.sample(frac=0.5, # fraction of axis items to return.
|
만약 비복원 추출 모드 (replace = False, 기본 설정) 에서 frac 값이 1을 초과할 경우에는 "ValueError: Replace has to be set to 'True' when upsampling the population 'frac' > 1." 이라는 에러가 발생합니다. 왜냐하면 모집단의 표본 개수 (100%, frac=1) 보다 더 많은 표본을 비복원 추출로는 할 수 없기 때문입니다. (복원 추출의 경우 동일한 관측치를 다시 표본 추출할 수 있으므로 frac > 1 인 경우도 가능함.)
## ValueError: Replace has to be set to `True` when upsampling the population `frac` > 1. --------------------------------------------------------------------------- ValueError Traceback (most recent call last) <ipython-input-45-2fcc4494d7ae> in <module> ----> 1 df.sample(frac=1.5, # fraction of axis items to return. 2 random_state=1004) ~/opt/anaconda3/lib/python3.8/site-packages/pandas/core/generic.py in sample(self, n, frac, replace, weights, random_state, axis) 5326 n = 1 5327 elif frac is not None and frac > 1 and not replace: -> 5328 raise ValueError( 5329 "Replace has to be set to `True` when " 5330 "upsampling the population `frac` > 1." ValueError: Replace has to be set to `True` when upsampling the population `frac` > 1.
|
만약 DataFrame.sample() 메소드에서 표본 개수 n 과 표본추출 비율 frac 을 동시에 설정하게 되면 "ValueError: Please enter a value for 'frac' OR 'n', not both" 에러가 발생합니다. n 과 frac 둘 중에 하나만 입력해야 합니다.
## parameter 'n' and 'frac' cannot be used at the same time. --------------------------------------------------------------------------- ValueError Traceback (most recent call last) <ipython-input-6-b31ebc150882> in <module> 1 ## parameter 'n' and 'frac' cannot be used at the same time. 2 ## ValueError: Please enter a value for `frac` OR `n`, not both ----> 3 df.sample(n=2, frac=0.5) ~/opt/anaconda3/lib/python3.8/site-packages/pandas/core/generic.py in sample(self, n, frac, replace, weights, random_state, axis) 5335 n = int(round(frac * axis_length)) 5336 elif n is not None and frac is not None: -> 5337 raise ValueError("Please enter a value for `frac` OR `n`, not both") 5338 5339 # Check for negative sizes ValueError: Please enter a value for `frac` OR `n`, not both
|
(3) DataFrame으로 부터 복원 무작위 표본 추출하기 (random sampling with replacement) |
한번 추출한 표본을 다시 모집단에 되돌려 넣고 추출하는 방법을 복원 추출법 (sampling with replacement) 이라고 합니다. 복원 추출법을 사용하면 동일한 표본이 중복해서 나올 수 있습니다.
DataFrame.sample() 메소드에서는 repalce=True 로 설정하면 복원 추출을 할 수 있습니다. 많은 경우 한번 추출된 표본은 되돌려 놓지 않고 표본을 추출하는 비복원 추출(sampling without replacement)을 사용하며, 기본 설정은 replace=False 입니다.
## replace=True: random sampling with replacement
|
만약 비복원 추출 모드 (replace=False) 에서 원본 DataFrame 의 관측치 개수 (행의 개수) 보다 많은 수의 표본을 무작위 추출하고자 한다면 "ValueError: Cannot take a larger sample than population when 'replace=False'" 에러 메시지가 발생합니다. 모집단이 가지고 있는 관측치 수보다 더 많은 수의 표본을 중복이 없는 "비복원 추출"로는 불가능하기 때문입니다.
(복원추출(sampling with replacement, replace=True) 모드 에서는 동일한 표본을 중복 추출이 가능하므로 모집단 관측치 수보다 많은 수의 표본 추출이 가능함.)
## ValueError: Cannot take a larger sample than population when 'replace=False' --------------------------------------------------------------------------- ValueError Traceback (most recent call last) <ipython-input-42-40c76bd4c271> in <module> 1 ## replace=True: random sampling with replacement ----> 2 df.sample(n=8, # or equivalently: frac=2 3 replace=False # random sampling without replacement 4 ) ~/opt/anaconda3/lib/python3.8/site-packages/pandas/core/generic.py in sample(self, n, frac, replace, weights, random_state, axis) 5343 ) 5344 -> 5345 locs = rs.choice(axis_length, size=n, replace=replace, p=weights) 5346 return self.take(locs, axis=axis) 5347 mtrand.pyx in numpy.random.mtrand.RandomState.choice() ValueError: Cannot take a larger sample than population when 'replace=False'
|
(4) DataFrame으로 부터 가중치를 부여하여 표본 추출하기 (weights) |
만약에 DataFrame 내의 특정 칼럼의 값을 기준으로 가중치를 부여하여 무작위 표본 추출을 하고 싶다면 DataFrame.sample() 메소드의 weights 매개변수에 가중치로 사용할 칼럼 이름을 설정해주면 됩니다.
아래 예에서는 df DataFrame의 'num_specimen_seen' 칼럼의 값이 크면 클수록 표본으로 뽑힐 확률이 더 크도록 가중치(weights)를 부여해보았습니다. 아니나 다를까, 'num_specimen_seen' 값이 10, 8 인 falcon, fish가 표본으로 추출이 되었네요.
(물론, 표본추출 시행을 계속 하다보면 num_specimen_seen 값이 1인 spider나 2인 dog 도 표본으로 뽑히는 때가 오긴 올겁니다. 다만, num_specimen_seen 값의 가중치로 인해 표본 추출될 확률이 낮아 상대적으로 작은 빈도로 추출이 되겠지요.)
## Using a DataFrame column as weights. )
|
(5) DataFrame으로 부터 칼럼에 대해 무작위 표본 추출하기 (axis=1, axis='column) |
위의 (1) ~ (4) 까지는 axis=0, 즉 Index 에 대해서 무작위 표본 추출을 해서 전체 칼럼의 값을 반환하였습니다.
DataFrame.sample() 메소드의 axis 매개변수를 axis=1, 또는 axis='column' 으로 설정을 해주면 여러개의 칼럼에 대해서 무작위로 표본 추출을 해서 전체 행(all rows, random sampled columns) 을 반환합니다. (이런 요건의 분석은 그리 많지는 않을것 같습니다만, 이런 기능도 있다는 정도로만 알아두면 되겠습니다.)
## Axis to sample: by column
|
axis 매개변수의 기본 설정은 대부분의 분석 요건에 해당하는 Index 기준의 무작위 표본 추출인 axis=0 (or, axis='index') 입니다.
## Axis to sample: by index
|
(6) DataFrame으로 부터 특정 칼럼에 대해 무작위 표본 추출한 결과를 numpy array로 할당하기 |
만약 DataFrame의 여러개의 칼럼 중에서 특정 하나의 칼럼에 대해서만 무작위 표본 추출을 하고 싶다면 DataFrame['column_name'] 형식으로 먼저 Series 로 특정 칼럼의 값을 가져오고, 이에 대해서 sample() 메소드를 사용하면 됩니다.
## Sampling only for a column [Out]
|
df['num_specimen_seen'].sample(n=2, random_state=1004)
|
이렇게 DataFrame으로 부터 특정 하나의 칼럼 값을 Series 로 인덱싱해와서 무작위 표본 추출을 하면, 역시 그 결과 객체의 데이터 유형도 Series 입니다.
## Assigning sampling results as Series
|
만약, DataFrame으로 부터 특정 하나의 칼럼 값 Series 로 부터의 무작위 표본 추출 결과를 Numpy Array로 할당해서 결과를 가져오고 싶다면 numpy.array() 로 Series 를 array 로 변환해주면 됩니다.
## Assigning sampling results as numpy array [Out] numpy.ndarray samp_array
|
[ Reference ]
* pandas.DataFrame.sample: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sample.html
이번 포스팅이 많은 도움이 되었기를 바랍니다.
행복한 데이터 과학자 되세요! :-)