'grouped.agg()' 태그의 글 목록

'grouped.agg()'에 해당되는 글 2건

2018.09.02 [Python pandas] 여러개의 함수를 적용하여 GroupBy 집계하기 : grouped.agg() 2
2018.09.02 [Python pandas] GroupBy 집계 메소드와 함수 (Group by aggregation methods and functions)

[Python pandas] 여러개의 함수를 적용하여 GroupBy 집계하기 : grouped.agg()

Python 분석과 프로그래밍/Python 데이터 전처리 2018. 9. 2. 20:03

지난번 포스팅에서는 Python pandas의 GroupBy 집계 메소드와 함수에 대해서 알아보았습니다.

이번 포스팅에서는 Python pandas의 GroupBy 집계를 할 때 grouped.agg() 를 사용하여 다수의 함수를 적용하는 몇 가지 방법을 소개하고자 합니다.

(1) 함수 리스트(List)를 사용하여 다수의 GroupBy 집계 함수를 동일한 칼럼에 적용하기

(2) 칼럼과 함수를 매핑한 Dict를 사용하여 칼럼별로 특정 GroupBy 집계 함수를 적용하기

(3) (이름, 함수)의 튜플 (Tuples of (name, function))을 사용하여 GroupBy 집계 함수에 이름 부여하기

[ Python pandas: GroupBy with multiple functions using lists, Dicts, tuples ]

예제로 사용할 데이터는 UCI Machine Learning Repository에 있는 Abalone data set 입니다. 전복의 둘레, 두께, 높이, 전체 무게, 껍질 무게 등 4,177개의 전복을 측정해 놓은 데이터셋입니다.

[ UCI Machine Learning Repository ]

Abalone Data Set 설명: http://archive.ics.uci.edu/ml/datasets/Abalone
Abalone Data Set: http://archive.ics.uci.edu/ml/machine-learning-databases/abalone/abalone.data
Variables

Name Data Type Meas. Description ---- --------- ----- ----------- Sex nominal M, F, and I (infant) Length continuous mm Longest shell measurement Diameter continuous mm perpendicular to length Height continuous mm with meat in shell Whole weight continuous grams whole abalone Shucked weight continuous grams weight of meat Viscera weight continuous grams gut weight (after bleeding) Shell weight continuous grams after being dried Rings integer +1.5 gives the age in years

UCI machine learning repository 웹사이트로부터 Abalone 데이터셋을 csv파일을 다운로드 받아서 pandas DataFrame로 불러오도록 하겠습니다.

# Importing common libraries

import numpy as np

import pandas as pd

# Import Abalone data set from UCI machine learning repository directly

import csv

import urllib2

url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/abalone/abalone.data'

downloaded_data = urllib2.urlopen(url)

abalone = pd.read_csv(downloaded_data,

names = ['sex', 'length', 'diameter', 'height',

'whole_weight', 'shucked_weight', 'viscera_weight',

'shell_weight', 'rings'],

header = None)

abalone.head()

	sex	length	diameter	height	whole_weight	shucked_weight	viscera_weight	shell_weight	rings
0	M	0.455	0.365	0.095	0.5140	0.2245	0.1010	0.150	15
1	M	0.350	0.265	0.090	0.2255	0.0995	0.0485	0.070	7
2	F	0.530	0.420	0.135	0.6770	0.2565	0.1415	0.210	9
3	M	0.440	0.365	0.125	0.5160	0.2155	0.1140	0.155	10
4	I	0.330	0.255	0.080	0.2050	0.0895	0.0395	0.055	7

예제에서 GroupBy 집계 시 그룹을 나누는 기준으로 사용할 용도로 'length' 변수에 대해 중앙값을 기준으로 큰지, 작은지 여부에 따라 'length_cat' 라는 범주형 변수를 하나 더 만들어보겠습니다.

abalone['length_cat'] = np.where(abalone.length > np.median(abalone.length),

'length_long', # True

'length_short') # False

abalone[['length', 'length_cat']][:10]

	length	length_cat
0	0.455	length_short
1	0.350	length_short
2	0.530	length_short
3	0.440	length_short
4	0.330	length_short
5	0.425	length_short
6	0.530	length_short
7	0.545	length_short
8	0.475	length_short
9	0.550	length_long

(1) 함수 리스트(List)를 사용하여 다수의 GroupBy 집계 함수를 동일한 칼럼에 적용하기

'sex' ('F', 'I', 'M' 계급), 'length_cat' ('length_short', 'length_long' 계급) 의 두 개의 범주형 변수를 사용하여 GroupBy 집계 시 그룹을 나누는 기준으로 사용하겠으며, 'whole_weight' 연속형 변수에 대해 GroupBy 집계 함수를 적용하여 그룹 집계를 해보겠습니다.

grouped_ww = abalone.groupby(['sex', 'length_cat'])['whole_weight']

grouped_ww

<pandas.core.groupby.SeriesGroupBy object at 0x10a7e0290>

먼저, 복습을 하는 차원에서 지난번 포스팅에서 소개했던 '단일 함수'를 사용하여 GroupBy 집계하는 두가지 방법, 즉 (1) GroupBy method를 사용하거나 아니면 (2) grouped.agg(함수)를 사용하는 방법을 소개하면 아래와 같습니다. 하나의 집계함수를 적용하면 반환되는 결과는 Series 가 됩니다.

(방법1) GroupBy methods

(방법2) grouped.agg(function)

grouped_ww.mean() # Series

sex  length_cat  
F    length_long     1.261330
     length_short    0.589702
I    length_long     0.923215
     length_short    0.351234
M    length_long     1.255182
     length_short    0.538157
Name: whole_weight, dtype: float64

grouped_ww.agg('mean') # Series

sex  length_cat  
F    length_long     1.261330
     length_short    0.589702
I    length_long     0.923215
     length_short    0.351234
M    length_long     1.255182
     length_short    0.538157
Name: whole_weight, dtype: float64

이제부터 '여러개의 함수'를 적용하여 GroupBy 집계하는 방법을 소개하겠습니다. 먼저, GroupBy 집계하려는 함수들의 문자열 리스트(list)로 grouped.agg() 에 적용하는 방법입니다. 이처럼 여러개의 집계함수를 적용하면 반환되는 결과는 DataFrame이 됩니다.

grouped_ww.agg(['size', 'mean', 'std', 'min', 'max']) # DataFrame

		size	mean	std	min	max
sex	length_cat
F	length_long	889	1.261330	0.329656	0.6405	2.6570
F	length_short	418	0.589702	0.202400	0.0800	1.3580
I	length_long	188	0.923215	0.218334	0.5585	2.0495
I	length_short	1154	0.351234	0.204237	0.0020	1.0835
M	length_long	966	1.255182	0.354682	0.5990	2.8255
M	length_short	562	0.538157	0.246498	0.0155	1.2825

function_list = ['size', 'mean', 'std', 'min', 'max']

grouped_ww.agg(function_list)

		size	mean	std	min	max
sex	length_cat
F	length_long	889	1.261330	0.329656	0.6405	2.6570
F	length_short	418	0.589702	0.202400	0.0800	1.3580
I	length_long	188	0.923215	0.218334	0.5585	2.0495
I	length_short	1154	0.351234	0.204237	0.0020	1.0835
M	length_long	966	1.255182	0.354682	0.5990	2.8255
M	length_short	562	0.538157	0.246498	0.0155	1.2825

물론, "다수의 칼럼"에 대해서 여러개의 함수를 적용하는 것도 가능합니다. 아래의 예에서는 'whole_weight', 'shell_weight'의 두 개의 칼럼에 대해서 GroupBy 집계 함수 리스트(list)를 적용하여 집계하여 보았습니다.

grouped = abalone.groupby(['sex', 'length_cat'])

function_list = ['size', 'mean', 'std']

groupby_result = grouped['whole_weight', 'shell_weight'].agg(function_list)

groupby_result

		whole_weight			shell_weight
		size	mean	std	size	mean	std
sex	length_cat
F	length_long	889	1.261330	0.329656	889	0.360013	0.104014
F	length_short	418	0.589702	0.202400	418	0.178650	0.063085
I	length_long	188	0.923215	0.218334	188	0.273247	0.064607
I	length_short	1154	0.351234	0.204237	1154	0.104549	0.061003
M	length_long	966	1.255182	0.354682	966	0.351683	0.102636
M	length_short	562	0.538157	0.246498	562	0.162141	0.075629

GroupBy 집계 결과가 pandas DataFrame으로 반환된다고 하였으므로, DataFrame에서 사용하는 Indexing 기법을 그대로 사용할 수 있습니다. 예를 들어, 칼럼을 기준으로 집계 결과 데이터프레임인 groupby_result 로 부터 'shell_weight' 변수에 대한 결과만 Indexing 해보겠습니다.

groupby_result['shell_weight']

		size	mean	std
sex	length_cat
F	length_long	889	0.360013	0.104014
F	length_short	418	0.178650	0.063085
I	length_long	188	0.273247	0.064607
I	length_short	1154	0.104549	0.061003
M	length_long	966	0.351683	0.102636
M	length_short	562	0.162141	0.075629

groupby_result['shell_weight'][['size', 'mean']]

		size	mean
sex	length_cat
F	length_long	889	0.360013
F	length_short	418	0.178650
I	length_long	188	0.273247
I	length_short	1154	0.104549
M	length_long	966	0.351683
M	length_short	562	0.162141

GroupBy 집계 결과 데이터프레임으로부터 row를 기준으로 Indexing을 할 수도 있습니다. DataFrame에서 row 기준으로 indexing 할 때 DataFrame.loc[] 를 사용하는 것과 동일합니다.

groupby_result.loc['M']

	whole_weight			shell_weight
	size	mean	std	size	mean	std
length_cat
length_long	966	1.255182	0.354682	966	0.351683	0.102636
length_short	562	0.538157	0.246498	562	0.162141	0.075629

groupby_result.loc['M', 'shell_weight']

	size	mean	std
length_cat
length_long	966	0.351683	0.102636
length_short	562	0.162141	0.075629

(2) 칼럼과 함수를 매핑한 Dict를 사용하여 칼럼별로 특정 GroupBy 집계 함수를 적용하기

먼저, 범위(range)와 IQR(Inter-Quartile Range)를 구하는 사용자 정의 함수를 정의한 후에 grouped.agg() 에 적용해보겠습니다.

def range_func(x):

max_val = np.max(x)

min_val = np.min(x)

range_val = max_val - min_val

return range_val

def iqr_func(x):

q3, q1 = np.percentile(x, [75, 25])

iqr = q3 - q1

return iqr

이제 Dicts를 사용하여 'whole_weight' 칼럼에는 size(), mean(), std() 메소드를 매핑하여 GroupBy 집계에 적용하고, 'shell_weight' 칼럼에는 range_func, iqr_func 사용자 정의 함수를 매핑하여 GroupBy 집계에 적용해보겠습니다.

size(), mean(), std() 등의 메소드는 문자열(string)로 grouped.agg() 안에 넣어주어야 해서 작은따옴표('method_name')로 감싸주었으며, 사용자 정의 함수(UDF)는 작은따옴표 없이 그냥 써주면 됩니다.

grouped.agg({'whole_weight': ['size', 'mean', 'std'], # put method's name as a string

'shell_weight': [range_func, iqr_func]}) # UDF name

		whole_weight			shell_weight
		size	mean	std	range_func	iqr_func
sex	length_cat
F	length_long	889	1.261330	0.329656	0.850	0.127000
F	length_short	418	0.589702	0.202400	0.378	0.080500
I	length_long	188	0.923215	0.218334	0.485	0.067875
I	length_short	1154	0.351234	0.204237	0.349	0.092750
M	length_long	966	1.255182	0.354682	0.776	0.124000
M	length_short	562	0.538157	0.246498	0.375	0.102750

(3) (이름, 함수)의 튜플 (Tuples of (name, function))을 사용하여 GroupBy 집계 함수에 이름 부여하기

위의 (2)번에서 Dicts를 사용하여 shell_weight 변수에 대해 range_func, iqr_func 사용자 정의 함수를 적용하여 GroupBy 집계를 하였는데요, 집계 결과로 반환된 데이터프레임의 변수 이름이 그대로 'range_func', 'iqr_func' 여서 왠지 좀 마음에 들지 않군요. 이럴 때 (이름, 함수) 의 튜플 (Tuples of (name, function))을 사용하여 함수에 특정 이름을 부여할 수 있습니다.

아래 예제에서는 알아보기에 쉽도록 'range_func'는 'Range'라는 이름으로, 'iqr_func'는 'Inter-Quartile_Range'라는 이름을 부여하여 변경을 해보겠습니다.

# (name, function) tuples

grouped.agg({'whole_weight': ['size', 'mean', 'std'],

'shell_weight': [('Range', range_func), # (name, function) tuple

('Inter-Quartile_Range', iqr_func)]}) # (name, function) tuple

		whole_weight			shell_weight
		size	mean	std	Range	Inter-Quartile_Range
sex	length_cat
F	length_long	889	1.261330	0.329656	0.850	0.127000
F	length_short	418	0.589702	0.202400	0.378	0.080500
I	length_long	188	0.923215	0.218334	0.485	0.067875
I	length_short	1154	0.351234	0.204237	0.349	0.092750
M	length_long	966	1.255182	0.354682	0.776	0.124000
M	length_short	562	0.538157	0.246498	0.375	0.102750

많은 도움이 되었기를 바랍니다.

728x90

저작자표시 비영리 변경금지

'Python 분석과 프로그래밍 > Python 데이터 전처리' 카테고리의 다른 글

[Python] GroupBy 를 활용한 그룹 별 가중평균 구하기 (0)	2018.12.01
[Python pandas] 여러개의 칼럼에 대해 다른 함수를 적용한 Group By 집계: grouped.apply(functions) (0)	2018.09.06
[Python pandas] GroupBy 집계 메소드와 함수 (Group by aggregation methods and functions) (0)	2018.09.02
[Python pandas] 다양한 GroupBy 집계 방법 : Dicts, Series, Lists, Functions, Index Levels (0)	2018.09.01
[Python pandas] 데이터프레임에서 두 개의 문자열 변수의 각 원소를 합쳐서 새로운 변수 만들기 (2)	2018.09.01

Posted by Rfriend

[Python pandas] GroupBy 집계 메소드와 함수 (Group by aggregation methods and functions)

Python 분석과 프로그래밍/Python 데이터 전처리 2018. 9. 2. 14:56

지난번 포스팅에서는 row나 column 기준으로 GroupBy의 Group을 지정할 수 있는 4가지 방법으로 Dicts, Series, Functions, Index Levels 를 소개하였습니다.

이번 포스팅에서는 Python pandas에서 연속형 변수의 기술통계량 집계를 할 수 있는 GroupBy 집계 메소드와 함수 (GroupBy aggregation methods and functions)에 대해서 소개하겠습니다.

(1) GroupBy 메소드를 이용한 집계 (GroupBy aggregation using methods): (ex) grouped.sum()

(2) 함수를 이용한 GroupBy 집계 (GroupBy aggregation using functions): grouped.agg(function)

[ Python pandas Group By 집계 메소드와 함수 ]

pandas에서 GroupBy 집계를 할 때 (1) pandas에 내장되어 있는 기술 통계량 메소드를 사용하는 방법과, (2) (사용자 정의) 함수를 grouped.agg(function) 형태로 사용하는 방법이 있습니다. GroupBy 메소드는 성능이 최적화되어 있어 성능면에서 함수를 사용하는 것보다 빠르므로, 메소드가 지원하는 집단별 기술통계량 분석 시에는 메소드를 이용하는게 좋겠습니다.

NA 값은 모두 무시되고 non-NA 값들에 대해서만 GroupBy method가 적용됩니다.

기술 통계량들이 어려운게 하나도 없으므로 이번 포스팅은 좀 쉬어가는 코너로 가볍게 소개합니다. 설명에 사용한 간단한 예제 데이터프레임과 'group'변수를 대상으로 GroupBy object를 만들어보겠습니다.

# Importing common libraries

import numpy as np

import pandas as pd

# sample DataFrame

df = pd.DataFrame({'group': ['a', 'a', 'a', 'b', 'b', 'b'],

'value_1': np.arange(6),

'value_2': np.random.randn(6)})

	group	value_1	value_2
0	a	0	-1.739302
1	a	1	0.851955
2	a	2	0.874874
3	b	3	-0.461543
4	b	4	0.880763
5	b	5	-0.346675

# Making GroupBy object

grouped = df.groupby('group')

grouped

<pandas.core.groupby.DataFrameGroupBy object at 0x11136f550>

(1) GroupBy 메소드를 이용한 집계 (GroupBy aggregation using methods)

(1-1) count(), sum()

count(): 그룹 내 non-NA 개수

sum(): 그룹 내 non-NA 합

grouped.count()

	value_1	value_2
group
a	3	3
b	3	3

grouped.sum() # DataFrame

	value_1	value_2
group
a	3	-0.012473
b	12	0.072545

*cf. grouped.size() 도 grouped.count()와 동일한 결과를 반환함

위의 예에서 보면 'value_1', 'value_2' 변수가 숫자형이므로 pandas가 알아서 잘 찾아서 count()와 sum()을 해주었으며, 반환된 결과는 데이터프레임입니다.

만약 특정 변수에 대해서만 그룹별 요약/집계를 하고 싶다면 해당 변수를 indexing해주면 되며, 한개 변수에 대해서만 GroupBy 집계를 하면 반환되는 결과는 Series가 됩니다. 한개 변수에 대해 GroupBy 집계해서 나온 Series를 데이터프레임으로 만들고 싶으면 pd.DataFrame() 를 사용해서 집계 결과를 데이터프레임으로 변환해주면 됩니다.

grouped.sum()['value_2'] # Series

group

a   -0.012473
b    0.072545

Name: value_2, dtype: float64

pd.DataFrame(grouped.sum()['value_2']) # DataFrame

	value_2
group
a	-0.012473
b	0.072545

(1-2) 최소값, 최대값: min(), max()

min(): 그룹 내 non-NA 값 중 최소값

max(): 그룹 내 non-NA 값 중 최대값

grouped.min()

	value_1	value_2
group
a	0	-1.739302
b	3	-0.461543

grouped.max()

	value_1	value_2
group
a	2	0.874874
b	5	0.880763

(1-3) 중심 경향: mean(), median()

mean(): 그룹 내 non-NA 값들의 평균값

median(): 그룹 내 non-NA 값들의 중앙값

grouped.mean()

	value_1	value_2
group
a	1	-0.004158
b	4	0.024182

grouped.median()

	value_1	value_2
group
a	1	0.851955
b	4	-0.346675

※ 그룹별로 집계된 결과값의 변수에 접두사(Prefix)를 붙이려면 add_prefix() 를 사용합니다.

예) df.groupby('key_col').mean().add_prefix('mean_')

(1-4) 퍼짐 정도: std(), var(), quantile()

표준편차, 분산 계산에 n-1 자유도를 사용했으므로 샘플표준편차, 샘플분산으로 봐야겠네요.

quantile() 의 괄호 안에 0~1 사이의 값을 넣어주면 분위수를 계산해주며, 최소값과 최대값을 등분하여 그 사이를 interpolation 하여 분위수를 계산하는 방식입니다.

std(): 그룹 내 표준편차

var(): 그룹 내 분산

quantile(): 그룹 내 분위수

grouped.std()

	value_1	value_2
group
a	1.0	1.502723
b	1.0	0.744042

grouped.var()

	value_1	value_2
group
a	1	2.258176
b	1	0.553598

# interpolation

grouped.quantile(0.1)

0.1	value_1	value_2
group
a	0.2	-1.221051
b	3.2	-0.438569

(1-5) first(), last()

first(): 그룹 내 non-NA 값 중 첫번째 값

last(): 그룹 내 non-NA 값 중 마지막 값

grouped.first()

	value_1	value_2
group
a	0	-1.739302
b	3	-0.461543

grouped.last()

	value_1	value_2
group
a	2	0.874874
b	5	-0.346675

(1-6) describe()

describe(): 그룹 별 기술통계량

- 옆으로 길게

describe().T: 그룹 별 기술통계량

- 세로로 길게

grouped.describe()['value_1']

	count	mean	std	min	25%	50%	75%	max
group
a	3.0	1.0	1.0	0.0	0.5	1.0	1.5	2.0
b	3.0	4.0	1.0	3.0	3.5	4.0	4.5	5.0

grouped.describe()['value_1'].T

group	a	b
count	3.0	3.0
mean	1.0	4.0
std	1.0	1.0
min	0.0	3.0
25%	0.5	3.5
50%	1.0	4.0
75%	1.5	4.5
max	2.0	5.0

(2) 함수를 이용한 GroupBy 집계: grouped.agg(function)

필요로 하는 집계함수가 pandas GroupBy methods에 없는 경우 사용자 정의 함수를 정의해서 집계에 사용할 수 있습니다. IQR(Inter-Quartile Range, Q3 - Q1) 를 사용자 정의 함수로 정의하고, 이를 grouped.aggregate() 혹은 grouped.agg() 의 괄호 안에 넣어서 그룹 별로 IQR를 계산해보겠습니다.

def iqr_func(x):

q3, q1 = np.percentile(x, [75, 25])

iqr = q3 - q1

return iqr

grouped.aggregate(function)

grouped.agg(function)

grouped.aggregate(iqr_func)

	value_1	value_2
group
a	1	1.307088
b	1	0.671153

grouped.agg(iqr_func)

	value_1	value_2
group
a	1	1.307088
b	1	0.671153

위에서 사용자 정의함수로 정의해서 그룹별로 집계한 결과가 맞게 나온건지 quantile() 메소드로 그룹별 Q3 와 Q1을 계산해서 확인해보니, 위의 grouped.agg(iqr_func)가 잘 계산한거 맞네요.

grouped.quantile([0.75, 0.25])

		value_1	value_2
group
a	0.75	1.5	0.863414
a	0.25	0.5	-0.443674
b	0.75	4.5	0.267044
b	0.25	3.5	-0.404109

다음번 포스팅에서는 grouped.agg() 의 좀더 다양한 사용법을 소개하겠습니다.

많은 도움이 되었기를 바랍니다.

728x90

저작자표시 비영리 변경금지

'Python 분석과 프로그래밍 > Python 데이터 전처리' 카테고리의 다른 글

[Python pandas] 여러개의 칼럼에 대해 다른 함수를 적용한 Group By 집계: grouped.apply(functions) (0)	2018.09.06
[Python pandas] 여러개의 함수를 적용하여 GroupBy 집계하기 : grouped.agg() (2)	2018.09.02
[Python pandas] 다양한 GroupBy 집계 방법 : Dicts, Series, Lists, Functions, Index Levels (0)	2018.09.01
[Python pandas] 데이터프레임에서 두 개의 문자열 변수의 각 원소를 합쳐서 새로운 변수 만들기 (2)	2018.09.01
[Python pandas] 범주형 변수의 항목을 기준 정보를 사용하여 매핑해 변환하기: dict.get() (0)	2018.08.31

Posted by Rfriend

이전 1 다음

R, Python 분석과 프로그래밍의 친구 (by R Friend)

'grouped.agg()'에 해당되는 글 2건

[Python pandas] 여러개의 함수를 적용하여 GroupBy 집계하기 : grouped.agg()

'Python 분석과 프로그래밍 > Python 데이터 전처리' 카테고리의 다른 글

[Python pandas] GroupBy 집계 메소드와 함수 (Group by aggregation methods and functions)

'Python 분석과 프로그래밍 > Python 데이터 전처리' 카테고리의 다른 글

카테고리

태그목록

티스토리툴바