[Python pandas] 그룹 별 변수 간 상관관계 분석 (correlation with columns by groups)

Python 분석과 프로그래밍/Python 데이터 전처리 2018. 12. 24. 16:46

이번 포스팅에서는 그룹 별로 변수 간 상관관계 분석 (correlation with columns by groups) 하는 방법을 소개하겠습니다.

Python pandas는 Pearson Correlation Coefficient를 구할 수 있는 corr(), corrwith() 함수를 제공합니다. 이들 함수를 groupby() 와 apply(lambda func)를 함께 사용함으로써 그룹 별 변수 간 상관계수를 구할 수 있습니다.

[ 피어슨 상관계수 ( Pearson Correlation Coefficient) ]

먼저 예제로 사용할 'group 1'과 'group 2'의 2개의 그룹을 가진 간단한 DataFrame을 만들어보겠습니다.

import numpy as np

import pandas as pd

from pandas import DataFrame

# making DataFrame with 4 random variables

np.random.seed(123) # for reproducibility

df= DataFrame(np.random.randn(10, 4),

columns=['a', 'b', 'c', 'd'])

# setting index with 2 group, 'grp1' and 'grp2'

df['group'] = ['grp1', 'grp1', 'grp1', 'grp1', 'grp1',

'grp2', 'grp2', 'grp2', 'grp2', 'grp2']

df = df.set_index('group')

	a	b	c	d
group
grp1	-1.085631	0.997345	0.282978	-1.506295
grp1	-0.578600	1.651437	-2.426679	-0.428913
grp1	1.265936	-0.866740	-0.678886	-0.094709
grp1	1.491390	-0.638902	-0.443982	-0.434351
grp1	2.205930	2.186786	1.004054	0.386186
grp2	0.737369	1.490732	-0.935834	1.175829
grp2	-1.253881	-0.637752	0.907105	-1.428681
grp2	-0.140069	-0.861755	-0.255619	-2.798589
grp2	-1.771533	-0.699877	0.927462	-0.173636
grp2	0.002846	0.688223	-0.879536	0.283627

(1) 'd' 변수와 나머지 모든 변수 간 그룹 별 상관계수 구하기 : x.corrwith(x['d'])

# correlation with columns: corrwith()

corr_with_d = lambda x: x.corrwith(x['d'])

grouped = df.groupby('group')

grouped.apply(corr_with_d)

	a	b	c	d
group
grp1	0.846822	0.099417	0.089205	1.0
grp2	0.307477	0.832473	-0.390469	1.0

(2) 'a'변수와 'd'변수 간 그룹 별 상관계수 구하기 : g['a'].corr[g['d'])

# inter-column correlation: corr()

corr_a_d = lambda g: g['a'].corr(g['d'])

grouped = df.groupby('group')

DataFrame(grouped.apply(corr_a_d))

	0
group
grp1	0.846822
grp2	0.307477

많은 도움이 되었기를 바랍니다.

이번 포스팅이 도움이 되었다면 아래의 '공감~'를 꾹 눌러주세요. ^^

728x90

저작자표시 비영리 변경금지

'Python 분석과 프로그래밍 > Python 데이터 전처리' 카테고리의 다른 글

[Python pandas] 그룹 별 무작위 표본 추출 (random sampling by group) (0)	2018.12.26
[Python pandas] 그룹 별 선형회귀모형 적합하기 (Group-wise Linear Regression) (0)	2018.12.25
[Python Pandas] 동일 길이로 나누어서 범주 만들기 pd.cut(), 동일 개수로 나누어서 범주 만들기 pd.qcut() (3)	2018.12.23
[Python pandas] 데이터프레임에 그룹 단위로 통계량을 집계해서 칼럼 추가하기 : df.groupby(['group']).col.transform('count') (0)	2018.12.22
[Python Pandas] 결측값을 그룹 평균값으로 채우기 (Fill missing values by Group means) (16)	2018.12.19