'그룹별 다수의 변수 간 상관관계 분석' 태그의 글 목록

'그룹별 다수의 변수 간 상관관계 분석'에 해당되는 글 1건

2019.02.17 [Python pandas] 다수 그룹 별 다수의 변수 간 상관관계 분석 (correlation coefficients with multiple columns by groups)

[Python pandas] 다수 그룹 별 다수의 변수 간 상관관계 분석 (correlation coefficients with multiple columns by groups)

Python 분석과 프로그래밍/Python 데이터 전처리 2019. 2. 17. 23:30

이번 포스팅에서는 다수 그룹 별 다수의 변수 간 쌍을 이룬 상관계수 분석(paired correlation coefficients with multiple columns by multiple groups) 을 하는 방법을 소개하겠습니다.

보통 다수의 변수간의 상관계수를 구할 때는 상관계수 행렬 (correlation matrix)를 하면 되는데요, 이때 '다수의 그룹별 (by multiple groups)'로 나누어서 다수의 변수 간 상관계수를 구하려면 머리가 좀 복잡해집니다.

간단한 예제 데이터셋을 만들어서 예를 들어보겠습니다.

(1) 3개의 그룹 변수, 4개의 연속형 변수를 가진 예제 DataFrame 만들기

import numpy as np

import pandas as pd

'group_1' 변수 내 ('A', 'B' 그룹), 'group_2' 변수 내 ('C', 'D', 'E', 'F' 그룹), 'group_3' 변수 내 ('G', 'H', 'I', 'J', 'K', 'L', 'M', 'N' 그룹) 별로 나누어서 상관계수를 구해보겠습니다.

# making groups

group_1 = ['A', 'B']*20

group_2 = ['C', 'D', 'E', 'F']*10

group_3 = ['G', 'H', 'I', 'J', 'K', 'L', 'M', 'N']*5;

상관계수를 구할 연속형 변수는 'col_1', 'col_2', 'col_3', 'col_4' 라는 4개의 변수를 사용하겠습니다.

df = pd.DataFrame({'group_1': group_1,

'group_2': group_2,

'group_3': group_3,

'col_1': np.random.randn(40),

'col_2': np.random.randn(40),

'col_3': np.random.randn(40),

'col_4': np.random.randn(40)})

df.sort_values(by=['group_1', 'group_2', 'group_3'], axis=0)

	col_1	col_2	col_3	col_4	group_1	group_2	group_3
0	-0.351969	0.026318	-1.037910	0.849338	A	C	G
8	-0.163435	-0.175277	-1.349251	0.645246	A	C	G
16	0.728652	1.731762	0.691091	-0.189488	A	C	G
24	-1.490956	0.083991	-0.503727	1.690979	A	C	G
32	0.076380	0.634184	-0.424101	-0.608869	A	C	G
4	0.902027	1.454501	-1.467817	0.448042	A	C	K
12	0.899792	0.833289	0.829877	-0.062950	A	C	K
20	-0.559971	0.539967	0.005397	0.362061	A	C	K
28	-1.052539	0.558581	-0.799314	0.979169	A	C	K
36	0.919377	-1.430321	-1.818365	0.061561	A	C	K
2	-0.030675	-0.168537	-1.341236	-1.149740	A	E	I
10	0.112267	-0.476736	0.967436	-0.222528	A	E	I
18	-0.774158	-0.081231	0.438514	1.611915	A	E	I
26	-0.173712	-1.358414	0.653392	0.053665	A	E	I
34	1.110080	1.175692	-0.867843	1.042837	A	E	I
6	-0.083481	-0.200750	-0.702476	-1.072645	A	E	M
14	0.223843	-1.345315	0.899668	1.126941	A	E	M
22	0.529680	0.062743	1.035399	-0.729469	A	E	M
30	1.456441	-0.403748	-0.446094	0.408010	A	E	M
38	-1.308548	0.367232	-0.963109	0.918776	A	E	M
1	0.579627	-1.720893	-0.798200	-0.107270	B	D	H
9	2.101038	-0.581516	-0.796230	0.324806	B	D	H
17	-0.168765	-1.176664	-0.024593	-0.348601	B	D	H
25	0.166594	-1.418307	0.916661	-0.912822	B	D	H
33	0.889615	0.014690	-0.711458	0.649833	B	D	H
5	1.199802	0.968027	-0.780434	0.884857	B	D	L
13	-0.038637	0.694750	0.219160	-0.693826	B	D	L
21	-1.054844	-0.559508	-0.890659	-0.321867	B	D	L
29	-0.574888	0.812719	-0.823804	-0.382432	B	D	L
37	0.670548	0.178911	0.497704	-0.402953	B	D	L
3	0.477194	-0.355853	-1.441898	1.418857	B	F	J
11	0.965187	0.563026	0.964660	-0.249644	B	F	J
19	-2.318685	0.079057	-0.107432	-1.358502	B	F	J
27	-0.951459	-0.466933	1.141424	-2.860606	B	F	J
35	-0.462823	-0.397081	0.373452	-1.303045	B	F	J
7	0.398693	-0.086113	-0.081445	0.871010	B	F	N
15	0.121970	0.258130	0.654156	-0.497327	B	F	N
23	1.228697	-0.625133	-1.761145	-0.577502	B	F	N
31	1.074855	0.784140	0.529190	0.479893	B	F	N
39	0.341767	0.170529	-0.287884	0.329371	B	F	N

(2) 그룹별 두 개 변수 간 상관계수를 구하는 사용자 정의 함수

예제 데이터셋이 준비가 되었으니 이제 '그룹별로 두 개 변수 간 상관계수를 구하는 사용자 정의 함수 (a user-defined function of correlation coefficients with paired variables by groups)' 를 정의해보겠습니다.

# a user-defined function of correlation coefficients with paired variables by groups

def corr_group(df, var_1, var_2, group_list):

# correlaiton fuction with 2 variables

corr_func = lambda g: g[var_1].corr(g[var_2])

# GroupBy operator

grouped = df.groupby(group_list)

# calculate correlation coefficient by Group

corr_coef_df = pd.DataFrame(grouped.apply(corr_func), columns=['corr_coef'])

# add var_1, var_2 column names

corr_coef_df['var1'] = var_1

corr_coef_df['var2'] = var_2

return corr_coef_df

(3) 다수 그룹별 다수 변수 간 두개 씩 쌍을 이루어 상관계수 구하기

'group_1', 'group_2', 'group_3' 의 3개의 그룹 변수로 만들어진 모든 경우의 수의 그룹 조합에 대해서, 'col_1', 'col_2', 'col_3', 'col_4'의 4개 연속형 변수로 2개씩 쌍(pair)을 이루어 만들어진 모든 경우의 수의 조합, 즉, ('col_1', 'col_2'), ('col_1', 'col_3'), ('col_1', 'col_4'), ('col_2', 'col_3'), ('col_2', 'col_4'), ('col_3', 'col_4') 의 4C2=6개의 조합별 상관계수를 구해보겠습니다.

이때 위의 (2)번에서 만들었던 '두 개 쌍의 변수간 상관계수 구하는 사용자 정의함수'인 corr_group() 함수를 사용하여 for loop 문으로 6개의 연속형 변수의 조합별로 상관계수를 구한 후에, corr_coef_df_all 데이터 프레임에 append 해나가는 방식을 사용하였습니다.

# blank DataFrame

corr_coef_df_all = pd.DataFrame()

# group by list

group_list = ['group_1', 'group_2', 'group_3']

# column lists for correlation matrix

col_list = ['col_1', 'col_2', 'col_3', 'col_4']

# get all cominations of col_list with length 2

from itertools import combinations

comb = combinations(col_list, 2)

# calculate correlation coefficients pair-wise

for var in list(comb):

corr_tmp = corr_group(df, var[0], var[1], group_list)

corr_coef_df_all = corr_coef_df_all.append(corr_tmp)

# result

corr_coef_df_all[['var1', 'var2', 'corr_coef']]

			var1	var2	corr_coef
group_1	group_2	group_3
A	C	G	col_1	col_2	0.703392
	C	K	col_1	col_2	-0.139566
	E	I	col_1	col_2	0.642818
	E	M	col_1	col_2	-0.410050
B	D	H	col_1	col_2	0.511432
	D	L	col_1	col_2	0.569900
	F	J	col_1	col_2	0.247295
	F	N	col_1	col_2	-0.186798
A	C	G	col_1	col_3	0.466368
	C	K	col_1	col_3	-0.167176
	E	I	col_1	col_3	-0.455445
	E	M	col_1	col_3	0.385438
B	D	H	col_1	col_3	-0.615976
	D	L	col_1	col_3	0.362789
	F	J	col_1	col_3	-0.063979
	F	N	col_1	col_3	-0.556404
A	C	G	col_1	col_4	-0.867131
	C	K	col_1	col_4	-0.790912
	E	I	col_1	col_4	-0.052166
	E	M	col_1	col_4	-0.191858
B	D	H	col_1	col_4	0.656101
	D	L	col_1	col_4	0.631548
	F	J	col_1	col_4	0.604571
	F	N	col_1	col_4	-0.144041
A	C	G	col_2	col_3	0.956775
	C	K	col_2	col_3	0.423775
	E	I	col_2	col_3	-0.597295
	E	M	col_2	col_3	-0.506746
B	D	H	col_2	col_3	-0.399239
	D	L	col_2	col_3	0.036270
	F	J	col_2	col_3	0.262685
	F	N	col_2	col_3	0.875746
A	C	G	col_2	col_4	-0.631931
	C	K	col_2	col_4	0.315081
	E	I	col_2	col_4	0.395802
	E	M	col_2	col_4	-0.381141
B	D	H	col_2	col_4	0.789146
	D	L	col_2	col_4	0.363601
	F	J	col_2	col_4	0.216682
	F	N	col_2	col_4	0.406150
A	C	G	col_3	col_4	-0.434402
	C	K	col_3	col_4	-0.250838
	E	I	col_3	col_4	0.274027
	E	M	col_3	col_4	-0.008633
B	D	H	col_3	col_4	-0.874220
	D	L	col_3	col_4	-0.472953
	F	J	col_3	col_4	-0.775485
	F	N	col_3	col_4	0.366142

많은 도움이 되었기를 바랍니다.

이번 포스팅이 도움이 되었다면 아래의 '공감~'를 꾹 눌러주세요. :-)

728x90

저작자표시 비영리 변경금지

'Python 분석과 프로그래밍 > Python 데이터 전처리' 카테고리의 다른 글

[Python Numpy] 배열에 차원 추가하기 (Adding Dimensions to a Numpy Array) (2)	2019.02.24
[Python Numpy] 배열에서 0보다 작은 수를 0으로 변환하는 방법 (0)	2019.02.21
[Python pandas] 그룹 별 무작위 표본 추출 (random sampling by group) (0)	2018.12.26
[Python pandas] 그룹 별 선형회귀모형 적합하기 (Group-wise Linear Regression) (0)	2018.12.25
[Python pandas] 그룹 별 변수 간 상관관계 분석 (correlation with columns by groups) (0)	2018.12.24

Posted by Rfriend

이전 1 다음

R, Python 분석과 프로그래밍의 친구 (by R Friend)

'그룹별 다수의 변수 간 상관관계 분석'에 해당되는 글 1건

[Python pandas] 다수 그룹 별 다수의 변수 간 상관관계 분석 (correlation coefficients with multiple columns by groups)

'Python 분석과 프로그래밍 > Python 데이터 전처리' 카테고리의 다른 글

카테고리

태그목록

티스토리툴바