[Python pandas] x를 기준으로 정렬 후 그룹별로 y의 첫번째 값, 마지막 값을 DataFrame에 추가하기
Python 분석과 프로그래밍/Python 데이터 전처리 2021. 11. 16. 16:51이번 포스팅에서는
(1) 그룹별로 x 칼럼을 기준으로 내림차순 정렬 후 (sorting by x in ascending order)
(2) 그룹별로 y 칼럼의 첫번째 값, 마지막 값을 DataFrame에 칼럼 추가하기
하는 2가지 방법을 소개하겠습니다.
(방법 1) pandas.DataFrame 의 transform('first', 'last') 메소드를 사용하는 방법
(방법 2) 그룹별 y의 첫번째 값, 마지막 값을 구해 DataFrame을 만들고, merge() 메소드로 합치는 방법
먼저, 예제로 사용할 간단한 DataFrame을 만들어보겠습니다.
import numpy as np
import pandas as pd
df = pd.DataFrame({
'grp': ['a', 'a', 'a', 'b', 'b', 'b'],
'x': [2, 3, 1, 4, 6, 5],
'y': [10, 20, 30, 40, 50, 60]
})
df
# grp x y
# 0 a 2 10
# 1 a 3 20
# 2 a 1 30
# 3 b 4 40
# 4 b 6 50
# 5 b 5 60
(방법 1) pandas.DataFrame 의 transform('first', 'last') 메소드를 사용하는 방법
그룹별로 'x' 칼럼을 기준으로 내림차순으로 정렬하려면 df.sort_values(by=['grp', 'x']) 메소드를 사용합니다.
## sorting by 'grp' and 'x' in ascnding order
df.sort_values(by=['grp', 'x'])
# grp x y
# 2 a 1 30
# 0 a 2 10
# 1 a 3 20
# 3 b 4 40
# 5 b 5 60
# 4 b 6 50
그러면, 이제 x를 기준으로 내림차순 정렬한 후에 'grp' 그룹별로 y 칼럼의 첫번째 값('first')과 마지막 값('last')을 가져다가 기존의 df DataFrame에 새로운 칼럼을 추가해 보겠습니다. groupby('grp') 메소드로 'grp' 그룹별 연산을 하게 되고, transform('first')는 첫번째 값을 가져다가 DataFrame에 칼럼을 추가하며, transform('last')는 마지막 값을 가져다가 DataFrame에 칼럼을 추가합니다.
## adding columns of the first and last value of y by group
df['y_first'] = df.sort_values(by=['grp', 'x'])\
.groupby('grp').y.transform('first')
df['y_last'] = df.sort_values(by=['grp', 'x'])\
.groupby('grp').y.transform('last')
df
# grp x y y_first y_last
# 0 a 2 10 30 20
# 1 a 3 20 30 20
# 2 a 1 30 30 20
# 3 b 4 40 40 50
# 4 b 6 50 40 50
# 5 b 5 60 40 50
(방법 2) 그룹별 y의 첫번째 값, 마지막 값을 구해 DataFrame을 만들고, merge() 메소드로 합치는 방법
두번째 방법은 그룹별로 x를 기준으로 정렬 후 그룹별로 y 값의 첫번째 값과 마지막 값을 구해서 별도의 DataFrame을 만든 후에, 이를 원래의 DataFrame에 merge() 하는 것입니다. DB의 테이블을 join 하는 것과 유사한 방식이예요.
## creating a sample DataFrame with 2 groups
df = pd.DataFrame({
'grp': ['a', 'a', 'a', 'b', 'b', 'b'],
'x': [2, 3, 1, 4, 6, 5],
'y': [10, 20, 30, 40, 50, 60]
})
## making a DataFrame with the first and last values of y by groups
y_first = df.sort_values(by='x').groupby('grp').y.first()
y_last = df.sort_values(by='x').groupby('grp').y.last()
df_grp_fst_lst = pd.DataFrame({
'y_first': y_first,
'y_last': y_last
})
df_grp_fst_lst
# y_first y_last
# grp
# a 30 20
# b 40 50
pd.merge(DataFrame1, DataFrame2, how='left', on='key') 방식으로 key를 기준으로 Left Join 하면 되겠네요.
## merging df_grp_fst_lst to df DataFrame by left join on 'grp'
df2 = pd.merge(df, df_grp_fst_lst, how='left', on='grp')
# or, equivalently: df2= df.merge(df_grp_fst_lst, how='left', on='grp')
df2
# grp x y y_first y_last
# 0 a 2 10 30 20
# 1 a 3 20 30 20
# 2 a 1 30 30 20
# 3 b 4 40 40 50
# 4 b 6 50 40 50
# 5 b 5 60 40 50
* pandas DataFrame merge(): https://rfriend.tistory.com/258
* pandas DataFrame transform(): https://rfriend.tistory.com/403
이번 포스팅이 많은 도움이 되었기를 바랍니다.
행복한 데이터 과학자 되세요! :-)