'모든 조합 Cartesian Product의 MultiIndex' 태그의 글 목록

'모든 조합 Cartesian Product의 MultiIndex'에 해당되는 글 1건

2020.06.21 [Python pandas] TimeStamp와 ID의 모든 조합 MultiIndex로 시계열 데이터 만들기

[Python pandas] TimeStamp와 ID의 모든 조합 MultiIndex로 시계열 데이터 만들기

Python 분석과 프로그래밍/Python 데이터 전처리 2020. 6. 21. 23:47

이번 포스팅에서는 (1) 날짜 TimeStamp (m개) 와 (2) 고객 ID (n개) 의 두 개 칼럼을 가진 DataFrame에서 고객ID 별로 중간 중간 날짜 TimeStamp 가 비어있는 경우 모두 '0'으로 채워서 모든 조합 (m * n 개) 을 MultiIndex로 가진 시계열 데이터 형태의 DataFrame을 만들어보겠습니다.

이번 포스팅에서는 pandas DataFrame에서 index 설정 관련해서 MultiIndex(), set_index(), reindex(), reset_index() 등 index 설정과 재설정 관련된 여러가지 메소드가 나옵니다.

말로만 설명을 들으면 좀 어려운데요, 아래의 전(Before) --> 후(After) DataFrame의 전처리 Output Image를 보면 이해하기가 쉽겠네요. (시계열 데이터 분석을 할 때 아래의 우측에 있는 것처럼 데이터 전처리를 미리 해놓아야 합니다.)

먼저, 년-월-일 TimeStamp (ts), 고객 ID (id), 구매 금액 (amt)의 세개 칼럼으로 구성된 거래 데이터(tr)인, 예제로 사용할 간단한 pandas DataFrame을 만들어보겠습니다.

import pandas as pd

tr = pd.DataFrame({

'ts': ['2020-06-01', '2020-06-02', '2020-06-03', '2020-06-01', '2020-06-03'],

'id': [1, 1, 1, 2, 3],

'amt': [100, 300, 50, 200, 150]})

	ts	id	amt
0	2020-06-01	1	100
1	2020-06-02	1	300
2	2020-06-03	1	50
3	2020-06-01	2	200
4	2020-06-03	3	150

다음으로, 거래 데이터(tr) DataFrame의 날짜(ts)와 고객ID(id)의 모든 조합(all combination)으로 구성된 Multi-Index 를 만들어보겠습니다. pd.MultiIndex.from_product((A, B)) 메소드를 사용하면 Cartesian Product 을 수행하여, 총 A의 구성원소 개수 * B의 구성원소 개수 종류 만큼의 MultiIndex 를 생성해줍니다. 위 예제의 경우 날짜(ts)에 '2020-06-01', '2020-06-02', '2020-06-03'의 3개 날짜가 있고, 고객ID(id) 에는 1, 2, 3 의 3개가 있으므로 Cartesian Product 을 하면 아래의 결과처럼 3 * 3 = 9 의 조합이 생성이 됩니다.

date_id_idx = pd.MultiIndex.from_product((set(tr.ts), set(tr.id)))

date_id_idx

MultiIndex([('2020-06-01', 1),
            ('2020-06-01', 2),
            ('2020-06-01', 3),
            ('2020-06-02', 1),
            ('2020-06-02', 2),
            ('2020-06-02', 3),
            ('2020-06-03', 1),
            ('2020-06-03', 2),
            ('2020-06-03', 3)],
           )

이제 위에서 Cartesian Product으로 만든 TimeStamp(ts)와 고객ID(id)의 모든 조합으로 구성된 MultiIndex인 date_id_idx 를 사용하여 index를 재설정(reindex) 해보겠습니다. 이때 원래(Before)의 DataFrame에는 없었다가 date_id_idx 로 index를 재설정(reindex) 하면서 새로 생긴 행에 구매금액(amt) 칼럼에는 'NaN' 의 결측값이 들어가게 됩니다. 이로서 처음에 5개 행이었던 것이 이제 9개(3*3=9) 행으로 늘어났습니다.

tr_tsformat = tr.set_index(['ts', 'id']).reindex(date_id_idx)

tr_tsformat

		amt
2020-06-01	1	100.0
	2	200.0
	3	NaN
2020-06-02	1	300.0
	2	NaN
	3	NaN
2020-06-03	1	50.0
	2	NaN
	3	150.0

날짜(ts)와 고객ID(id)의 MultiIndex로 reindex() 하면서 생긴 NaN 값을 '0'으로 채워넣기(fill_value=0)해서 새로 DataFrame을 만들어보겠습니다.

tr_tsformat = tr.set_index(['ts', 'id']).reindex(date_id_idx, fill_value=0)

tr_tsformat

		amt
2020-06-01	1	100
	2	200
	3	0
2020-06-02	1	300
	2	0
	3	0
2020-06-03	1	50
	2	0
	3	150

만약 날짜(ts)와 고객ID(id)의 MultiIndex로 이루어진 위의 DataFrame에서 MultiIndex를 칼럼으로 변경하고 싶다면 reset_index() 함수를 사용하면 됩니다. 칼럼 이름은 애초의 DataFrame과 동일하게 ['ts', 'id', 'amt'] 로 다시 부여해주었습니다.

tr_tsformat.reset_index(inplace=True)

tr_tsformat

	level_0	level_1	amt
0	2020-06-01	1	100
1	2020-06-01	2	200
2	2020-06-01	3	0
3	2020-06-02	1	300
4	2020-06-02	2	0
5	2020-06-02	3	0
6	2020-06-03	1	50
7	2020-06-03	2	0
8	2020-06-03	3	150

tr_tsformat.columns = ['ts', 'id', 'amt']

tr_tsformat

	ts	id	amt
0	2020-06-01	1	100
1	2020-06-01	2	200
2	2020-06-01	3	0
3	2020-06-02	1	300
4	2020-06-02	2	0
5	2020-06-02	3	0
6	2020-06-03	1	50
7	2020-06-03	2	0
8	2020-06-03	3	150

참고로, pandas에서 ID는 없이 TimeStamp만 있는 일정한 주기의 시계열 데이터 Series, DataFrame 만들기는 https://rfriend.tistory.com/501 를 참고하세요.

많은 도움이 되었기를 바랍니다.

이번 포스팅이 도움이 되었다면 아래의 '공감~'를 꾹 눌러주세요. :-)

728x90

저작자표시 비영리 변경금지

'Python 분석과 프로그래밍 > Python 데이터 전처리' 카테고리의 다른 글

[Python pandas] 데이터프레임 여러개 칼럼별로 결측값을 다르게 대체하는 방법 (0)	2020.06.29
[Python] PyYAML로 YAML 파일 읽고 쓰기 (Parse and Serialize YAML in Python) (6)	2020.06.28
[Python pandas] read_csv() 로 데이터 읽어올 때 날짜/시간 데이터 파싱하기 (parsing datetime from file using read_csv()) (4)	2020.05.17
[Python pandas] 연속형을 범주형으로 변환하는 np.digitize(), pd.cut() 비교 (comparison of categorization using np.digitize(), pd.cut()) (2)	2020.02.18
[Python] 층화 무작위 추출을 통한 train set, test set 분할 (Train, Test set Split by Stratified Random Sampling in Python) (3)	2020.02.15

Posted by Rfriend

이전 1 다음

R, Python 분석과 프로그래밍의 친구 (by R Friend)

'모든 조합 Cartesian Product의 MultiIndex'에 해당되는 글 1건

[Python pandas] TimeStamp와 ID의 모든 조합 MultiIndex로 시계열 데이터 만들기

'Python 분석과 프로그래밍 > Python 데이터 전처리' 카테고리의 다른 글

카테고리

태그목록

티스토리툴바