'Python' 태그의 글 목록 (12 Page)

[GPDB, PostgreSQL] Python DataFrame을 Sqlalchemy engine을 이용해 DB Table에 직접 쓰기 : df.to_sql()

Greenplum and PostgreSQL Database 2019. 7. 28. 19:06

지난 포스팅에서는 Python pandas DataFrame을 csv 파일로 다운로드 한 후에 로컬에서 PostgreSQL, Greenplum DB에 Copy해서 넣는 방법 (https://rfriend.tistory.com/457) 을 소개하였습니다.

이번 포스팅에서는 Python pandas DataFrame을 csv 파일로 다운로드 하는 절차 없이, sqlalchemy engine과 to_sql() 함수를 이용하여 바로 직접 PostgreSQL, Greenplum DB에 쓰는 방법을 소개하겠습니다. 이렇게 하면 다운로드하는 절차가 필요없기 때문에 좀더 간편하고 workflow가 간소화되는 장점은 있는데요, csv로 내려서 copy 하는 것 대비 속도고 조금 더 느리다는 단점이 있습니다.

먼저 예제로 사용할 간단한 DataFrame을 만들어보겠습니다.

# make a sample DataFrame

import pandas as pd

score = pd.DataFrame({

'date': ['2019-07-28']*4,

'name': ['kim', 'lee', 'choi', 'park'],

'age': [19, 20, 19, 20],

'math_score': [91, 95, 92, 70],

'pass_yn': [True, True, True, False]},

columns=['date', 'name', 'age', 'math_score', 'pass_yn'])

이제 'score' 라는 이름의 pandas DataFrame을 Postgresql, Greenplum DB에 'score' 라는 Table 이름으로 public schema에 생성해서 써보겠습니다.

이때 DB connection을 하기 위해 SQLAlchemy로 DB engine 을 생성해줘야 하는데요,
engine = sqlalchemy.create_engine("postgresql://user:password@host:port/database")
의 순서대로 자신의 DB 설정값을 입력해주면 됩니다. (port 가 5432 디폴트 값이면 생략 가능)

import sqlalchemy

from sqlalchemy import create_engine

# engine = sqlalchemy.create_engine("postgresql://user:password@host:port/database")

engine = create_engine("postgresql://postgres:postgres@localhost:5432/postgres") # set yours

engine.execute("DROP TABLE IF EXISTS public.score;") # drop table if exists

score.to_sql(name = 'score',

con = engine,

schema = 'public',

if_exists = 'fail', # {'fail', 'replace', 'append'), default 'fail'

index = True,

index_label = 'id',

chunksize = 2,

dtype = {

'id': sqlalchemy.types.INTEGER(),

'date': sqlalchemy.DateTime(),

'name': sqlalchemy.types.VARCHAR(100),

'age': sqlalchemy.types.INTEGER(),

'math_score': sqlalchemy.types.Float(precision=3),

'pass_yn': sqlalchemy.types.Boolean()

})

'if_exists' 옵션에는 {'fail', 'replace', 'append'}의 3개가 존재하고, 디폴트는 'fail' 옵션입니다.

if_exists = 'fail' : 같은 이름의 Table이 존재할 경우 ValueError 가 남
if_exists = 'replace': 같은 이름의 Table이 존재할 경우 기존 Table을 Drop하고 새로운 값을 Insert함
if_exists = 'append': 같은 이름의 Table이 존재할 경우 기존 Table에 추가로 새로운 값을 Insert함

index = True 로 설정해주면 pandas DataFrame의 Index도 DB Table에 insert 해주며, index_label = 'xxx'로 index의 칼럼 이름을 부여해줄 수 있습니다.

chunksize = xx 를 설정해주면 pandas DataFrame 데이터를 xx row 개수 만큼 DB table 에 insert를 해줍니다. 설정해주지 않으면 pandas DataFrame을 통째로 한꺼번에 insert를 합니다.

dtype 은 pandas DataFrame의 각 변수별로 DB table에 넣어줄 Data Type을 사전형(Dictionary)으로 {'column': data_type} 형식으로 설정해줄 수 있습니다. 위의 예시에서 INTEGER, DateTime(), VARCHAR(), Float(), Boolean 데이터 형태 지정하는 것을 보여주었는데요, 대/소문자, 괄호() 여부를 위의 예시처럼 똑같이 사용해야 합니다. (괄호를 빼먹거나, 대/소문자가 틀리면 에러가 납니다)

참고로, to_sql() 에서 dtype 을 칼럼 별로 설정하지 않으면 전부 'text' 데이터 형태로 해서 DB table에 입력됩니다.

확인차, DBeaver로 PostgreSQL에 score table을 조회해보겠습니다. Python pandas의 'score' DataFrame이 PostgreSQL의 score table로 데이터가 잘 들어갔네요!

많은 도움이 되었기를 바랍니다.

이번 포스팅이 도움이 되었다면 아래의 '공감~'를 꾹 눌러주세요.

728x90

저작자표시 비영리 변경금지 (새창열림)

'Greenplum and PostgreSQL Database' 카테고리의 다른 글

[Postgres, Greenplum] 현재 수행중인 query 조회하고 강제 종료 (kill) 하는 방법 (0)	2019.11.28
[Greenplum] 오픈소스 Greenplum DB와 Apache MADlib을 활용한 그래프 분석, 네트워크 분석 (Graph analytics with Greenplum and Apache MADlib) (0)	2019.08.25
[GPDB, Postgres] Python DataFrame을 Postgresql, Greenplum DB에 Copy 해서 넣는 방법 (0)	2019.07.17
[Greenplum DB] GPDB에 PL/R Language Extension, R 패키지 수동 설치 방법 (0)	2019.05.16
[Greenplum DB] PostGIS - 공간지리 테이블 백업하기, 백업 다시 불러오기 (Backup and Restore geospatial table using pg_dump, pg_restore) (0)	2019.04.27

Posted by Rfriend

,

[Python pandas] DataFrame, Series에서 순위(rank)를 구하는 rank() 함수

Python 분석과 프로그래밍/Python 데이터 전처리 2019. 7. 27. 20:01

이번 포스팅에서는 Python pandas의 DataFrame, Series 에서 특정 변수를 기준으로 순서를 구할 때 사용하는 rank() 함수를 소개하겠습니다.

순위(Rank)는 정렬(Sort)와 밀접한 관련이 있는데요, 참고로 Python에서 자료형별 정렬(Sort) 방법은 아래 링크를 참고하세요.

Pandas DataFrame, Tuple, List 정렬 : https://rfriend.tistory.com/281
Numpy Array 정렬 : https://rfriend.tistory.com/357

(1) 다양한 동점 처리방법(tie-breaking methods)에 따른 순위(rank) 구하기 비교

순위(rank)를 구할 때 기준 변수의 점수(score)가 동일(tie)한 관측치를 어떻게 처리하는지에 따라서 5가지 방법이 있습니다.

[ 순위 구할 때 동점 처리하는 5가지 방법 ]
평균(method='average') : 동점 관측치 간의 그룹 내 평균 순위 부여 (default 설정)
최소값(method='min') : 동점 관측치 그룹 내 최소 순위 부여
최대값(method='max') : 동점 관측치 그룹 내 최대 순위 부여
첫번째 값 (method='first') : 동점 관측치 중에서 데이터 상에서 먼저 나타나는 관측치부터 순위 부여
조밀하게 (method='dense') : 최소값('min')과 같은 방법으로 순위부여하나, 'min'과는 다르게 그룹 간 순위가 '1'씩 증가함 (like ‘min’, but rank always increases by 1 between groups)

동점을 포함하고 있는 간단한 예제 DataFrame을 만들어보겠습니다.

In [1]: import numpy as np

In [2]: import pandas as pd

In [3]: df = pd.DataFrame({

...: 'name': ['kim', 'lee', 'park', 'choi', 'jung', 'gang', 'nam'],

...: 'score': [70, 95, 100, 95, 70, 90, 70]

...: }, columns=['name', 'score'])

In [4]: df

Out[4]:

name score

0 kim 70

1 lee 95

2 park 100

3 choi 95

4 jung 70

5 gang 90

6 nam 70

이제 순위 구할 때 동점을 처리하는 5가지 방법별로 순위 결과가 어떻게 다른지 확인해보겠습니다. (예제를 시험점수로 가정하고, 점수가 높을 수록 상위 순위가 나오도록 함. ascending = False)

In [5]: df['rank_by_average'] = df['score'].rank(ascending=False) # rank default method='average

In [6]: df['rank_by_min'] = df['score'].rank(method='min', ascending=False)

In [7]: df['rank_by_max'] = df['score'].rank(method='max', ascending=False)

In [8]: df['rank_by_first'] = df['score'].rank(method='first', ascending=False)

In [9]: df['rank_by_dense'] = df['score'].rank(method='dense', ascending=False)

In [10]: df

Out[10]:

name score rank_by_average rank_by_min rank_by_max rank_by_first \

0 kim 70 6.0 5.0 7.0 5.0

1 lee 95 2.5 2.0 3.0 2.0

2 park 100 1.0 1.0 1.0 1.0

3 choi 95 2.5 2.0 3.0 3.0

4 jung 70 6.0 5.0 7.0 6.0

5 gang 90 4.0 4.0 4.0 4.0

6 nam 70 6.0 5.0 7.0 7.0

rank_by_dense

0 4.0

1 2.0

2 1.0

3 2.0

4 4.0

5 3.0

6 4.0

(2) 순위를 오름차순으로 구하기 (Rank in Ascending order)

rank(ascending = True) 으로 설정해주면 오름차순 (제일 작은 점수가 순위 '1'이고, 점수가 높아질수록 하나씩 순위 증가)으로 순위를 구합니다. Default 설정이 ascending=True 이므로 별도로 설정을 안해줘도 자동으로 오름차순 순위가 구해집니다.

In [11]: df_score = df[['name', 'score']].copy()

In [12]: df_score['rank_ascending'] = df_score['score'].rank(method='min', ascending=True)

In [13]: df_score

Out[13]:

name score rank_ascending

0 kim 70 1.0

1 lee 95 5.0

2 park 100 7.0

3 choi 95 5.0

4 jung 70 1.0

5 gang 90 4.0

6 nam 70 1.0

(3) 그룹 별로 순위 구하기 (Rank by Groups): df.groupby().rank()

Groupby operator를 사용하면 그룹별로 따로 따로 순위를 구할 수 있습니다.

In [14]: from itertools import chain, repeat

...:

In [15]: df2 = pd.DataFrame({

...: 'name': ['kim', 'lee', 'park', 'choi']*3,

...: 'course': list(chain.from_iterable((repeat(course, 4)

...: for course in ['korean', 'english', 'math']))),

...: 'score': [70, 95, 100, 95, 65, 80, 95, 90, 100, 85, 90, 90]

...: }, columns=['name', 'course', 'score'])

In [16]: df2

Out[16]:

name course score

0 kim korean 70

1 lee korean 95

2 park korean 100

3 choi korean 95

4 kim english 65

5 lee english 80

6 park english 95

7 choi english 90

8 kim math 100

9 lee math 85

10 park math 90

11 choi math 90

In [17]: df2['rank_by_min_per_course'] = df2.groupby('course')['score'].rank(method='min', ascending=False)

In [18]: df2

Out[18]:

name course score rank_by_min_per_course

0 kim korean 70 4.0

1 lee korean 95 2.0

2 park korean 100 1.0

3 choi korean 95 2.0

4 kim english 65 4.0

5 lee english 80 3.0

6 park english 95 1.0

7 choi english 90 2.0

8 kim math 100 1.0

9 lee math 85 4.0

10 park math 90 2.0

11 choi math 90 2.0

(4) 칼럼을 기준으로 순위 구하기 (Rank over the columns): df.rank(axis=1)

위의 (1), (2), (3) 번의 예시는 전부 행을 기준(위/아래 방향)으로 한 순위(rank over the rows) 였습니다. 필요에 따라서는 열을 기준(왼쪽/오른쪽 방향)으로 한 순위(rank over the columns)을 해야할 때도 있을텐데요, rank(axis=1) 을 설정해주면 열 기준 순위를 구할 수 있습니다.

In [19]: df3 = pd.DataFrame({

...: 'col_1': [1, 2, 3, 4],

...: 'col_2': [3, 5, 1, 2],

...: 'col_3': [3, 1, 2, 4]})

In [20]: df3

Out[20]:

col_1 col_2 col_3

0 1 3 3

1 2 5 1

2 3 1 2

3 4 2 4

In [21]: df3.rank(method='min', ascending=False, axis=1)

Out[21]:

col_1 col_2 col_3

0 3.0 1.0 1.0

1 2.0 1.0 3.0

2 1.0 3.0 2.0

3 1.0 3.0 1.0

많은 도움이 되었기를 바랍니다.

이번 포스팅이 도움이 되었다면 아래의 '공감~'를 꾹 눌러주세요. :-)

728x90

저작자표시 비영리 변경금지 (새창열림)

'Python 분석과 프로그래밍 > Python 데이터 전처리' 카테고리의 다른 글

[Python pandas] Python으로 엑셀 데이터 불러와서 DataFrame으로 만들기 (How to read Excel data using Python pandas) (4)	2019.07.31
[Python pandas] DataFrame에서 천 단위 숫자의 자리 구분 기호 콤마(',')를 없애는 방법 (8)	2019.07.30
[Python pandas] DataFrame, Series에서 조건에 맞는 값이 들어있는 행 indexing 하기 : df.isin() (9)	2019.07.24
[Python] itertools를 활용한 리스트 원소를 n번 반복하여 새로운 리스트 만들기 (0)	2019.07.21
[Python pandas] DataFrame index를 reset칼럼으로 가져오고 이름 부여하기 (0)	2019.07.13

Posted by Rfriend

,

[Python pandas] DataFrame, Series에서 조건에 맞는 값이 들어있는 행 indexing 하기 : df.isin()

Python 분석과 프로그래밍/Python 데이터 전처리 2019. 7. 24. 23:56

이번 포스팅에서는 Python pandas의 DataFrame, Series 에서 특정 칼럼 내에 특정 값을 가지고 있는 행 전체를 indexing 해오는 방법 2가지를 소개하겠습니다.

(1) df.isin() 메소드를 이용한 DataFrame, Series 값 indexing 방법

(2) 비교 조건문 boolean 을 이용한 DataFrame, Series 값 indexing 방법

먼저 간단한 예제로 사용할 DataFrame을 만들어보겠습니다.

In [1]: import pandas as pd

In [2]: df = pd.DataFrame({'id': ['a', 'b', 'c', 'd', 'e', 'f'],

...: 'var': [1, 2, 3, 4, 5, 6]})

In [3]: df

Out[3]:

id var

0 a 1

1 b 2

2 c 3

3 d 4

4 e 5

5 f 6

(1) df.isin() 메소드를 이용한 DataFrame, Series 값 indexing 방법

pandas DataFrame이나 Series에 isin() 메소드를 사용하면 isin() 메소드 안의 값이 들어 있으면, 즉 소속이 되어 있으면 (membership) True를, 들어있지 않으면 False 를 반환합니다.

In [4]: df['id'].isin(['b', 'e', 'k'])

Out[4]:

0 False

1 True

2 False

3 False

4 True

5 False

Name: id, dtype: bool

이처럼 조건 값의 소속 여부를 Boolean 값으로 반환해주는 점을 이용하여, 특정 값이 들어있는 행을 DataFrame, Series에서 indexing 해올 수 있습니다. 위의 예제 'df' DataFrame의 'id' 칼럼에서 'b', 'e', 'k' 값이 들어있는 행 전체를 가져와 보겠습니다.

In [5]: df[df['id'].isin(['b', 'e', 'k'])]

Out[5]:

id var

1 b 2
4 e 5

만약 'id'라는 칼럼 혹은 'var'라는 칼럼 중에서 특정 값이 어느 한군데라도(OR) 소속이 되어있으면 행을 가져와 보겠습니다.

In [6]: df[df['id'].isin(['b', 'e', 'k']) | df['var'].isin([1, 8])]

...:

Out[6]:

id var

0 a 1

1 b 2
4 e 5

(2) 비교 조건문 boolean 을 이용한 DataFrame, Series 값 indexing 방법

위의 isin() 메소드를 이용한 [6]번째 실행 셀의 결과와 동일한 값을 indexing 해오는 것을, 이번에는 조건문 boolean 을 이용해서 해보겠습니다. 아무래도 위의 [6]번 isin() 메소드를 썼을 때보다 '|'(OR)를 모든 비교 조건문을 연결하다 보니 코드가 더 길고 복잡합니다.

따라서, 특정 값이 포함/ 소속 (Membership) 여부를 조건으로 해서 DataFrame, Series로부터 행 전체를 indexing해와야 하는 경우 isin() 메소드를 유용하게 사용할 수 있습니다. (물론 아래의 비교 조건문의 경우 단지 포함/소속 여부 많이 아닌 모든 조건문에 범용적으로 사용할 수 있는 장점이 있습니다.)

In [7]: df[(df['id'] == 'b') | (df['id'] == 'e') | (df['id'] == 'k') | (df['var'] == 1) | (df['var'] == 8)]

Out[7]:

id var

0 a 1

1 b 2
4 e 5

TypeError: cannot compare a dtyped [object] array with a scalar of type [bool]

참고로, 여러개의 비교 조건문을 & (AND), 또는 | (OR) 로 연결해서 다수개의 조건을 AND, 또는 OR로 만족하는 행을 가져오고 싶을 경우 반드시 조건문에 (조건문) & (조건문), (조건문) | (조건문) 처럼 조건문에 괄호 ( ) 를 꼭 쳐줘야 합니다. (Be sure to include the parentheses in the conditions)

In [8]: df[df['id'] == 'b' | df['id'] == 'e' | df['id'] == 'k']

Traceback (most recent call last):

File "<ipython-input-8-3140416d729c>", line 1, in <module>

df[df['id'] == 'b' | df['id'] == 'e' | df['id'] == 'k']

File "C:\Users\admin\Anaconda3\lib\site-packages\pandas\core\ops.py", line 836, in wrapper

na_op(self.values, other),

File "C:\Users\admin\Anaconda3\lib\site-packages\pandas\core\ops.py", line 807, in na_op

x.dtype, type(y).__name__))

TypeError: cannot compare a dtyped [object] array with a scalar of type [bool]

Traceback (most recent call last):

File "<ipython-input-8-3140416d729c>", line 1, in <module>

df[df['id'] == 'b' | df['id'] == 'e' | df['id'] == 'k']

File "C:\Users\admin\Anaconda3\lib\site-packages\pandas\core\ops.py", line 836, in wrapper

na_op(self.values, other),

File "C:\Users\admin\Anaconda3\lib\site-packages\pandas\core\ops.py", line 807, in na_op

x.dtype, type(y).__name__))

TypeError: cannot compare a dtyped [object] array with a scalar of type [bool]

TypeError가 안나게 제대로 조건문 boolean indexing을 하려면 아래처럼 비교 조건문별로 '(비교 조건문) | (비교 조건문) 처럼 괄호 ( ) 를 쳐주면 됩니다.

In [9]: df[ (df['id'] == 'b') | (df['id'] == 'e') | (df['id'] == 'k')]

Out[9]:

id var

1 b 2
4 e 5

많은 도움이 되었기를 바랍니다.

이번 포스팅이 도움이 되었다면 아래의 '공감~'를 꾹 눌러주세요. :-)

728x90

저작자표시 비영리 변경금지 (새창열림)

'Python 분석과 프로그래밍 > Python 데이터 전처리' 카테고리의 다른 글

[Python pandas] DataFrame에서 천 단위 숫자의 자리 구분 기호 콤마(',')를 없애는 방법 (8)	2019.07.30
[Python pandas] DataFrame, Series에서 순위(rank)를 구하는 rank() 함수 (38)	2019.07.27
[Python] itertools를 활용한 리스트 원소를 n번 반복하여 새로운 리스트 만들기 (0)	2019.07.21
[Python pandas] DataFrame index를 reset칼럼으로 가져오고 이름 부여하기 (0)	2019.07.13
[Python pandas] DataFrame을 정렬한 후에, 그룹별로 상위 N개 행 선택하기 (sort DataFrame by value and select top N rows by group) (2)	2019.07.13

Posted by Rfriend

,

[Python] itertools를 활용한 리스트 원소를 n번 반복하여 새로운 리스트 만들기

Python 분석과 프로그래밍/Python 데이터 전처리 2019. 7. 21. 23:29

이번 포스팅에서는 빠르고 메모리를 효율적으로 사용해서 반복자((fast and memory-efficient iterator)를 만들어주는 itertools 모듈을 사용해서 리스트 원소를 n번 반복하고 묶어서 새로운 리스트를 만드는 4가지 유형의 방법을 소개하겠습니다.

먼저 itertools 모듈에서 chain(), repeat() 함수를 불러오고, 예제로 사용할 반복할 리스트(numbers)와 반복할 회수(n)을 만들어놓겠습니다.

In [1]: from itertools import chain, repeat

In [2]: numbers = [1, 2, 3]

In [3]: n = 3

(1) itertools.repeat(object, times) : object를 times 만큼 반복하기

itertools의 repeat() 함수로 [1, 2, 3] 리스트를 3번 반복하면, 아래처럼 리스트 안에 [1, 2, 3] 리스트가 각 각 분리([1, 2, 3], [1, 2, 3], [1, 2, 3])되어서 들어가 있습니다.

In [4]: list(repeat(numbers, n))

Out[4]: [[1, 2, 3], [1, 2, 3], [1, 2, 3]]

(2) itertools.chain.from_iterable(repeat(object, times)))
: times 만큼 "object 전체"를 반복한 연속된 서열을 하나의 서열로 묶어줌

위의 (1)번과는 다르게, [1, 2, 3, 1, 2, 3, 1, 2, 3] 의 단 하나의 리스트로 묶였습니다.

In [5]: list(chain.from_iterable(repeat(numbers, n)))

Out[5]: [1, 2, 3, 1, 2, 3, 1, 2, 3]

(3) itertools.chain.from_iterable((repeat(object, times) for object in objects)))
: "objects 내 각 원소"를 times만큼 반복한 연속된 서열을 하나의 서열로 묶어줌

list comprehension 으로 for loop을 이용하여서 numbers 리스트 안의 각 원소인 1, 2, 3 별로 3번씩 반복한 후, 이를 하나의 리스트로 묶어준 경우입니다.

In [6]: list(chain.from_iterable((repeat(number, n) for number in numbers)))

Out[6]: [1, 1, 1, 2, 2, 2, 3, 3, 3]

(4) itertools.chain.from_iterable((repeat(object, time)
for (object, time) in zip(objects, times))))
: objects 내 각 원소 다른 수의 times 만큼 반복한 연속된 서열을 하나의 서열로 묶어줌

반복할 수 times 인자를 반복할 대상 objects 내 원소별로 다르게 하고 싶을 때가 있습니다. 이럴 때는 zip() 으로 반복할 대상 object와 반복할 회수 time을 짝으로 묶어서 반복을 시켜주면 됩니다.

In [7]: numbers = [1, 2, 3]

...: n_list = [3, 5, 7]

In [8]: list(chain.from_iterable((repeat(number, n) for (number, n) in zip(numbers, n_list))))

Out[8]: [1, 1, 1, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3]

많은 도움이 되었기를 바랍니다.

이번 포스팅이 도움이 되었다면 아래의 '공감~'를 꾸욱 눌러주세요. :-)

728x90

저작자표시 비영리 변경금지 (새창열림)

'Python 분석과 프로그래밍 > Python 데이터 전처리' 카테고리의 다른 글

[Python pandas] DataFrame, Series에서 순위(rank)를 구하는 rank() 함수 (38)	2019.07.27
[Python pandas] DataFrame, Series에서 조건에 맞는 값이 들어있는 행 indexing 하기 : df.isin() (9)	2019.07.24
[Python pandas] DataFrame index를 reset칼럼으로 가져오고 이름 부여하기 (0)	2019.07.13
[Python pandas] DataFrame을 정렬한 후에, 그룹별로 상위 N개 행 선택하기 (sort DataFrame by value and select top N rows by group) (2)	2019.07.13
[Python pandas] pivot_table() 할 때 DataError: No numeric types to aggregate 에러 대처방법 aggfunc='first' (0)	2019.07.11

Posted by Rfriend

,

[Python] Windows10에서 Anaconda Prompt를 이용해 가상환경 만들기 (Create a new virtual environment for python with anaconda prompt)

Python 분석과 프로그래밍/Python 설치 및 기본 사용법 2019. 7. 19. 00:03

이번 포스팅에서는 Windows 환경에서 Anaconda Python 배포판으로 Python을 설치했을 경우에, Anaconda Prompt 를 이용하여 Python x.x 버전의 새로운 가상환경(Virtual Environment)을 만드는 방법을 소개하겠습니다.

가상환경(Virtual Environment)을 이용하면 Python 버전 간의 의존성을 고려해서 가상의 격리된 환경을 만들어줌으로써 버전이 다름으로 인해 발생할 수 있는 호환이나 충돌 문제를 미연에 방지할 수 있도록 해줍니다. Anaconda Python 배포판에서는 conda command 로 가상환경, Python 패키지 설치를 관리할 수 있습니다.

Anaconda Navigator에서 UI를 가지고 좀더 쉽게 가상환경을 만들 수도 있기는 한데요, 가끔 보면 Windows OS 노트북 사용하는 분들 중에 Anaconda Navigator 를 실행시켜면 화면으로 뜨는데 5분~10분 정도씩 걸리는 경우도 있더라구요. 그래서 빠르게 바로 실행시킬 수 있는 Anaconda Prompt 를 사용해서 가상환경 만드는 방법을 소개하겠습니다.

먼저 Windows 실행 버튼을 눌러서 Anaconda Prompt 메뉴를 찾아 실행합니다. python -V 커맨드로 확인해보니 저는 python 3.5.2 버전을 쓰고 있습니다. Python 2.7 버전으로 새로운 가상환경을 만들어보겠습니다.

> python -V

1. Conda 버전 확인 및 Conda Update

conda 를 최신버전으로 업데이트를 해줍니다. 중간에 Proceed ([y]/n)? 질문이 나오면 'y' 를 입력해줍니다.

> conda -V

> conda update conda

Proceed ([y]/n)? y

2. 가상환경 목록 확인 (Check virtual environments list)

> conda env list

또는

> conda info -e

3. conda로 가상환경 새로 만들기 (Create a new virtual environment using conda)

> conda create -n [virtual environment name] python=[python version] anaconda

의 형식과 순서대로 입력해줍니다. 저는 새로운 가상환경 이름을 'py_2.7'로 하였고, python 2.7 버전으로 anaconda 배포판을 이용해서 가상환경을 만들어보겠습니다.

> conda create -n py_2.7 python=2.7 anaconda

이렇게 하면 아래처럼 Python 2.7 버전과 호환이 검증된 다른 Python libraries 들이 버전을 맞추어서 자동으로 수십개가 설치가 됩니다.

중간에 Proceed ([y]/n)? 라고 묻거든 'y' 라고 답해주세요.

혹시 SSLError: [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed 라는 SSLError 가 발생하면 아래의 "conda config --set ssl_verify false"라는 command를 실행하고 난 후에, 위의 "conda create -n py_2.7 python=2.7 anaconda" 커맨드를 다시 실행시켜 보세요.

> conda config --set ssl_verify false

혹은 Anaconda Navigator의 Preference에서 'enable SSL verification' 옵션의 체크박스를 해제해주고 "conda create -n py_2.7 python=2.7 anaconda"를 다시 실행해보기 바랍니다.

"py_2.7" 이라는 이름의 가상환경이 잘 만들어졌는지 확인해볼까요? (이번에는 "conda env list" 대신에 "conda info -e"를 사용해서 가상환경 목록 확인)

4. 가상환경 활성화 하기 (Activate Virtual Environment)

"activate [virtual environment name]" 형식으로 커맨드를 입력해주면 해당 이름/ Python 버전의 가상환경이 활성화되어서 이용 가능해집니다. 방금 새로 만든 python 2.7 버전으로 설치한 "py_2.7" 이름의 가상환경을 활성화해보겠습니다.
(참고로, Mac OS에서는 > source activate [virtual_env_name] 으로서, Windows랑 조금 다릅니다.)

> activate py_2.7

아래 화면 캡쳐해놓은 것처럼 activate py_2.7 을 하고 나면 "(py_2.7) C:\Users\admin>" 과 같이 커서 화면이 바뀝니다.

5. IDE (Jupyter Notebook, Spyder, IPython) 실행하기

conda prompt 창에서 커맨드 명령문으로 "py_2.7" 이라는 이름의 가상환경에서 python 2.7 버전을 사용할 수 있게 Jupyter Notebook, Spyder, IPython 등의 IDE 를 실행시킬 수 있습니다.

5-1. Jupyter Notebook 실행

(py_2.7) > jupyter notebook

아래처럼 웹브라우저가 뜨면서 Jupyter Notebook이 실행되면 우측 상단의 'New' 메뉴에서 'Python 2'를 선택해서 새로운 Notebook 화면을 생성합니다.

아래처럼 새로운 Notebook 화면이 뜨면 이름 설정해주고 사용하면 되겠습니다. 탐색적 데이터 분석이나 교육용으로 사용하기에는 Jupyter Notebook이 제격이지요.

Jupyter Notebook 다 사용하였으면 저장하고, 노트북 홈 화면에서 작업한 파일 shutdown 하구요, conda prompt 창에서 'Ctrl + C' 해주면 jupyter notebook kernel 종료(kernel shutdown)하고 빠져나올 수 있습니다.

5-2. Spyer 실행

(py_2.7) > spyder

Python으로 Project별로 Production 하기에는 Spyder나 Pycharm 이 작업하기에 더 편한거 같습니다.

5-3. IPython 실행

(py_2.7) > IPython

그냥 가볍고, 깔끔하고, interactive 하게 코딩하고 싶으면 IPython 이용하면 되겠습니다.

6. 가상환경 비활성화/ 종료하기 (Deactivate a Virtual Environment)

가상환경을 종료하려면 > deactivate 해줍니다.

(참고로, MacOS 사용자라면 > conda deactivate 로서, Windows와는 조금 다릅니다)

(py_2.7) > deactivate

아래 화면 캡쳐한 것처럼 가상환경을 deactivate 해주면 "C:\Users\admin>" 으로 커서가 빠져나옵니다.

7. 가상환경 제거 하기 (Delete a Virtual Environment)

특정 Python 버전을 쓰는 프로젝트가 끝나서 더이상 쓸모가 없거나, 오래된 버전이라서 사용하지 않게 된 가상환경을 삭제하려면 > conda env remove -n [virtual environment name] 이라는 커맨드 명령어를 실행시켜줍니다.

> conda env remove -n py_2.7

그러면 자동으로 전체 가상환경 내 library 들을 지워주며, 다른 가상환경과는 격리되어 있기 때문에 아무런 영향없이 지워줍니다. 좋지요?! :-)

자동으로 버전 맞춰서 설치되었던 Python libraries 들을 지울건데 정말로 지워도 되냐고 확인 (Proceed ([y]/n)?)하려고 물어보는데요, y 라고 답해주기 바랍니다.

> conda env list 로 가상환경 목록을 확인해보니 'py_2.7' 이라는 이름의 python 2.7 버전의 가상환경이 안보이네요. 잘 제거된거 맞네요.

많은 도움이 되었기를 바랍니다.

이번 포스팅이 도움이 되었다면 아래의 '공감~'를 꾹 눌러주세요. :-)

728x90

저작자표시 비영리 변경금지 (새창열림)

'Python 분석과 프로그래밍 > Python 설치 및 기본 사용법' 카테고리의 다른 글

[Python] Jupyter Notebook에서 cell 너비, DataFrame 칼럼 너비, 텍스트 정렬, 소수점 자리수, 그래프 크기 설정, 최대 행의 개수 설정 방법 (0)	2019.10.07
[R] Jupyter Notebook에서 R 사용하기 (6)	2019.10.06
[Python] Python으로 Postgresql, GPDB, DB2, Presto DB connect 하는 방법 (2)	2019.07.02
맥북(Mac OS)에서 graphviz 실행 시 "ValueError: Program dot not found in path" 에러 대처방안 (0)	2018.08.31
맥북에 Graphviz, pygraphviz 설치하고 Decision Tree 시각화해보기 (0)	2018.08.25

Posted by Rfriend

,

[GPDB, Postgres] Python DataFrame을 Postgresql, Greenplum DB에 Copy 해서 넣는 방법

Greenplum and PostgreSQL Database 2019. 7. 17. 00:07

이번 포스팅에서는 Python pandas의 DataFrame을 Postgresql, Greenplum DB에 Copy 해서 집어넣는 방법을 소개하겠습니다.

먼저 간단한 예제 pandas DataFrame을 만들어보겠습니다.

import numpy as np

import pandas as pd

# make a DataFrame

school = pd.DataFrame({'region': ['gangnam', 'secho', 'bundang', 'mokdong'],

'student_cnt': [100, 120, 150, 90],

'math_score': [91, 95, 92, 93]},

columns=['region', 'student_cnt', 'math_score'])

school

Out[02]:

region student_cnt math_score

0 gangnam 100 91

1 secho 120 95

2 bundang 150 92

3 mokdong 90 93

이제 school 이라는 pandas DataFrame을 아래의 순서대로 DB에 Copy해서 넣어보겠습니다.

(1) DataFrame을 CSV 파일로 내보내기 (export a DataFrame to CSV file)

(2) Postgresql, Greenplum DB에 연결하고 Table 만들기

(3) Postgresql, Greenplum DB의 Table에 CSV file을 Copy해서 집어넣기

(1) DataFrame을 CSV 파일로 내보내기 (export a DataFrame to CSV file)

pandas의 to_csv() 메소드를 이용하였으며, index와 header 옵션은 False로 설정해서 CSV 파일에는 포함시키지 않도록 하겠습니다.

school.to_csv('C:/Users/admin/Documents/data/school.csv',

sep=",",

na_rep="NaN",

index=False,

header=False)

(2) Postgresql, Greenplum DB에 연결하고 Table 만들기

psycopg2 라이브러리를 이용해서 Postgresql, Greenplum DB에 연결해보겠습니다. 아래의 connect() 에는 본인의 DB 설정 정보를 바꾸어서 입력해주면 됩니다.

# Postgresql DB connect using psycopg2

from psycopg2 import connect

conn = connect(host='localhost', # set yours

port=5432,

database='postgres',

user='postgres',

password='postgres')

cur = conn.cursor()

# Create a table at Postgresql public schema with school name

cur.execute("""

DROP TABLE IF EXISTS school;

CREATE TABLE school (

region varchar(100),

student_cnt numeric,

math_score numeric

)

""")

conn.commit()

(3) Postgresql, Greenplum DB의 Table에 CSV file을 Copy해서 집어넣기

with open() 으로 로컬에 저장해놓은 school.csv 파일을 읽고, cursor.copy_expert() 를 이용하여 "COPY school FROM STDIN DELIMITER ',' CSV;" 쿼리문을 실행시켜서 CSV 파일을 Table 에 copy 해주겠습니다.

query = """

COPY school FROM STDIN DELIMITER ',' CSV;

"""

with open('C:/Users/admin/Documents/data/school.csv', 'r') as f:

cur.copy_expert(query, f)

conn.commit()

# close connection

conn.close()

PGAdmin 에 들어가서 school 테이블을 조회해보니 아래처럼 데이터가 잘 copy 되서 들어가 있네요.

Python에서 DB connect해서 데이터 조회하고 DataFrame으로 만들어서 한번 더 확인을 해보았습니다. 아래와 같이 데이터가 Postgresql DB의 school table에 잘 들어가 있음을 확인할 수 있습니다.

# check

cur.execute("SELECT * FROM school;")

school_df = cur.fetchall()

school_df

Out[39]:

[('gangnam', Decimal('100'), Decimal('91')),

('secho', Decimal('120'), Decimal('95')),

('bundang', Decimal('150'), Decimal('92')),

('mokdong', Decimal('90'), Decimal('93'))]

많은 도움이 되었기를 바랍니다.

728x90

저작자표시 비영리 변경금지 (새창열림)

'Greenplum and PostgreSQL Database' 카테고리의 다른 글

[Greenplum] 오픈소스 Greenplum DB와 Apache MADlib을 활용한 그래프 분석, 네트워크 분석 (Graph analytics with Greenplum and Apache MADlib) (0)	2019.08.25
[GPDB, PostgreSQL] Python DataFrame을 Sqlalchemy engine을 이용해 DB Table에 직접 쓰기 : df.to_sql() (0)	2019.07.28
[Greenplum DB] GPDB에 PL/R Language Extension, R 패키지 수동 설치 방법 (0)	2019.05.16
[Greenplum DB] PostGIS - 공간지리 테이블 백업하기, 백업 다시 불러오기 (Backup and Restore geospatial table using pg_dump, pg_restore) (0)	2019.04.27
[Greenplum DB] PostGIS에 raster2pgsql 을 사용하여 raster data import 하기 (0)	2019.04.17

Posted by Rfriend

,

[Python pandas] DataFrame index를 reset칼럼으로 가져오고 이름 부여하기

Python 분석과 프로그래밍/Python 데이터 전처리 2019. 7. 13. 22:43

이번 포스팅에서는 Python pandas DataFrame의 index를 reset_index() 하여 칼럼으로 가져오고, 이렇게 가져온 index에 새로운 이름을 부여하는 3가지 방법을 소개하겠습니다.

먼저, 예제로 사용할 간단한 DataFrame을 만들어보겠습니다.

import numpy as np

import pandas as pd

df = pd.DataFrame(np.arange(10).reshape(5, 2),

columns=['x1', 'x2'],

index=['a', 'b', 'c', 'd', 'e'])

df

	x1	x2
a	0	1
b	2	3
c	4	5
d	6	7
e	8	9

이제 index 를 칼럼으로 가져오고, 가져온 index의 이름으로 'id'라는 이름을 부여하는 3가지 방법을 차례대로 소개하겠습니다.

(1) reset_index() 한 후에 rename()으로 새로운 이름 부여하기

# (1) reset_index() and rename

df.reset_index().rename(columns={"index": "id"})

	id	x1	x2
0	a	0	1
1	b	2	3
2	c	4	5
3	d	6	7
4	e	8	9

(2) rename_axis() 로 index의 이름을 먼저 바꾸고, 이후에 reset_index() 하기

# (2) rename_axis() first, reset_index() second

df_1 = df.rename_axis('id').reset_index()

df_1

	id	x1	x2
0	a	0	1
1	b	2	3
2	c	4	5
3	d	6	7
4	e	8	9

(3) df.index.name 으로 index에 이름 할당하고, 다음으로 reset_index() 하기

# (3) assing index name and reset_index()

df.index.name = 'id'

df_2 = df.reset_index()

df_2

	id	x1	x2
0	a	0	1
1	b	2	3
2	c	4	5
3	d	6	7
4	e	8	9

많은 도움이 되었기를 바랍니다.

728x90

저작자표시 비영리 변경금지 (새창열림)

'Python 분석과 프로그래밍 > Python 데이터 전처리' 카테고리의 다른 글

[Python pandas] DataFrame, Series에서 조건에 맞는 값이 들어있는 행 indexing 하기 : df.isin() (9)	2019.07.24
[Python] itertools를 활용한 리스트 원소를 n번 반복하여 새로운 리스트 만들기 (0)	2019.07.21
[Python pandas] DataFrame을 정렬한 후에, 그룹별로 상위 N개 행 선택하기 (sort DataFrame by value and select top N rows by group) (2)	2019.07.13
[Python pandas] pivot_table() 할 때 DataError: No numeric types to aggregate 에러 대처방법 aggfunc='first' (0)	2019.07.11
[Python pandas] DataFrame, Series의 행, 열 개수 세기 (1)	2019.07.03

Posted by Rfriend

,

[Python] for loop 반복문의 진척율을 콘솔창에 출력해서 확인하는 방법

Python 분석과 프로그래밍/Python 프로그래밍 2019. 7. 13. 20:58

이번 포스팅에서는 Python의 for loop 반복문의 진척율을 콘솔창에 출력해서 확인하는 방법을 소개하겠습니다.

먼저, 예제로 사용할 간단한 DataFrame을 만들어보겠습니다.

import numpy as np

import pandas as pd

df = pd.DataFrame(np.arange(10000).reshape(-1, 2),

columns=['x1', 'x2'])

df.head()

	x1	x2
0	0	1
1	2	3
2	4	5
3	6	7
4	8	9

for loop 예문은 DataFrame의 매 3의 배수 행은 'x1'과 'x2'를 더해서 'x3'를 만들고, 3의 배수 행이 아닌 경우는 'x1'에서 'x2'를 뺀 값으로 'x3'를 만드는 것입니다.

for i in range(df.shape[0]):

if i % 3 == 0:

df.loc[i, 'x3'] = df.loc[i, 'x1'] + df.loc[i, 'x2']

else:

df.loc[i, 'x3'] = df.loc[i, 'x1'] - df.loc[i, 'x2']

df.head(10)

	x1	x2	x3
0	0	1	1.0
1	2	3	-1.0
2	4	5	-1.0
3	6	7	13.0
4	8	9	-1.0
5	10	11	-1.0
6	12	13	25.0
7	14	15	-1.0
8	16	17	-1.0
9	18	19	37.0

가장 간단하게 for loop 반복문의 진척율을 확인할 수 있는 방법은 전체 행 중에서 반복문이 수행 중인 행의 위치를 매번 콘솔창에 프린트하도록 하는 방법입니다.

for i in range(df.shape[0]):

if i % 3 == 0:

df.loc[i, 'x3'] = df.loc[i, 'x1'] + df.loc[i, 'x2']

else:

df.loc[i, 'x3'] = df.loc[i, 'x1'] - df.loc[i, 'x2']

progress = 100*(i+1)/df.shape[0]

print("===== %d%% completed =====" % progress)

그런데 위처럼 프린트문을 사용하면 for loop문이 실행되는 매 행마다 한줄씩 프린트가 되므로 콘솔 창이 매우 길게 늘어질 수 있습니다.

이때 sys.stdout 을 사용하면 아래 예시처럼 매 진척율을 같은 줄에서 진척율만 숫자가 바뀌면서 나타낼 수 있습니다.

from sys import stdout

for i in range(df.shape[0]):

if i % 3 == 0:

df.loc[i, 'x3'] = df.loc[i, 'x1'] + df.loc[i, 'x2']

else:

df.loc[i, 'x3'] = df.loc[i, 'x1'] - df.loc[i, 'x2']

progress = 100*(i+1)/df.shape[0]

stdout.write("\r ===== %d%% completed =====" % progress)

stdout.flush()

stdout.write("\n")

많은 도움이 되었기를 바랍니다.

728x90

저작자표시 비영리 변경금지 (새창열림)

'Python 분석과 프로그래밍 > Python 프로그래밍' 카테고리의 다른 글

[Python Exceptions] try, except, else, finally 절을 이용한 Python Programming 예외 처리 (0)	2019.08.08
[Python] 가변 매개변수(variable-length arguments) 위치에 따른 Keyword 매개변수 호출 시 SyntaxError, TypeError (0)	2019.08.03
[Python] 함수나 클래스의 구현을 미룰 때 쓰는 pass 문 (4)	2018.07.24
[Python] 함수 안에 TypeError, ValueError 메시지 지정하기 (0)	2018.07.14
[Python] 함수 안의 함수 : 중첩함수(Nested Function), 재귀함수(Recursive Function) (0)	2018.07.13

Posted by Rfriend

,

[Python pandas] DataFrame을 정렬한 후에, 그룹별로 상위 N개 행 선택하기 (sort DataFrame by value and select top N rows by group)

Python 분석과 프로그래밍/Python 데이터 전처리 2019. 7. 13. 20:20

이번 포스팅에서는 Python pandas의 DataFrame을

(1) 특정 칼럼을 기준으로 행을 정렬한 후에 (sort DataFrame by value in ascending/descending order)

==> (2) 각 그룹별로 상위 N개 행을 가져오기 (select top N rows by group)

을 하는 방법을 소개하겠습니다.

먼저 'a'와 'b' 두 개의 그룹별로 5개의 값을 가진 간단한 예제 DataFrame을 만들어보겠습니다.

import numpy as np

import pandas as pd

# make a sample DataFrame

df = pd.DataFrame({'grp': ["a", "a", "a", "a", "a", "b", "b", "b", "b", "b"],

'val': np.random.uniform(0, 10, 10)})

df

	grp	val
0	a	0.275704
1	a	5.334576
2	a	5.386807
3	a	6.033636
4	a	2.140798
5	b	2.089792
6	b	6.396985
7	b	3.088498
8	b	5.895689
9	b	1.157073

이제 "val" 변수를 기준으로 내림차순 정렬(sort by 'val' in descending order) 한 후에, 'grp' 칼럼의 'a', 'b' 그룹별로 상위 3개의 값을 가져와서 새로운 데이터프레임을 만들어보겠습니다.

# sort by value in descending order per group, and select top 3 values per group

df_sort_group_top3 = df.sort_values(by="val", ascending=False).groupby("grp").head(3)

df_sort_group_top3

	grp	val
6	b	6.396985
3	a	6.033636
8	b	5.895689
2	a	5.386807
1	a	5.334576
7	b	3.088498

위의 df_sort_group_top3 결과를 좀더 보기에 좋도록 'a', 'b' 그룹 순서대로, 각 그룹 내에서는 내림차순으로 정렬해보겠습니다.

df_sort_group_top3.sort_values(by=["grp", "val"], ascending=[True, False])

	grp	val
3	a	6.033636
2	a	5.386807
1	a	5.334576
6	b	6.396985
8	b	5.895689
7	b	3.088498

사용자 정의함수를 작성하고 df.groupby("grp").apply(UDF) 를 사용하는 방법도 있습니다. apply(UDF_name, arguments) 형식으로 사용자 정의 함수에서 사용했던 매개변수를 같이 넣어주면 됩니다. 매개변수 값을 변경해서 여러번 사용해야 하는 경우에는 아래처럼 사용자 정의 함수를 사용하는게 아무래도 편리하고 코드도 깔끔하겠습니다.

(물론, 아래의 예의 경우 사용자 정의함수에서 default 값으로 입력해놓은 매개변수 값과 동일하기 때문에 apply(top) 만 해도 결과는 동일합니다.)

def top(df, n=3, column='val'):

return df.sort_values(by="val", ascending=False)[:n]

df.groupby("grp").apply(top, column="val", n=3)

		grp	val
grp
a	2	a	8.707697
	3	a	8.288310
	0	a	5.317945
b	9	b	9.460717
	5	b	7.317662
	8	b	6.277714

정렬하는 칼럼이나 Top N개가 고정되어 있거나 일회성인 경우에는 간단하게 lambda 를 사용해서 사용자 정의 함수를 정의해서 사용해도 되겠습니다.

top2 = lambda x: x.sort_values(by='val', ascending=False)[:3]

df.groupby('grp').apply(top2)

		grp	val
grp
a	2	a	8.707697
	3	a	8.288310
	0	a	5.317945
b	9	b	9.460717
	5	b	7.317662
	8	b	6.277714

많은 도움이 되었기를 바랍니다.

728x90

저작자표시 비영리 변경금지 (새창열림)

'Python 분석과 프로그래밍 > Python 데이터 전처리' 카테고리의 다른 글

[Python] itertools를 활용한 리스트 원소를 n번 반복하여 새로운 리스트 만들기 (0)	2019.07.21
[Python pandas] DataFrame index를 reset칼럼으로 가져오고 이름 부여하기 (0)	2019.07.13
[Python pandas] pivot_table() 할 때 DataError: No numeric types to aggregate 에러 대처방법 aggfunc='first' (0)	2019.07.11
[Python pandas] DataFrame, Series의 행, 열 개수 세기 (1)	2019.07.03
[Python pandas] DataFrame의 문자열 칼럼을 분할하여 일부분으로 새로운 칼럼 만들기 (2)	2019.07.01

Posted by Rfriend

,

[Python pandas] pivot_table() 할 때 DataError: No numeric types to aggregate 에러 대처방법 aggfunc='first'

Python 분석과 프로그래밍/Python 데이터 전처리 2019. 7. 11. 23:11

이번 포스팅에서는 Python pandas의 pivot_table() 함수를 사용할 때

- (1) 'DataError: No numeric types to aggregate' 에러가 왜 생기는지

- (2) 'DataError: No numeric types to aggregate' 에러 대응방법은 무엇인지에 대해서 알아보겠습니다.

먼저 예제로 사용할 간단한 DataFrame을 만들어보겠습니다.

In [1]: import numpy as np

...: import pandas as pd

In [2]: df = pd.DataFrame({'id': [1, 1, 2, 2, 3, 3],

...: 'col': ['x1', 'x2', 'x1', 'x2', 'x1', 'x2'],

...: 'sum': [30, 10, 70, 40, 20, 80],

...: 'name': ['a', 'a', 'b', 'b', 'c', 'c']})

...:

...: df

Out[2]:

col id name sum

0 x1 1 a 30

1 x2 1 a 10

2 x1 2 b 70

3 x2 2 b 40

4 x1 3 c 20

5 x2 3 c 80

이제 pandas의 pivot_table() 함수를 이용해서 'id'변수를 index로, 'col' 변수를 열(column)로 하여 'sum'이라는 숫자형 데이터 값(values)을 재구조화(pivot) 해보겠습니다. pivot_table() 함수의 집계함수(aggregation function)의 디폴트 설정은 평균(aggfunc='mean')으로 되어 있습니다. 아래 코드는 문제 없이 잘 수행이 되었습니다.

In [3]: df.pivot_table(index = 'id', columns='col', values=['sum'])

Out[3]:

sum

col x1 x2

id

1 30 10

2 70 40

3 20 80

In [4]: df.pivot_table(index = 'id', columns='col', values=['sum'], aggfunc='mean')

...:

Out[4]:

sum

col x1 x2

id

1 30 10

2 70 40

3 20 80

(1) 'DataError: No numeric types to aggregate' 에러가 왜 생기는가?

이번에는 'id' 변수를 index로, 'col'변수를 열(column)변수로 하는 것은 위와 동일하나, 재구조화하는 테이블의 값(value)으로 숫자형(nemeric)이 아니라 문자형(character)인 'name' 변수를 사용해보겠습니다. 그러면 아래와 같이 'DataError: No numeric types to aggregate'라는 DataError가 납니다. 왜냐하면 값(values) 으로 사용하려는 'name' 변수가 집계가 불가능한 문자형 데이터이기 때문입니다. (numeric only)

In [5]: df.pivot_table(index = 'id', columns='col', values=['name']) # default aggfunc='mean'

Traceback (most recent call last):

File "<ipython-input-5-9a2cccdff2ef>", line 1, in <module>

df.pivot_table(index = 'id', columns='col', values=['name'])

File "C:\Users\admin\Anaconda3\lib\site-packages\pandas\core\groupby.py", line 3048, in _cython_agg_general

how, numeric_only=numeric_only)

.... 중간 생략 ....

DataError: No numeric types to aggregate

(2) 'DataError: No numeric types to aggregate' 에러 대응방법은?

집계함수를 aggfunc='first' 로 명시적으로 설정해 줌으로써, 디폴트인 'mean' 을 사용해서 집계하는 것이 아니라 재구조화하는 기준의 테이블의 각 cell의 첫번째 값('first')을 그냥 가져오게끔 해주면 됩니다.

In [6]: df.pivot_table(index = 'id', columns='col', values=['name'], aggfunc='first')

Out[6]:

name

col x1 x2

id

1 a a

2 b b

3 c c

집계함수 aggfunc='first' 로 해서 pivot 한 테이블의 값(values)을 하나가 아니라 여러개로 할 수도 있습니다. (이렇게 하면 숫자형 변수 'sum'도 집계를 하는 것이 아니라 각 테이블 cell의 첫번째 값을 가져오게 됨)

In [7]: df.pivot_table(index = 'id', columns='col', values=['name', 'sum'], aggfunc='first')

Out[7]:

name sum

col x1 x2 x1 x2

id

1 a a 30 10

2 b b 70 40

3 c c 20 8

많은 도움이 되었기를 바랍니다.

728x90

저작자표시 비영리 변경금지 (새창열림)

'Python 분석과 프로그래밍 > Python 데이터 전처리' 카테고리의 다른 글

[Python pandas] DataFrame index를 reset칼럼으로 가져오고 이름 부여하기 (0)	2019.07.13
[Python pandas] DataFrame을 정렬한 후에, 그룹별로 상위 N개 행 선택하기 (sort DataFrame by value and select top N rows by group) (2)	2019.07.13
[Python pandas] DataFrame, Series의 행, 열 개수 세기 (1)	2019.07.03
[Python pandas] DataFrame의 문자열 칼럼을 분할하여 일부분으로 새로운 칼럼 만들기 (2)	2019.07.01
[Python] 텍스트 파일 읽어와서 숫자형 데이터 표준화하기 (reading csv or text file, standardizing or normalizing of numeric data) (0)	2019.05.21

Posted by Rfriend

,

R, Python 분석과 프로그래밍의 친구 (by R Friend)

'Python'에 해당되는 글 243건

[GPDB, PostgreSQL] Python DataFrame을 Sqlalchemy engine을 이용해 DB Table에 직접 쓰기 : df.to_sql()

'Greenplum and PostgreSQL Database' 카테고리의 다른 글

[Python pandas] DataFrame, Series에서 순위(rank)를 구하는 rank() 함수

'Python 분석과 프로그래밍 > Python 데이터 전처리' 카테고리의 다른 글

[Python pandas] DataFrame, Series에서 조건에 맞는 값이 들어있는 행 indexing 하기 : df.isin()

'Python 분석과 프로그래밍 > Python 데이터 전처리' 카테고리의 다른 글

[Python] itertools를 활용한 리스트 원소를 n번 반복하여 새로운 리스트 만들기

'Python 분석과 프로그래밍 > Python 데이터 전처리' 카테고리의 다른 글

[Python] Windows10에서 Anaconda Prompt를 이용해 가상환경 만들기 (Create a new virtual environment for python with anaconda prompt)

'Python 분석과 프로그래밍 > Python 설치 및 기본 사용법' 카테고리의 다른 글

[GPDB, Postgres] Python DataFrame을 Postgresql, Greenplum DB에 Copy 해서 넣는 방법

'Greenplum and PostgreSQL Database' 카테고리의 다른 글

[Python pandas] DataFrame index를 reset칼럼으로 가져오고 이름 부여하기

'Python 분석과 프로그래밍 > Python 데이터 전처리' 카테고리의 다른 글

[Python] for loop 반복문의 진척율을 콘솔창에 출력해서 확인하는 방법

'Python 분석과 프로그래밍 > Python 프로그래밍' 카테고리의 다른 글

[Python pandas] DataFrame을 정렬한 후에, 그룹별로 상위 N개 행 선택하기 (sort DataFrame by value and select top N rows by group)

'Python 분석과 프로그래밍 > Python 데이터 전처리' 카테고리의 다른 글

[Python pandas] pivot_table() 할 때 DataError: No numeric types to aggregate 에러 대처방법 aggfunc='first'

'Python 분석과 프로그래밍 > Python 데이터 전처리' 카테고리의 다른 글

카테고리

태그목록

티스토리툴바