'Python 분석과 프로그래밍/Python 데이터 전처리' 카테고리의 글 목록 (11 Page)

[Python] numpy 배열을 여러개의 하위 배열로 분할하기 (split an array into sub-arrays)

Python 분석과 프로그래밍/Python 데이터 전처리 2018. 5. 22. 13:51

이번 포스팅에서는 Python NumPy 배열을 여러개의 하위 배열로 분할하는 방법을 소개하겠습니다.

한 개의 배열을 수평 축(열 방향, column-wise)으로 여러 개의 하위 배열로 분할하기
- np.hsplit(x, 3), np.hsplit(x, (2, 4))
- np.split(x, 3, axis=1), np.split(x, (2, 4), axis=1)

한 개의 배열을 수직 축(행 방향, row-wise)으로 여러 개의 하위 배열로 분할하기
- np.vsplit(x, 3), np.vsplit(x, (1, 2))
- np.split(x, 3, axis=0), np.split(x, (1, 2), axis=0)

[ Python NumPy 배열 분할하기 ]

간단한 예를 들어서 설명하겠습니다.

(1) 한 개의 배열을 수평 축(열 방향, column-wise)으로 여러 개의 하위 배열로 분할하기

In [1]: import numpy as np

In [2]: x = np.arange(18).reshape(3, 6)

In [3]: x

Out[3]:

array([[ 0, 1, 2, 3, 4, 5],

[ 6, 7, 8, 9, 10, 11],

[12, 13, 14, 15, 16, 17]])

아래의 4가지 함수 모두 동일한 결과를 반환합니다.

np.hsplit(x, 3) : x 배열을 수평 축(열 방향, column-wise)으로 3개의 배열로 분할
np.hsplit(x, (2, 4)) : x 배열을 수평 축(열 방향, colomn-wise)의 x[:,0:2], x[:,2:4], x[:,4:6] 위치의 원소를 가지는 3개의 배열로 분할

np.hsplit(x, 3)

np.hsplit(x, (2, 4))

In [4]: np.hsplit(x, 3)

Out[4]:

[array([[ 0, 1],

[ 6, 7],

[12, 13]]),

array([[ 2, 3],

[ 8, 9],

[14, 15]]),

array([[ 4, 5],

[10, 11],

[16, 17]])]

In [5]: np.hsplit(x, (2, 4))

Out[5]:

[array([[ 0, 1],

[ 6, 7],

[12, 13]]),

array([[ 2, 3],

[ 8, 9],

[14, 15]]),

array([[ 4, 5],

[10, 11],

[16, 17]])]

np.split(x, 3, axis=1) = np.hsplit(x, 3) 와 동일
np.split(x, (2, 4), axis=1) = np.hsplit(x, (2, 4)) 와 동일

np.split(x, 3, axis=1)

np.split(x, (2, 4), axis=1)

In [6]: np.split(x, 3, axis=1)

Out[6]:

[array([[ 0, 1],

[ 6, 7],

[12, 13]]),

array([[ 2, 3],

[ 8, 9],

[14, 15]]),

array([[ 4, 5],

[10, 11],

[16, 17]])]

In [7]: np.split(x, (2, 4), axis=1)

Out[7]:

[array([[ 0, 1],

[ 6, 7],

[12, 13]]),

array([[ 2, 3],

[ 8, 9],

[14, 15]]),

array([[ 4, 5],

[10, 11],

[16, 17]])]

아래 처럼 하나의 배열을 3개로 분할했을 때, 각 하위 배열을 x1, x2, x3 에 할당할 수 있습니다.

In [8]: x1, x2, x3 = np.hsplit(x, 3)

In [9]: x1

Out[9]:

array([[ 0, 1],

[ 6, 7],

[12, 13]])

In [10]: x2

Out[10]:

array([[ 2, 3],

[ 8, 9],

[14, 15]])

In [11]: x3

Out[11]:

array([[ 4, 5],

[10, 11],

[16, 17]])

(2) 한 개의 배열을 수직 축(행 방향, row-wise)으로 여러 개의 하위 배열로 분할하기

In [2]: x = np.arange(18).reshape(3, 6)

In [3]: x

Out[3]:

array([[ 0, 1, 2, 3, 4, 5],

[ 6, 7, 8, 9, 10, 11],

[12, 13, 14, 15, 16, 17]])

np.vsplit(x, 3) : x배열을 수직 축 (행 방향, row-wise) 으로 3개의 하위 배열로 분할하기
np.vsplit(x, (1, 2)) : x배열을 수직 축 (행 방향, row-wise) 기준으로 x[0:1, :], x[1:2, :], x[2:3, :] 위치의 원소를 가지는 3개의 하위 배열로 분할하기

np.vsplit(x, 3)

np.vsplit(x, (1, 2))

In [12]: np.vsplit(x, 3)

Out[12]:

[array([[0, 1, 2, 3, 4, 5]]),

array([[ 6, 7, 8, 9, 10, 11]]),

array([[12, 13, 14, 15, 16, 17]])]

In [13]: np.vsplit(x, (1, 2))

Out[13]:

[array([[0, 1, 2, 3, 4, 5]]),

array([[ 6, 7, 8, 9, 10, 11]]),

array([[12, 13, 14, 15, 16, 17]])]

np.split(x, 3, axis=0) = np.vsplit(x, 3) 과 동일
np.split(x, (1, 2), axis=0) = np.vsplit(x, (1, 2)) 와 동일

np.split(x, 3, axis=0)

np.split(x, (1, 2), axis=0)

In [14]: np.split(x, 3, axis=0)

Out[14]:

[array([[0, 1, 2, 3, 4, 5]]),

array([[ 6, 7, 8, 9, 10, 11]]),

array([[12, 13, 14, 15, 16, 17]])]

In [15]: np.split(x, (1, 2), axis=0)

Out[15]:

[array([[0, 1, 2, 3, 4, 5]]),

array([[ 6, 7, 8, 9, 10, 11]]),

array([[12, 13, 14, 15, 16, 17]])]

저는 np.hsplit()과 np.vsplit() 이 행과 열 중에서 어디를 기준으로 분할이 되는 건지 자꾸 헷갈리네요. 직관적인 코드 가독성면에서는 np.split(x, n, axis=0), np.split(x, n, axis=1) 처럼 axis = 0 or 1 로 표기해주는 방식이 저한테는 더 이해하기가 쉽네요.

많은 도움이 되었기를 바랍니다.

728x90

저작자표시 비영리 변경금지

'Python 분석과 프로그래밍 > Python 데이터 전처리' 카테고리의 다른 글

[Python pandas] 다수개의 범주형자료로 가변수 만들기 (dummy variable) (2)	2018.08.21
[Python NumPy] 선형대수 함수 (Linear Algebra) (0)	2018.08.15
[Python] numpy 배열 외부 파일로 저장하기(save), 외부 파일을 배열로 불러오기(load) (4)	2018.05.21
[Python] numpy array 정렬, 거꾸로 정렬, 다차원 배열 정렬 (2)	2018.05.18
[Python] numpy 최소, 최대, 조건 색인값 : np.argmin(), np.argmax(), np.where() (7)	2018.05.17

Posted by Rfriend

,

[Python] numpy 배열 외부 파일로 저장하기(save), 외부 파일을 배열로 불러오기(load)

Python 분석과 프로그래밍/Python 데이터 전처리 2018. 5. 21. 23:33

이번 포스팅에서는 Python NumPy 배열(array) 데이터를 외부 파일로 저장(save)하는 방법, 외부 파일을 배열로 불러오는(load) 방법에 대해서 알아보겠습니다.

np.save() : 1개의 배열을 NumPy format의 바이너리 파일로 저장하기 (Save a single array to a binary file in NumPy format)
np.load() : np.save()로 저장된 *.npy 파일을 배열로 불러오기 (Open a *.npy file and load it as an array)

np.savez() : 여러개의 배열을 1개의 압축되지 않은 *.npz 포맷 파일로 저장하기 (Save several arrays into a single file in uncompressed .npz format)
np.load() : np.savez()로 저장된 *.npz 파일을 배열로 불러오기 (Open a *.npz file and load it as an array)

np.savez_compressed() : 여러개의 배열을 1개의 압축된 *.npz 포맷 파일로 저장하기 (Save several arrays into a single file in compressed .npz format)
np.load() : np.save_compressed()로 저장된 압축된 *.npz 파일을 배열러 불러오기 (Open a compressed *.npz file and load it as an array)

np.savetext() : 여러개의 배열을 텍스트 파일로 저장하기 (Save several array to a file as plain text)
np.loadtext() : 텍스트 파일을 배열로 불러오기 (Open a text file and load it as an array)

[ Python NumPy 배열을 파일로 저장하기(save), 불러오기(load) ]

하나씩 간단한 예를 들어서 설명하겠습니다.

> np.save() : 1개의 배열을 NumPy format의 바이너리 파일로 저장하기

> np.load() : np.save()로 저장된 *.npy 파일을 배열로 불러오기

In [1]: import numpy as np

In [2]: x = np.array([0, 1, 2, 3, 4])

# 배열을 저장하기

In [3]: np.save('D:/admin/Documents/x_save', x) # x_save.npy

[ .npy 형식으로 저장된 파일 ]

# 배열로 불러오기

In [4]: x_save_load = np.load('D:/admin/Documents/x_save.npy')

In [5]: x_save_load

Out[5]: array([0, 1, 2, 3, 4])

> np.savez() : 여러개의 배열을 1개의 압축되지 않은 *.npz 포맷 파일로 저장하기

> np.load() : np.savez()로 저장된 *.npz 파일을 배열로 불러오기

In [6]: x = np.array([0, 1, 2, 3, 4])

In [7]: y = np.array([5, 6, 7, 8, 9])

In [8]: np.savez('D:/admin/Documents/xy_savez'

...: , x=x, y=y) # 각 배열에 이름 부여

[ .npz 형식으로 저장된 파일 ]

np.load() 함수로 .npz 파일을 열어서 배열로 불러올 수 있습니다. 이때 불러온 파일의 type은 'numpy.lib.npyio.NpzFile' 이며, 개별 배열을 indexing 하려면 [ ] 를 사용합니다.

# 배열로 불러오기

In [9]: xy_savez_load = np.load('D:/admin/Documents/xy_savez.npz')

In [10]: type(xy_savez_load)

Out[10]: numpy.lib.npyio.NpzFile

In [11]: xy_savez_load['x']

Out[11]: array([0, 1, 2, 3, 4])

In [12]: xy_savez_load['y']

Out[12]: array([5, 6, 7, 8, 9])

np.load() 함수로 연 파일을 더이상 사용할 일이 없으면 메모리 효율 관리를 위해 file.close() 로 닫아주어야 합니다. .close() 로 파일을 닫은 상태에서 indexing 을 하려면 'NoneType' object has no attribute 'open' 에러가 납니다.

In [13]: xy_savez_load.close()

In [14]: xy_savez_load['x'] # AttributeError: 'NoneType' object has no attribute 'open'

Traceback (most recent call last):

File "<ipython-input-14-14d248a305d2>", line 1, in <module>

xy_savez_load['x'] # AttributeError: 'NoneType' object has no attribute 'open'

File "C:\Users\admin\Anaconda3\envs\py_v36\lib\site-packages\numpy\lib\npyio.py", line 226, in __getitem__

bytes = self.zip.open(key)

AttributeError: 'NoneType' object has no attribute 'open'

> np.savez_compressed() : 여러개의 배열을 1개의 압축된 *.npz 포맷 파일로 저장하기

> np.load() : np.save_compressed()로 저장된 압축된 *.npz 파일을 배열러 불러오기

In [15]: x = np.arange([0, 1, 2, 3, 4])

In [16]: y = np.array([5, 6, 7, 8, 9])

In [17]: np.savez_compressed('D:/admin/Documents/xy_savez_compress'

...: , x=x, y=y)

[ .npz 형식으로 압축되어 저장된 파일 ]

np.load() 함수로 불러오기를 하면 'numpy.lib.npyio.NpzFile' type 이며, [ ] 를 사용해서 배열을 indexing 할 수 있습니다. 사용을 끝냈으면 .close() 함수로 닫아줍니다.

In [18]: xy_savez_compress_load = np.load('D:/admin/Documents/xy_savez_compress.npz')

In [19]: type(xy_savez_compress_load)

Out[19]: numpy.lib.npyio.NpzFile

In [20]: xy_savez_compress_load['x']

Out[20]: array([0, 1, 2, 3, 4])

In [21]: xy_savez_compress_load['y']

Out[21]: array([5, 6, 7, 8, 9])

In [22]: xy_savez_compress_load.close()

> np.savetext() : 여러개의 배열을 텍스트 파일로 저장하기

> np.loadtext() : 텍스트 파일을 배열로 불러오기

header, footer 로 '#'으로 시작되는 부가설명을 추가할 수 있습니다.

fmt 로 포맷을 지정할 수 있습니다. 아래 예에서는 소수점 2자리까지만 고정된 자리수로 표현하도록 해보았습니다.

In [23]: x = np.array([0, 1, 2, 3, 4])

In [24]: y = np.array([5, 6, 7, 8, 9])

In [25]: np.savetxt('D:/admin/Documents/xy_savetxt.txt'

...: , (x, y) # x,y equal sized 1D arrays

...: , header='--xy save start--'

...: , footer='--xy save end--'

...: , fmt='%1.2f') # the second digit after the decimal point

[ Text file 로 저장된 배열 ]

np.loadtxt() 함수로 텍스트 파일을 배열로 불러올 수 있으며, ndarray type 으로 바로 불러오게 됩니다.

In [26]: xy_savetxt_load = np.loadtxt('D:/admin/Documents/xy_savetxt.txt')

In [27]: xy_savetxt_load

Out[27]:

array([[ 0., 1., 2., 3., 4.],

[ 5., 6., 7., 8., 9.]])

In [28]: type(xy_savetxt_load)

Out[28]: numpy.ndarray

2D array 도 텍스트 파일로 저장할 수 있습니다.

In [29]: x2 = np.arange(12).reshape(3, 4)

In [30]: x2

Out[30]:

array([[ 0, 1, 2, 3],

[ 4, 5, 6, 7],

[ 8, 9, 10, 11]])

In [31]: np.savetxt('D:/admin/Documents/x2_savetxt.txt'

...: , x2

...: , fmt='%1.2f')

[ Text 파일로 저장된 2D 배열 ]

np.loadtxt() 함수로 텍스트 파일을 배열로 불러올 수 있습니다. 원래의 x2 배열과 정확하게 동일하게 잘 불러왔습니다.

In [32]: x2_savetxt_load = np.loadtxt('D:/admin/Documents/x2_savetxt.txt')

In [33]: x2_savetxt_load

Out[33]:

array([[ 0., 1., 2., 3.],

[ 4., 5., 6., 7.],

[ 8., 9., 10., 11.]])

많은 도움이 되었기를 바랍니다.

728x90

저작자표시 비영리 변경금지

'Python 분석과 프로그래밍 > Python 데이터 전처리' 카테고리의 다른 글

[Python NumPy] 선형대수 함수 (Linear Algebra) (0)	2018.08.15
[Python] numpy 배열을 여러개의 하위 배열로 분할하기 (split an array into sub-arrays) (0)	2018.05.22
[Python] numpy array 정렬, 거꾸로 정렬, 다차원 배열 정렬 (2)	2018.05.18
[Python] numpy 최소, 최대, 조건 색인값 : np.argmin(), np.argmax(), np.where() (7)	2018.05.17
[Python] numpy 집합함수 (set functions) (0)	2018.05.17

Posted by Rfriend

,

[Python] numpy array 정렬, 거꾸로 정렬, 다차원 배열 정렬

Python 분석과 프로그래밍/Python 데이터 전처리 2018. 5. 18. 19:19

이번 포스팅에서는 Python numpy 배열을 정렬(array sorting)하는 방법에 대해서 소개하겠습니다.

- (1) 1차원 배열 정렬 : np.sort(x)

- (2) 1차원 배열 거꾸로 정렬 : np.sort(x)[::-1] , x[np.argsort(-x)]

- (3) 2차원 배열 열 축 기준으로 정렬 : np.sort(x, axis=1)

- (4) 2차원 배열 행 축 기준으로 정렬 : np.sort(x, axis=0)

- (5) 2차원 배열 행 축 기준으로 거꾸로 정렬 : np.sort(x, axis=0)[::-1]

[ Python Numpy 배열 정렬: np.sort() ]

(1) 1차원 배열 정렬 : np.sort(x)

In [1]: import numpy as np

In [2]: x = np.array([4, 2, 6, 5, 1, 3, 0])

In [3]: np.sort(x)

Out[3]: array([0, 1, 2, 3, 4, 5, 6])

참고로, np.sort(x) 메소드는 원래의 배열은 그대로 둔채로 정렬이 된 결과를 복사본으로 반환합니다.

반면에 x.sort() 메소드는 원래의 배열 자체를 정렬합니다.

np.sort(x)

=> 원래 배열은 그래로, 정렬 결과 복사본 반환

x.sort()

=> 배열 자체를 정렬

In [2]: x = np.array([4, 2, 6, 5, 1, 3, 0])

In [3]: np.sort(x)

Out[3]: array([0, 1, 2, 3, 4, 5, 6])

In [4]: x

Out[4]: array([4, 2, 6, 5, 1, 3, 0])

In [5]: x = np.array([4, 2, 6, 5, 1, 3, 0])

...:

In [6]: x.sort()

In [7]: x

Out[7]: array([0, 1, 2, 3, 4, 5, 6])

(2) 1차원 배열 거꾸로 정렬 : np.sort(x)[::-1] , x[np.argsort(-x)]

배열을 거꾸로 정렬하는 방법에는 2가지가 있습니다.

(2-1) np.sort(x)[::-1] : 정렬을 한 후 mirror view 생성

In [8]: x = np.array([4, 2, 6, 5, 1, 3, 0])

In [9]: x_reverse_1 = np.sort(x)[::-1] # mirror view

In [10]: x_reverse_1

Out[10]: array([6, 5, 4, 3, 2, 1, 0])

(2-2) x[np.argsort(-x)] : np.argsort() 로 index를 받아서 indexing 해오기

In [11]: x = np.array([4, 2, 6, 5, 1, 3, 0])

In [12]: x_reverse_2 = x[np.argsort(-x)] # copy of reversed sorting

In [13]: x_reverse_2

Out[13]: array([6, 5, 4, 3, 2, 1, 0])

(3) 2차원 배열 열 축 기준으로 정렬 (from left to right) : np.sort(x, axis=1)

'axis = 1' 옵션을 주면 열 축을 기준으로, 좌에서 우로 (from left to right) 정렬을 합니다.

이게 좀 헷갈릴 수 있는데요, 아래 예제로 확인해 보시기 바랍니다.

In [14]: x2 = np.array([[2, 1, 6],

...: [0, 7, 4],

...: [5, 3, 2]])

In [15]: x2_sort_axis_1 = np.sort(x2, axis=1) # default

In [16]: x2_sort_axis_1

Out[16]:

array([[1, 2, 6],

[0, 4, 7],

[2, 3, 5]])

(4) 2차원 배열 행 축 기준으로 정렬 (from top to bottom) : np.sort(x, axis=0)

In [17]: x2 = np.array([[2, 1, 6],

...: [0, 7, 4],

...: [5, 3, 2]])

In [18]: x2_sort_axis_0 = np.sort(x2, axis=0)

In [19]: x2_sort_axis_0

Out[19]:

array([[0, 1, 2],

[2, 3, 4],

[5, 7, 6]])

(5) 2차원 배열 열 축 기준으로 거꾸로 정렬 (from bottom to top, reversely)

: np.sort(x, axis=1)[::-1]

In [20]: x2 = np.array([[2, 1, 6],

...: [0, 7, 4],

...: [5, 3, 2]])

In [21]: x2_sort_axis_0_reverse = np.sort(x2, axis=0)[::-1]

In [22]: x2_sort_axis_0_reverse

Out[22]:

array([[5, 7, 6],

[2, 3, 4],

[0, 1, 2]])

참고로 Python

- (1) DataFrame 정렬 : DataFrame.sort_values()

- (2) Tuple 정렬 : sorted(tuple, key)

- (3) List 정렬 : list.sort(), sorted(list)

은 http://rfriend.tistory.com/281 을 참고하시기 바랍니다.

사전 자료형(Dictionary)의 키, 값 기준 정렬은 https://rfriend.tistory.com/473 를 참고하세요.

데이터 형태마다 정렬 함수, 메소드가 조금씩 달라서 매번 헷갈리곤 합니다. ㅜ_ㅜ

많은 도움 되었기를 바랍니다.

728x90

저작자표시 비영리 변경금지

'Python 분석과 프로그래밍 > Python 데이터 전처리' 카테고리의 다른 글

[Python] numpy 배열을 여러개의 하위 배열로 분할하기 (split an array into sub-arrays) (0)	2018.05.22
[Python] numpy 배열 외부 파일로 저장하기(save), 외부 파일을 배열로 불러오기(load) (4)	2018.05.21
[Python] numpy 최소, 최대, 조건 색인값 : np.argmin(), np.argmax(), np.where() (7)	2018.05.17
[Python] numpy 집합함수 (set functions) (0)	2018.05.17
[Python NumPy] 배열을 옆으로, 위 아래로 붙이기 : np.r_, np.c_, np.hstack(), np.vstack(), np.column_stack(), np.concatenate(axis=0), np.concatenate(axis=1) (6)	2018.04.14

Posted by Rfriend

,

[Python] numpy 최소, 최대, 조건 색인값 : np.argmin(), np.argmax(), np.where()

Python 분석과 프로그래밍/Python 데이터 전처리 2018. 5. 17. 13:54

이번 포스팅에서는 Python numpy 의 메소드, 함수 중에서

- 최소값, 최대값, 혹은 조건에 해당하는 색인(index) 값을 찾기

: np.argmin(), np.argmax(), np.where()

- 최소값, 최대값, 혹은 조건에 맞는 값 찾기

: np.min(), np.max(), x[np.where()]

에 대해서 소개하겠습니다.

분석할 때 꽤 많이 사용되므로 기억해두시면 좋겠습니다.

(1) 최소값(min), 최대값(max): np.min(), np.max()

x.min(), np.min(x), min(x) 모두 동일한 결과를 반환합니다.

In [1]: import numpy as np

In [2]: x = np.array([5, 4, 3, 2, 1, 0])

In [3]: x.min()

Out[3]: 0

In [4]: np.min(x)

Out[4]: 0

In [5]: x.max()

Out[5]: 5

In [6]: np.max(x)

Out[6]: 5

(2) 최소값, 최대값의 색인 위치: np.argmin(), np.argmax()

In [7]: x.argmin()

Out[7]: 5

In [8]: np.argmin(x)

Out[8]: 5

In [9]: x.argmax()

Out[9]: 0

In [10]: np.argmax(x)

Out[10]: 0

(3) 조건에 맞는 값의 색인 위치: np.where()

배열에서 3과 같거나 큰 값을 가지는 색인의 위치를 알고 싶을 때,

In [11]: np.where(x >= 3)

Out[11]: (array([0, 1, 2], dtype=int64),)

(4) 조건에 맞는 값을 indexing 하기: x[np.where()]

배열에서 3과 같거나 큰 값을 indexing 하고 싶을 때,

In [12]: x[np.where(x >= 3)]

Out[12]: array([5, 4, 3])

(5) 조건에 맞는 값을 특정 다른 값으로 변환하기

: np.where(조건, 조건에 맞을 때 값, 조건과 다를 때 값)

배열의 값이 3과 같거나 크면 3으로 변환하고, 3보다 작으면 그대로 값을 유지하고 싶을 때,

(for loop & if else 조건문을 사용하는 것보다 수십배 빠르므로 매우 유용함)

In [13]: np.where(x >= 3, 3, x)

Out[13]: array([3, 3, 3, 2, 1, 0])

참고로, 위의 np.where를 사용한 배열 값 변환을 for loop & if else 조건문을 사용해서 써보면 아래와 같습니다. for loop은 데이터 사이즈가 커질 경우 속도가 매우 느려지므로, 위의 대용량 데이터는 벡터화된 연산을 하는 np.where() 함수 사용을 권합니다. .

In [14]: x_2 = []

...: for i in list(x):

...: if i >= 3:

...: x_2.append(3)

...: else:

...: x_2.append(i)

...:

In [15]: x_2 = np.asarray(x_2)

In [16]: type(x_2)

Out[16]: numpy.ndarray

In [17]: x_2

Out[17]: array([3, 3, 3, 2, 1, 0])

많은 도움이 되었기를 바랍니다.

728x90

저작자표시 비영리 변경금지

'Python 분석과 프로그래밍 > Python 데이터 전처리' 카테고리의 다른 글

[Python] numpy 배열 외부 파일로 저장하기(save), 외부 파일을 배열로 불러오기(load) (4)	2018.05.21
[Python] numpy array 정렬, 거꾸로 정렬, 다차원 배열 정렬 (2)	2018.05.18
[Python] numpy 집합함수 (set functions) (0)	2018.05.17
[Python NumPy] 배열을 옆으로, 위 아래로 붙이기 : np.r_, np.c_, np.hstack(), np.vstack(), np.column_stack(), np.concatenate(axis=0), np.concatenate(axis=1) (6)	2018.04.14
[Python NumPy] 다차원 배열을 1차원 배열로 평평하게 펴주는 ravel(), flatten() 함수 (0)	2018.02.18

Posted by Rfriend

,

[Python] numpy 집합함수 (set functions)

Python 분석과 프로그래밍/Python 데이터 전처리 2018. 5. 17. 11:24

이번 포스팅에서는 Python numpy 의 집합함수(set functions)에 대해서 알아보겠습니다.

한 개, 혹은 두 개의 1차원 ndarray 집합에 대해서

(1) unique(x) : 배열 내 중복된 원소 제거 후 유일한 원소를 정렬하여 반환
(2) intersect1d(x, y) : 두 개의 배열 x, y 의 교집합을 정렬하여 반환
(3) union1d(x, y) : 두 개의 배열 x, y의 합집합을 정렬하여 반환
(4) in1d(x, y) : 첫번째 배열 x가 두번째 배열 y의 원소를 포함하고 있는지 여부의 불리언 배열을 반환
(5) setdiff1d(x, y) : 첫번째 배열 x로 부터 두번째 배열 y를 뺀 차집합을 반환
(6) setxor1d(x, y) : 두 배열 x, y의 합집합에서 교집합을 뺀 대칭차집합을 반환

해주는 다양한 집합함수가 있습니다.

[ Python numpy 집합 함수 (set functions) ]

순서대로 예를 들어서 설명하겠습니다. 위의 벤다이어그램을 참고하시기 바랍니다.

(1) np.unique(x) : 배열 내 중복된 원소 제거 후 유일한 원소를 정렬하여 반환

In [1]: import numpy as np

In [2]: x = np.array([1, 2, 3, 1, 2, 4])

In [3]: np.unique(x)

Out[3]: array([1, 2, 3, 4])

참고로, pure python의 sorted(set(x)) 와 np.unique(x) 는 동일합니다.

In [4]: sorted(set(x))

Out[4]: [1, 2, 3, 4]

(2) np.intersect1d(x, y) : 두 개의 배열 x, y 의 교집합을 정렬하여 반환

In [5]: x = np.array([1, 2, 3, 4])

In [6]: y = np.array([3, 4, 6, 5])

In [7]: np.intersect1d(x, y)

Out[7]: array([3, 4])

(3) np.union1d(x, y) : 두 개의 배열 x, y의 합집합을 정렬하여 반환

In [8]: x = np.array([1, 2, 3, 4])

In [9]: y = np.array([3, 4, 6, 5])

In [10]: np.union1d(x, y)

Out[10]: array([1, 2, 3, 4, 5, 6])

(4) np.in1d(x, y) : 첫번째 배열이 두번째 배열의 원소를 포함하고 있는지 여부의

불리언 배열을 반환

In [11]: x = np.array([1, 2, 3, 4, 5, 6])

In [12]: y = np.array([2, 4])

In [13]: np.in1d(x, y)

Out[13]: array([False, True, False, True, False, False])

(5) np.setdiff1d(x, y) : 첫번째 배열 x로 부터 두번째 배열 y를 뺀 차집합을 반환

In [14]: x = np.array([1, 2, 3, 4])

In [15]: y = np.array([3, 4, 5, 6])

In [16]: np.setdiff1d(x, y)

Out[16]: array([1, 2])

(6) np.setxor1d(x, y) : 두 배열 x, y의 합집합에서 교집합을 뺀 대칭차집합을 반환

In [17]: x = np.array([1, 2, 3, 4])

In [18]: y = np.array([3, 4, 5, 6])

In [19]: np.setxor1d(x, y)

Out[19]: array([1, 2, 5, 6])

많은 도움이 되었기를 바랍니다.

728x90

저작자표시 비영리 변경금지

'Python 분석과 프로그래밍 > Python 데이터 전처리' 카테고리의 다른 글

[Python] numpy array 정렬, 거꾸로 정렬, 다차원 배열 정렬 (2)	2018.05.18
[Python] numpy 최소, 최대, 조건 색인값 : np.argmin(), np.argmax(), np.where() (7)	2018.05.17
[Python NumPy] 배열을 옆으로, 위 아래로 붙이기 : np.r_, np.c_, np.hstack(), np.vstack(), np.column_stack(), np.concatenate(axis=0), np.concatenate(axis=1) (6)	2018.04.14
[Python NumPy] 다차원 배열을 1차원 배열로 평평하게 펴주는 ravel(), flatten() 함수 (0)	2018.02.18
[Python NumPy] reshape에서 -1 은 무슨 의미인가? (reshape(-1, 1)) (17)	2018.01.25

Posted by Rfriend

,

[Python NumPy] 배열을 옆으로, 위 아래로 붙이기 : np.r_, np.c_, np.hstack(), np.vstack(), np.column_stack(), np.concatenate(axis=0), np.concatenate(axis=1)

Python 분석과 프로그래밍/Python 데이터 전처리 2018. 4. 14. 00:23

이번 포스팅에서는 Python의 numpy 라이브러리에 있는 함수들을 이용해서 두 개의 배열(array)을 옆으로 붙이기, 배열을 위 아래로 붙이기(concatenate) 하는 방법에 대해서 소개하겠습니다. 알아두면 편리하게 배열을 조작할 수 있는 유용한 함수들입니다.

(1) 두 배열을 왼쪽에서 오른쪽으로 붙이기

: np.r_[a, b]

: np.hstack([a, b])
: np.concatenate((a, b), axis = 0)

(2) 두 배열을 위에서 아래로 붙이기

: np.r_[[a], [b]]

: np.vstack([a, b])

: np.concatenate((c, d), axis = 1) # for 2D ~ array

(3) 두 개의 1차원 배열을 칼럼으로 세로로 붙여서 2차원 배열 만들기

(Stack 1-D arrays as columns into a 2-D array)

: np.c_[a, b]

: np.column_stack([a, b])

: np.concatenate((c.T, d.T), axis = 1) # for 2D~ array

[ 배열을 옆으로, 위 아래로 붙이기 : np.r_, np.c_, np.hstack(), np.vstack(), np.column_stack(), np.concatenate(axis=0), np.concatenate(axis=1) ]

처음에 np.r_[a, b], np.c_[a, b] 코드를 봤을 때 '이게 뭐지?', '잘못 타이핑한거 아닌가?', '쓰다 말았나?' 하고 갸우뚱 했던 기억이 납니다. ^^;

아래에 간단한 예를 들어서 설명하겠습니다.

np.r_[], np.c_[] 는 코드가 완전 간단한 장점이 있구요, np.hstack(), np.vstack(), np.column_stack() 는 코드 이해가 쉬운 장점이 있는데요, 코드 작성하시는 분의 선호도에 따라 골라 쓰시면 되겠습니다.

먼저 numpy 라이브러리 importing 한 후에 a, b 두 개의 예제 배열(array)을 만들겠습니다.

In [1]: import numpy as np

In [2]: a = np.array([1, 2, 3])

In [3]: b = np.array([4, 5, 6])

(1) 두 배열을 왼쪽에서 오른쪽으로 붙이기

: np.r_[a, b] <- ( ) 를 사용하지 않고 [ ] 를 사용하는 것에 주의하세요

: np.hstack([a, b])
: np.concatenate((a, b), axis=0)

In [4]: np.r_[a, b]

Out[4]: array([1, 2, 3, 4, 5, 6])

In [7]: np.hstack([a, b])

Out[7]: array([1, 2, 3, 4, 5, 6])

In [23]: np.concatenate((a, b), axis = 0)

Out[23]: array([1, 2, 3, 4, 5, 6])

(2) 두 배열을 위에서 아래로 붙이기

: np.r_[[a], [b]] <- a, b 배열을 [ ]을 사용해서 1-D 배열로 만든거 주의하세요

: np.vstack([a, b])
: np.concatenate((c, d), axis = 1) <- 1D 배열은 "AxisError: axis 1 is out of bounds for array of dimension 1"라는 AxisError가 나네요. 2D 이상 배열은 에러 없이 잘 되구요.

In [5]: np.r_[[a], [b]]

Out[5]:

array([[1, 2, 3],

[4, 5, 6]])

In [8]: np.vstack([a, b])

Out[8]:

array([[1, 2, 3],

[4, 5, 6]])

In [27]: c = np.array([[0, 1, 2], [3, 4, 5,]])

...: d = np.array([[6, 7, 8], [9, 10, 11]])

In [28]: np.concatenate((c, d), axis = 1) # for 2D~ array

Out[28]:

array([[ 0, 1, 2, 6, 7, 8],

[ 3, 4, 5, 9, 10, 11]])

(3) 두 개의 1차원 배열을 칼럼으로 세로로 붙여서 2차원 배열 만들기

(Stack 1-D arrays as columns into a 2-D array)

: np.c_[a, b]

: np.column_stack([a, b])

: np.concatenate((c.T, d.T), axis = 1) # for 2D~ array

In [6]: np.c_[a, b]

Out[6]:

array([[1, 4],

[2, 5],

[3, 6]])

In [9]: np.column_stack([a, b])

Out[9]:

array([[1, 4],

[2, 5],

[3, 6]])

np.concatenate(axis=1) 은 1D array 로 하면 AxisError 가 납니다. 2D array 이상에 대해서 사용하세요.

In [27]: c = np.array([[0, 1, 2], [3, 4, 5,]])

...: d = np.array([[6, 7, 8], [9, 10, 11]])

In [29]: np.concatenate((c.T, d.T), axis = 1)

Out[29]:

array([[ 0, 3, 6, 9],

[ 1, 4, 7, 10],

[ 2, 5, 8, 11]])

많은 도움이 되었기를 바랍니다.

이번 포스팅이 도움이 되셨다면 아래의 '공감~'를 꾸욱 눌러주세요. ^^

728x90

저작자표시 비영리 변경금지

'Python 분석과 프로그래밍 > Python 데이터 전처리' 카테고리의 다른 글

[Python] numpy 최소, 최대, 조건 색인값 : np.argmin(), np.argmax(), np.where() (7)	2018.05.17
[Python] numpy 집합함수 (set functions) (0)	2018.05.17
[Python NumPy] 다차원 배열을 1차원 배열로 평평하게 펴주는 ravel(), flatten() 함수 (0)	2018.02.18
[Python NumPy] reshape에서 -1 은 무슨 의미인가? (reshape(-1, 1)) (17)	2018.01.25
[Python NumPy] 절대값 함수 np.abs(x), 부호 판별 함수 np.sign(x)를 이용해서 특이값(Outlier) 찾고 다른 값으로 대체하기 (0)	2017.04.17

Posted by Rfriend

,

[Python NumPy] 다차원 배열을 1차원 배열로 평평하게 펴주는 ravel(), flatten() 함수

Python 분석과 프로그래밍/Python 데이터 전처리 2018. 2. 18. 00:59

이번 포스팅에서는 파이썬에서 다차원 배열(array)을 1차원 배열로 평평하게 펴주는 NumPy의 ravel() 함수, flatten() 함수에 대해서 알아보겠습니다.

1차원 배열을 다차원 배열로 재구성/재배열 해주는 NumPy의 reshape() 함수와 반대의 기능을 하는 함수가 ravel(), flatten() 함수라고 보시면 되겠습니다.

기계학습 알고리즘 학습하다보면 가끔씩 ravel() 함수가 나오는데요, 이참에 order 옵션 'C', 'F', 'K' 별 기능에 대해서도 정리해서 알아두면 좋을 듯 합니다.

[ Python NumPy ravel() 함수 vs. reshape() 함수 ]

-- 2차원 배열 --

먼저 0 ~ 11 까지의 12개의 원소로 이루어진 3 x 4 배열을 만들어 보겠습니다.

In [1]: import numpy as np

...: x = np.arange(12).reshape(3, 4)

...: x

...:

Out[1]:

array([[ 0, 1, 2, 3],

[ 4, 5, 6, 7],

[ 8, 9, 10, 11]])

위에서 만든 2차원 배열에 대해서 order='C', order='F', order='k'별로 순서대로 위의 배열 3*4 배열 x가 어떤 순서대로 평평하게 펴지는지 예제로 살펴보겠습니다.

(1) np.ravel(x, order='C') : C와 같은 순서로 인덱싱하여 평평하게 배열 (디폴트)

In [2]: np.ravel(x, order='C') # by default

...:

Out[2]: array([ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11])

(2) np.ravel(x, order='F') : Fortran과 같은 순서로 인덱싱하여 평평하게 배열

In [3]: np.ravel(x, order='F')

...:

Out[3]: array([ 0, 4, 8, 1, 5, 9, 2, 6, 10, 3, 7, 11])

(3) np.ravel(x, order='K') : 메모리에서 발생하는 순서대로 인덱싱하여 평평하게 배열

In [4]: np.ravel(x, order='K')

...:

Out[4]: array([ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11])

-- 3차원 배열 --

3차원 이상의 배열에 대해서도 ravel() 함수를 사용해서 1차원 배열로 평평하게 펼 수가 있습니다. 이때 order 매개변수를 설정해줄 때 조금 주의가 필요합니다. 아래에 2*3*2 의 3차원 배열에 대해서 축이 어떻게 설정되어있느냐(배열 순서가 어떤가)에 따라서 order='C'와 order='K'를 선택해서 사용하면 되겠습니다.

(4) np.raver(y, order='C') : 3차원 배열의 평평하게 펴기

In [5]: y = np.arange(12).reshape(2, 3, 2)

...: y

Out[5]:

array([[[ 0, 1],

[ 2, 3],

[ 4, 5]],

[[ 6, 7],

[ 8, 9],

[10, 11]]])

In [6]: np.ravel(y, order='C')

...:

Out[6]: array([ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11])

(5) np.ravel(z, order='K') : 축이 바뀐 3차원 배열을 평평하게 펴기

In [7]: z = np.arange(12).reshape(2, 3, 2).swapaxes(1, 2)

In [8]: z

Out[8]:

array([[[ 0, 2, 4],

[ 1, 3, 5]],

[[ 6, 8, 10],

[ 7, 9, 11]]])

In [9]: np.ravel(z, order='K')

...:

Out[9]: array([ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11])

이상으로 다차원 배열을 1차원 배열로 평평하게 펴주는 numpy.ravel(a, order='C', 'F', 'K') 함수에 대해서 알아보았습니다.

많은 도움이 되었기를 바랍니다.

이번 포스팅이 도움이 되었다면 아래의 '공감~'를 꾸욱 눌러주세요. ^^

728x90

저작자표시 비영리 변경금지

'Python 분석과 프로그래밍 > Python 데이터 전처리' 카테고리의 다른 글

[Python] numpy 집합함수 (set functions) (0)	2018.05.17
[Python NumPy] 배열을 옆으로, 위 아래로 붙이기 : np.r_, np.c_, np.hstack(), np.vstack(), np.column_stack(), np.concatenate(axis=0), np.concatenate(axis=1) (6)	2018.04.14
[Python NumPy] reshape에서 -1 은 무슨 의미인가? (reshape(-1, 1)) (17)	2018.01.25
[Python NumPy] 절대값 함수 np.abs(x), 부호 판별 함수 np.sign(x)를 이용해서 특이값(Outlier) 찾고 다른 값으로 대체하기 (0)	2017.04.17
[Python NumPy] 범용 함수(Universal Functions) : (1-6) 단일 배열 unary ufuncs : 논리형 함수(Logical function) (0)	2017.03.22

Posted by Rfriend

,

[Python NumPy] reshape에서 -1 은 무슨 의미인가? (reshape(-1, 1))

Python 분석과 프로그래밍/Python 데이터 전처리 2018. 1. 25. 23:56

파이썬 NumPy 에서 배열의 차원(Dimension)을 재구조화, 변경하고자 할 때 reshape() 메소드를 사용합니다. 가령, 3개의 행과 4개의 열로 구성된 2차원의 배열로 재설정하고 싶으면 reshape(3, 4) 처럼 reshape()의 매개변수로 변경하고자 하는 배열의 행과 열의 차원을 정수로 입력해주면 됩니다.

그런데 reshape(-1, 2) 혹은 reshape(3, -1) 처럼 reshape() 메소드 안에 '-1'이 들어가 있는 경우가 있습니다. 이때 reshape()의 '-1'이 의미하는 바는, 변경된 배열의 '-1' 위치의 차원은 "원래 배열의 길이와 남은 차원으로 부터 추정"이 된다는 뜻입니다. (One shape dimension can be -1. In this case, the value is inferred from the length of the array and remaining dimensions.)

말이 좀 어렵고, 금방 이해하기가 쉽지 않은데요, ^^; 아래에 간단한 예를 들어서 설명해보겠습니다.

먼저 NumPy 라이브러리를 import 하고 3x4 차원의 예제 배열을 만들어보겠습니다.

(우리가 일상적으로 사용하는 reshape() 의 사용 예제)

In [1]: import numpy as np

In [2]: x = np.arange(12).reshape(3, 4)

In [3]: x.shape

Out[3]: (3, 4)

In [4]: x

Out[4]:

array([[ 0, 1, 2, 3],

[ 4, 5, 6, 7],

[ 8, 9, 10, 11]])

(1) reshape(-1, 정수) 의 행(row) 위치에 '-1'이 들어있을 경우

이제 reshape() 의 행(row) 차원 위치에 '-1'을 넣으면 어떻게 재구조화가 되는지 살펴보겠습니다.

총 12개의 원소가 들어있는 배열 x에 대해서 x.reshape(-1, 정수) 를 해주면 '열(column)' 차원의 '정수'에 따라서 12개의 원소가 빠짐없이 배치될 수 있도록 '-1'이 들어가 있는 '행(row)' 의 개수가 가변적으로 정해짐을 알 수 있습니다.

x.reshape(-1, 1)

=> shape(12,1)

x.reshape(-1, 2)

=> shape(6, 2)

x.reshape(-1, 3)

=> shape(4, 3)

x.reshape(-1, 4)

=> shape(3, 4)

In [5]: x.reshape(-1, 1)

Out[5]:

array([[ 0],

[ 1],

[ 2],

[ 3],

[ 4],

[ 5],

[ 6],

[ 7],

[ 8],

[ 9],

[10],

[11]])

In [6]: x.reshape(-1, 2)

Out[6]:

array([[ 0, 1],

[ 2, 3],

[ 4, 5],

[ 6, 7],

[ 8, 9],

[10, 11]])

In [7]: x.reshape(-1, 3)

Out[7]:

array([[ 0, 1, 2],

[ 3, 4, 5],

[ 6, 7, 8],

[ 9, 10, 11]])

In [8]: x.reshape(-1, 4)

Out[8]:

array([[ 0, 1, 2, 3],

[ 4, 5, 6, 7],

[ 8, 9, 10, 11]])

(2) reshape(정수, -1) 의 열(column) 위치에 '-1'이 들어있을 경우

다음으로 reshape()의 열(column) 위치에 '-1'을 넣으면 어떻게 재구조화되는지 살펴보겠습니다.

x의 총 원소 12개가 모두 배열될 수 있도록 행(row)의 정수가 정해지면, 이에 따라서 '-1'이 들어있는 열(column)의 개수가 정해짐을 알 수 있습니다.

즉, 행이나 열의 특정 차원을 기준으로 재배열하고 싶은 행이나 열의 개수가 있으면 나머지 차원의 개수는 '-1'로 해두면 알아서 자동으로 재배열을 해주니 편리한 기능이라고 하겠습니다.

x.reshape(1, -1)

=> shape(1, 12)

In [9]: x.reshape(1, -1)

Out[9]: array([[ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]])

x.reshape(2, -1)

=> shape(2, 6)

In [10]: x.reshape(2, -1)

Out[10]:

array([[ 0, 1, 2, 3, 4, 5],

[ 6, 7, 8, 9, 10, 11]])

x.reshape(3, -1)

=> shape(3, 4)

In [11]: x.reshape(3, -1)

Out[11]:

array([[ 0, 1, 2, 3],

[ 4, 5, 6, 7],

[ 8, 9, 10, 11]])

x.reshape(4, -1)

=> shape(4, 3)

In [12]: x.reshape(4, -1)

Out[12]:

array([[ 0, 1, 2],

[ 3, 4, 5],

[ 6, 7, 8],

[ 9, 10, 11]])

(3) reshape(-1) 인 경우

x.reshape(-1)은 x.reshape(1, -1)과 같이 1차원 배열을 반환합니다.

x.reshape(-1)

In [13]: x.reshape(-1)

Out[13]: array([ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11])

x.reshape(1, -1)

x.reshape(1, -1)

Out[14]: array([[ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]])

(4) ValueError: cannot reshape array of size 12 into shape (5)

reshape(-1, 정수) 또는 reshape(정수, -1) 메소드가 제대로 작동하기 위해서는 한가지 조건이 있는데요, 원래의 배열에 있는 원소가 재구조화 혹은 재배열 되려는 배열의 차원에 빠짐없이 분배가 될 수 있어야 한다는 점입니다.

가령, 위의 (1), (2), (3)번 예에서는 12개의 원소로 구성된 x배열을 (1, 12), (2, 6), (3, 4), (4, 3) 으로 재배열했었습니다. 하지만 아래의 ValueError 가 난 것처럼 12개의 원소로 구성된 원래의 배열 x에 대해 x.reshape(-1, 5) 혹은 x.reshape(7, -1) 로 재구조화하려고 하면 서로 호환이 안되기 때문에 ValueError가 난 것입니다.

In [15]: x.reshape(-1, 5)

Traceback (most recent call last):

File "<ipython-input-15-3341ca33497d>", line 1, in <module>

x.reshape(-1, 5)

ValueError: cannot reshape array of size 12 into shape (5)

In [16]: x.reshape(7, -1)

Traceback (most recent call last):

File "<ipython-input-16-c8e97ae7c9bc>", line 1, in <module>

x.reshape(7, -1)

ValueError: cannot reshape array of size 12 into shape (7,newaxis)

(5) ValueError: can only specify one unknown dimension

reshape(-1, -1)은 행, 열 어느 차원도 정해주지 않았으므로 ValueError 가 발생합니다.

In [17]: x.reshape(-1, -1)

Traceback (most recent call last):

File "<ipython-input-17-8142d87a8f95>", line 1, in <module>

x.reshape(-1, -1)

ValueError: can only specify one unknown dimension

많은 도움이 되었기를 바랍니다.

이번 포스팅이 도움이 되었다면 아래의 '공감~'를 꾹 눌러주세요. ^^

728x90

저작자표시 비영리 변경금지

'Python 분석과 프로그래밍 > Python 데이터 전처리' 카테고리의 다른 글

[Python NumPy] 배열을 옆으로, 위 아래로 붙이기 : np.r_, np.c_, np.hstack(), np.vstack(), np.column_stack(), np.concatenate(axis=0), np.concatenate(axis=1) (6)	2018.04.14
[Python NumPy] 다차원 배열을 1차원 배열로 평평하게 펴주는 ravel(), flatten() 함수 (0)	2018.02.18
[Python NumPy] 절대값 함수 np.abs(x), 부호 판별 함수 np.sign(x)를 이용해서 특이값(Outlier) 찾고 다른 값으로 대체하기 (0)	2017.04.17
[Python NumPy] 범용 함수(Universal Functions) : (1-6) 단일 배열 unary ufuncs : 논리형 함수(Logical function) (0)	2017.03.22
[Python NumPy] 범용 함수 (universal functions) : (1-5) 단일 배열 unary ufuncs : 절대값, 제곱근, 제곱값, 정수와 소수점 분리, 부호 함수 (0)	2017.03.21

Posted by Rfriend

,

[Python NumPy] 절대값 함수 np.abs(x), 부호 판별 함수 np.sign(x)를 이용해서 특이값(Outlier) 찾고 다른 값으로 대체하기

Python 분석과 프로그래밍/Python 데이터 전처리 2017. 4. 17. 23:59

그동안 Python NumPy의 단일 배열 unary ufuncs 에 대해서 알아보았습니다.

(http://rfriend.tistory.com/300, http://rfriend.tistory.com/301)

이번 포스팅에서는 그동안 배웠던 unary ufuncs 들을 요리조리 조합하고 응용하는 한가지 예를 들어보겠습니다.

- 절대값을 구하는 함수 np.abs(x)

- 배열 원소의 부호를 판별하는 np.sign(x) 함수

- 배열의 1개 이상의 원소가 참(True) 인지 평가하는 np.any(x) 함수

를 이용해서 특이값, 이상치(outlier)를 탐색하고, indexing해서 다른 값으로 대체하는 방법을 소개하겠습니다.

먼저 numpy, pandas, matplotlib.pyplot 모듈을 불러오고, 평균이 0, 표준편차가 1인 정규분포로 부터 난수 10,000만개를 생성해보겠습니다.

In [1]: import numpy as np

...: import pandas as pd

...: import matplotlib.pyplot as plt

...:

In [2]: np.set_printoptions(precision=2)

...:

...: # setting random seed number

...: np.random.seed(10)

...:

...: # random number 10000 ~ N(0, 1)

...: mu, sigma = 0, 1

...: x = pd.DataFrame(mu + sigma*np.random.randn(10000))

다음으로 dexcribe() 메서드를 사용해서 x의 기술통계량을 알아보고, 히스토그램으로 분포를 살펴보겠습니다. min과 max 값을 보면 평균 0을 중심으로 해서 -3 (-3 sigma)과 +3 (+3 sigma)을 벗어나는 관측치가 있음을 알 수 있습니다.

# checking descriptive statistics and histogram

In [3]: x.describe()

Out[3]:

0

count 10000.000000

mean 0.005102

std 0.989713

min -3.621639

25% -0.652208

50% 0.013111

75% 0.675040

max 3.691489

In [4]: plt.hist(x)

Out[4]:

(array([ 15., 139., 583., 1626., 2733., 2679., 1606., 497.,

107., 15.]),

array([-3.62, -2.89, -2.16, ..., 2.23, 2.96, 3.69]),

<a list of 10 Patch objects>)

정규분포를 띠는 데이터셋의 경우 평균으로 부터 +3 sigma, -3 sigma 를 벗어나는 데이터의 경우 전체 데이터셋 중 99%가 존재하는 구간을 벗어나는 특이값, 이상값(outlier)로 간주할 수 있습니다.

이번 예제에서 x는 평균이 '0'이고 표준편차가 '1'인 정규분포를 따르므로, np.abs(x)와 any(1) 함수를 조합해서 사용하면 1만개의 관측치를 가지는 x로부터 +- 3 sigma를 벗어나는 특이값만 쏙 빼올 수 있습니다. count() 메소드로 특이값 개수도 세볼 수 있구요.

# indexing outlier rows over mu + 3sigma, less mu - 3 sigma

In [5]: x[(np.abs(x) > 3).any(1)]

...:

Out[5]:

0

412 -3.204401

1036 -3.317669

1558 -3.112645

2190 3.609161

3948 3.454845

4912 -3.372347

5016 -3.393109

5158 3.193371

5618 3.177053

5750 3.158873

6135 3.077068

6303 3.142285

6689 -3.621639

6760 3.027240

6986 -3.303552

7353 -3.214030

7892 3.561219

8281 3.691489

9179 3.286370

9335 3.503309

# counting the number of outliers

In [6]: x[(np.abs(x) > 3).any(1)].count()

Out[6]:

0 20

dtype: int64

이번에는 np.sign(x) 함수를 곁들여 사용하여 +- 3 sigma를 벗어나는 관측치값을 모두 +-3 으로 대체해보겠습니다. (즉, +3 sigma보다 큰 특이값은 +3으로 대체, -3 sigma 보다 작은 특이값은 -3으로 대체)

x.describe()로 요약통계량을 살펴보니 min -3, max 3으로 바뀌었지요? 히스토그램도 -3 ~ +3 까지 분포로 바뀌었구요.

In [7]: x[np.abs(x) > 3] = np.sign(x)*3

In [8]: x[(np.abs(x) >= 3).any(1)]

Out[8]:

0

412 -3.0

1036 -3.0

1558 -3.0

2190 3.0

3948 3.0

4912 -3.0

5016 -3.0

5158 3.0

5618 3.0

5750 3.0

6135 3.0

6303 3.0

6689 -3.0

6760 3.0

6986 -3.0

7353 -3.0

7892 3.0

8281 3.0

9179 3.0

9335 3.0

In [9]: x.describe()

Out[9]:

0

count 10000.000000

mean 0.004968

std 0.987624

min -3.000000

25% -0.652208

50% 0.013111

75% 0.675040

max 3.000000

In [10]: plt.hist(x)

Out[10]:

(array([ 76., 292., 755., 1554., 2269., 2299., 1648., 762.,

277., 68.]),

array([-3. , -2.4, -1.8, ..., 1.8, 2.4, 3. ]),

<a list of 10 Patch objects>)

통계 분포 방법 외에 특이값 찾는 방법이 서너가지 더 있는데요, 그건 다음번에 기회 될 때 별도로 포스팅을 하겠습니다. (언제가 될지는 기약 못하겠네요. ^^;)

많은 도움 되었기를 바랍니다.

728x90

저작자표시 비영리 변경금지

'Python 분석과 프로그래밍 > Python 데이터 전처리' 카테고리의 다른 글

[Python NumPy] 다차원 배열을 1차원 배열로 평평하게 펴주는 ravel(), flatten() 함수 (0)	2018.02.18
[Python NumPy] reshape에서 -1 은 무슨 의미인가? (reshape(-1, 1)) (17)	2018.01.25
[Python NumPy] 범용 함수(Universal Functions) : (1-6) 단일 배열 unary ufuncs : 논리형 함수(Logical function) (0)	2017.03.22
[Python NumPy] 범용 함수 (universal functions) : (1-5) 단일 배열 unary ufuncs : 절대값, 제곱근, 제곱값, 정수와 소수점 분리, 부호 함수 (0)	2017.03.21
[Python NumPy] 범용 함수(universal function) : (1-4) 삼각함수(trigonometric functions) (0)	2017.03.13

Posted by Rfriend

,

[Python NumPy] 범용 함수(Universal Functions) : (1-6) 단일 배열 unary ufuncs : 논리형 함수(Logical function)

Python 분석과 프로그래밍/Python 데이터 전처리 2017. 3. 22. 00:14

이전 포스팅에서는

- 범용함수(universal function, ufuncs)의 정의 및 유형

(1) 1개의 배열에 대한 ufuncs (Unary universal functions) 중에서

- (1-1) 올림 및 내림 범용 함수 (rounding ufuncs)
- (1-2) 합(sums), 곱(products), 차분(difference), 기울기(gradient) 범용함수
- (1-3) 지수함수(exponential function), 로그함수 (logarithmic function)

- (1-4) 삼각함수(trigonometric functions)

- (1-5) 절대값(absolute), 제곱근(square root), 제곱값(square), 정수와 소수점 값 분리(integral and fractional parts), 부호(sign) 판별 함수

등에 대해서 알아보겠습니다.

이번 포스팅에서는 (1-6) 1개 배열 대상의 논리 범용 함수(Logic Unary ufuncs) 에 대해서 알아보겠습니다. 논리 함수(logic functions)는 참(True) 또는 거짓(False)의 boolean 값을 반환합니다.

(1-6-1) 배열의 원소에 대한 논리 함수 (logic functions for array contents)

(1-6-1-1) 배열에 NaN(Not a Number) 포함 여부 확인 함수 : np.isnan(x)

# isnan : Test element-wise for NaN(Not a Number) and return result as a boolean array

In [1]: import numpy as np

In [2]: a = np.array([0, 1, 2, np.nan, 4, np.inf, np.NINF, np.PINF])

In [3]: a

Out[3]: array([ 0., 1., 2., nan, 4., inf, -inf, inf])

In [4]: np.isnan(a)

Out[4]: array([False, False, False, True, False, False, False, False], dtype=bool)

(1-6-1-2) 배열에 유한수(finite number) 포함 여부 확인 함수 : np.isfinite(x)

# isfinite : Test element-wise for finiteness (not infinity or not Not a Number)

In [5]: a

Out[5]: array([ 0., 1., 2., nan, 4., inf, -inf, inf])

In [6]: np.isfinite(a)

Out[6]: array([ True, True, True, False, True, False, False, False], dtype=bool)

(1-6-1-3) 배열에 무한수(infinite number) 포함 여부 확인 함수 : np.isinf(x)

# isinf : Test element-wise for positive or negative infinity

In [7]: a

Out[7]: array([ 0., 1., 2., nan, 4., inf, -inf, inf])

In [8]: np.isinf(a)

Out[8]: array([False, False, False, False, False, True, True, True], dtype=bool)

(1-6-1-4) 배열에 음의 무한수 포함 여부 : np.isneginf(x)

# isneginf : Test element-wise for negative infinity, return result as bool array

In [9]: a

Out[9]: array([ 0., 1., 2., nan, 4., inf, -inf, inf])

In [10]: np.isneginf(a)

Out[10]: array([False, False, False, False, False, False, True, False], dtype=bool)

(1-6-1-5) 배열에 양의 무한수 포함 여부 확인 함수 : np.isposinf(x)

# isposinf : Test element-wise for positive infinity, return result as bool arry

In [11]: a

Out[11]: array([ 0., 1., 2., nan, 4., inf, -inf, inf])

In [12]: np.isposinf(a)

Out[12]: array([False, False, False, False, False, True, False, True], dtype=bool)

(1-6-2) 참 확인 논리 함수 (Logic functions for truth value testing)

(1-6-2-1) 배열의 모든 원소가 참(True) 인지 평가하는 함수 : np.all()

축(no axis, axis=0, axis=1) 에 따라서 어떻게 참(True) 여부를 평가하는지 유심히 보시기 바랍니다.

# np.all() : Test whether all array elements along a given axis evaluate to True

In [13]: np.all([[True,False],[True,True]])

Out[13]: False

In [14]: np.all([[True,False],[True,True]], axis=0)

Out[14]: array([ True, False], dtype=bool)

In [15]: np.all([[True,False],[True,True]], axis=1)

Out[15]: array([False, True], dtype=bool)

(1-6-2-2) 배열의 1개 이상의 원소가 참(True) 인지 평가하는 함수 : np.any()

# np.any() : Test whether any array elements along a given axis evaluate to True

In [16]: np.any([[True,False],[True,True]])

Out[16]: True

In [17]: np.any([[True,False],[True,True]], axis=0)

Out[17]: array([ True, True], dtype=bool)

In [18]: np.any([[True,False],[True,True]], axis=1)

Out[18]: array([ True, True], dtype=bool)

In [21]: np.any([[False,False],[True,True]], axis=0)

Out[21]: array([ True, True], dtype=bool)

In [22]: np.any([[False,False],[True,True]], axis=1)

Out[22]: array([False, True], dtype=bool)

(1-6-3) 단일 배열 원소에 대한 논리 연산(Logical operations)을 위한 논리 함수

(1-6-3-1) 배열 원소가 조건을 만족하지 않는 경우 참 반환 : np.logical_not(condition)

# logical_not : Compute the truth value of NOT x element-wise, equivalent to -x

In [23]: b = np.array([0, 1, 2, 3, 4])

In [24]: np.logical_not( b <= 2 )

Out[24]: array([False, False, False, True, True], dtype=bool)

2개 배열 간 함수인 Binary Universal Unfctions(Ufuncs) 소개는 http://rfriend.tistory.com/286 를 참고하시기 바랍니다.

많은 도움 되었기를 바랍니다.

728x90

저작자표시 비영리 변경금지

'Python 분석과 프로그래밍 > Python 데이터 전처리' 카테고리의 다른 글

[Python NumPy] reshape에서 -1 은 무슨 의미인가? (reshape(-1, 1)) (17)	2018.01.25
[Python NumPy] 절대값 함수 np.abs(x), 부호 판별 함수 np.sign(x)를 이용해서 특이값(Outlier) 찾고 다른 값으로 대체하기 (0)	2017.04.17
[Python NumPy] 범용 함수 (universal functions) : (1-5) 단일 배열 unary ufuncs : 절대값, 제곱근, 제곱값, 정수와 소수점 분리, 부호 함수 (0)	2017.03.21
[Python NumPy] 범용 함수(universal function) : (1-4) 삼각함수(trigonometric functions) (0)	2017.03.13
[Python NumPy] 범용 함수(universal function) : (1-3) 지수함수(exponential function), 로그함수(logarithmic function) (3)	2017.03.12

Posted by Rfriend

,

R, Python 분석과 프로그래밍의 친구 (by R Friend)

'Python 분석과 프로그래밍/Python 데이터 전처리'에 해당되는 글 157건

[Python] numpy 배열을 여러개의 하위 배열로 분할하기 (split an array into sub-arrays)

'Python 분석과 프로그래밍 > Python 데이터 전처리' 카테고리의 다른 글

[Python] numpy 배열 외부 파일로 저장하기(save), 외부 파일을 배열로 불러오기(load)

'Python 분석과 프로그래밍 > Python 데이터 전처리' 카테고리의 다른 글

[Python] numpy array 정렬, 거꾸로 정렬, 다차원 배열 정렬

'Python 분석과 프로그래밍 > Python 데이터 전처리' 카테고리의 다른 글

[Python] numpy 최소, 최대, 조건 색인값 : np.argmin(), np.argmax(), np.where()

'Python 분석과 프로그래밍 > Python 데이터 전처리' 카테고리의 다른 글

[Python] numpy 집합함수 (set functions)

'Python 분석과 프로그래밍 > Python 데이터 전처리' 카테고리의 다른 글

[Python NumPy] 배열을 옆으로, 위 아래로 붙이기 : np.r_, np.c_, np.hstack(), np.vstack(), np.column_stack(), np.concatenate(axis=0), np.concatenate(axis=1)

'Python 분석과 프로그래밍 > Python 데이터 전처리' 카테고리의 다른 글

[Python NumPy] 다차원 배열을 1차원 배열로 평평하게 펴주는 ravel(), flatten() 함수

'Python 분석과 프로그래밍 > Python 데이터 전처리' 카테고리의 다른 글

[Python NumPy] reshape에서 -1 은 무슨 의미인가? (reshape(-1, 1))

'Python 분석과 프로그래밍 > Python 데이터 전처리' 카테고리의 다른 글

[Python NumPy] 절대값 함수 np.abs(x), 부호 판별 함수 np.sign(x)를 이용해서 특이값(Outlier) 찾고 다른 값으로 대체하기

'Python 분석과 프로그래밍 > Python 데이터 전처리' 카테고리의 다른 글

[Python NumPy] 범용 함수(Universal Functions) : (1-6) 단일 배열 unary ufuncs : 논리형 함수(Logical function)

'Python 분석과 프로그래밍 > Python 데이터 전처리' 카테고리의 다른 글

카테고리

태그목록

티스토리툴바