R, Python 분석과 프로그래밍의 친구 (by R Friend)

[Python] numpy 배열 외부 파일로 저장하기(save), 외부 파일을 배열로 불러오기(load)

Python 분석과 프로그래밍/Python 데이터 전처리 2018. 5. 21. 23:33

이번 포스팅에서는 Python NumPy 배열(array) 데이터를 외부 파일로 저장(save)하는 방법, 외부 파일을 배열로 불러오는(load) 방법에 대해서 알아보겠습니다.

np.save() : 1개의 배열을 NumPy format의 바이너리 파일로 저장하기 (Save a single array to a binary file in NumPy format)
np.load() : np.save()로 저장된 *.npy 파일을 배열로 불러오기 (Open a *.npy file and load it as an array)

np.savez() : 여러개의 배열을 1개의 압축되지 않은 *.npz 포맷 파일로 저장하기 (Save several arrays into a single file in uncompressed .npz format)
np.load() : np.savez()로 저장된 *.npz 파일을 배열로 불러오기 (Open a *.npz file and load it as an array)

np.savez_compressed() : 여러개의 배열을 1개의 압축된 *.npz 포맷 파일로 저장하기 (Save several arrays into a single file in compressed .npz format)
np.load() : np.save_compressed()로 저장된 압축된 *.npz 파일을 배열러 불러오기 (Open a compressed *.npz file and load it as an array)

np.savetext() : 여러개의 배열을 텍스트 파일로 저장하기 (Save several array to a file as plain text)
np.loadtext() : 텍스트 파일을 배열로 불러오기 (Open a text file and load it as an array)

[ Python NumPy 배열을 파일로 저장하기(save), 불러오기(load) ]

하나씩 간단한 예를 들어서 설명하겠습니다.

> np.save() : 1개의 배열을 NumPy format의 바이너리 파일로 저장하기

> np.load() : np.save()로 저장된 *.npy 파일을 배열로 불러오기

In [1]: import numpy as np

In [2]: x = np.array([0, 1, 2, 3, 4])

# 배열을 저장하기

In [3]: np.save('D:/admin/Documents/x_save', x) # x_save.npy

[ .npy 형식으로 저장된 파일 ]

# 배열로 불러오기

In [4]: x_save_load = np.load('D:/admin/Documents/x_save.npy')

In [5]: x_save_load

Out[5]: array([0, 1, 2, 3, 4])

> np.savez() : 여러개의 배열을 1개의 압축되지 않은 *.npz 포맷 파일로 저장하기

> np.load() : np.savez()로 저장된 *.npz 파일을 배열로 불러오기

In [6]: x = np.array([0, 1, 2, 3, 4])

In [7]: y = np.array([5, 6, 7, 8, 9])

In [8]: np.savez('D:/admin/Documents/xy_savez'

...: , x=x, y=y) # 각 배열에 이름 부여

[ .npz 형식으로 저장된 파일 ]

np.load() 함수로 .npz 파일을 열어서 배열로 불러올 수 있습니다. 이때 불러온 파일의 type은 'numpy.lib.npyio.NpzFile' 이며, 개별 배열을 indexing 하려면 [ ] 를 사용합니다.

# 배열로 불러오기

In [9]: xy_savez_load = np.load('D:/admin/Documents/xy_savez.npz')

In [10]: type(xy_savez_load)

Out[10]: numpy.lib.npyio.NpzFile

In [11]: xy_savez_load['x']

Out[11]: array([0, 1, 2, 3, 4])

In [12]: xy_savez_load['y']

Out[12]: array([5, 6, 7, 8, 9])

np.load() 함수로 연 파일을 더이상 사용할 일이 없으면 메모리 효율 관리를 위해 file.close() 로 닫아주어야 합니다. .close() 로 파일을 닫은 상태에서 indexing 을 하려면 'NoneType' object has no attribute 'open' 에러가 납니다.

In [13]: xy_savez_load.close()

In [14]: xy_savez_load['x'] # AttributeError: 'NoneType' object has no attribute 'open'

Traceback (most recent call last):

File "<ipython-input-14-14d248a305d2>", line 1, in <module>

xy_savez_load['x'] # AttributeError: 'NoneType' object has no attribute 'open'

File "C:\Users\admin\Anaconda3\envs\py_v36\lib\site-packages\numpy\lib\npyio.py", line 226, in __getitem__

bytes = self.zip.open(key)

AttributeError: 'NoneType' object has no attribute 'open'

> np.savez_compressed() : 여러개의 배열을 1개의 압축된 *.npz 포맷 파일로 저장하기

> np.load() : np.save_compressed()로 저장된 압축된 *.npz 파일을 배열러 불러오기

In [15]: x = np.arange([0, 1, 2, 3, 4])

In [16]: y = np.array([5, 6, 7, 8, 9])

In [17]: np.savez_compressed('D:/admin/Documents/xy_savez_compress'

...: , x=x, y=y)

[ .npz 형식으로 압축되어 저장된 파일 ]

np.load() 함수로 불러오기를 하면 'numpy.lib.npyio.NpzFile' type 이며, [ ] 를 사용해서 배열을 indexing 할 수 있습니다. 사용을 끝냈으면 .close() 함수로 닫아줍니다.

In [18]: xy_savez_compress_load = np.load('D:/admin/Documents/xy_savez_compress.npz')

In [19]: type(xy_savez_compress_load)

Out[19]: numpy.lib.npyio.NpzFile

In [20]: xy_savez_compress_load['x']

Out[20]: array([0, 1, 2, 3, 4])

In [21]: xy_savez_compress_load['y']

Out[21]: array([5, 6, 7, 8, 9])

In [22]: xy_savez_compress_load.close()

> np.savetext() : 여러개의 배열을 텍스트 파일로 저장하기

> np.loadtext() : 텍스트 파일을 배열로 불러오기

header, footer 로 '#'으로 시작되는 부가설명을 추가할 수 있습니다.

fmt 로 포맷을 지정할 수 있습니다. 아래 예에서는 소수점 2자리까지만 고정된 자리수로 표현하도록 해보았습니다.

In [23]: x = np.array([0, 1, 2, 3, 4])

In [24]: y = np.array([5, 6, 7, 8, 9])

In [25]: np.savetxt('D:/admin/Documents/xy_savetxt.txt'

...: , (x, y) # x,y equal sized 1D arrays

...: , header='--xy save start--'

...: , footer='--xy save end--'

...: , fmt='%1.2f') # the second digit after the decimal point

[ Text file 로 저장된 배열 ]

np.loadtxt() 함수로 텍스트 파일을 배열로 불러올 수 있으며, ndarray type 으로 바로 불러오게 됩니다.

In [26]: xy_savetxt_load = np.loadtxt('D:/admin/Documents/xy_savetxt.txt')

In [27]: xy_savetxt_load

Out[27]:

array([[ 0., 1., 2., 3., 4.],

[ 5., 6., 7., 8., 9.]])

In [28]: type(xy_savetxt_load)

Out[28]: numpy.ndarray

2D array 도 텍스트 파일로 저장할 수 있습니다.

In [29]: x2 = np.arange(12).reshape(3, 4)

In [30]: x2

Out[30]:

array([[ 0, 1, 2, 3],

[ 4, 5, 6, 7],

[ 8, 9, 10, 11]])

In [31]: np.savetxt('D:/admin/Documents/x2_savetxt.txt'

...: , x2

...: , fmt='%1.2f')

[ Text 파일로 저장된 2D 배열 ]

np.loadtxt() 함수로 텍스트 파일을 배열로 불러올 수 있습니다. 원래의 x2 배열과 정확하게 동일하게 잘 불러왔습니다.

In [32]: x2_savetxt_load = np.loadtxt('D:/admin/Documents/x2_savetxt.txt')

In [33]: x2_savetxt_load

Out[33]:

array([[ 0., 1., 2., 3.],

[ 4., 5., 6., 7.],

[ 8., 9., 10., 11.]])

많은 도움이 되었기를 바랍니다.

728x90

저작자표시 비영리 변경금지

'Python 분석과 프로그래밍 > Python 데이터 전처리' 카테고리의 다른 글

[Python NumPy] 선형대수 함수 (Linear Algebra) (0)	2018.08.15
[Python] numpy 배열을 여러개의 하위 배열로 분할하기 (split an array into sub-arrays) (0)	2018.05.22
[Python] numpy array 정렬, 거꾸로 정렬, 다차원 배열 정렬 (2)	2018.05.18
[Python] numpy 최소, 최대, 조건 색인값 : np.argmin(), np.argmax(), np.where() (7)	2018.05.17
[Python] numpy 집합함수 (set functions) (0)	2018.05.17

Posted by Rfriend

,

[Python NumPy] 배열을 옆으로, 위 아래로 붙이기 : np.r_, np.c_, np.hstack(), np.vstack(), np.column_stack(), np.concatenate(axis=0), np.concatenate(axis=1)

Python 분석과 프로그래밍/Python 데이터 전처리 2018. 4. 14. 00:23

이번 포스팅에서는 Python의 numpy 라이브러리에 있는 함수들을 이용해서 두 개의 배열(array)을 옆으로 붙이기, 배열을 위 아래로 붙이기(concatenate) 하는 방법에 대해서 소개하겠습니다. 알아두면 편리하게 배열을 조작할 수 있는 유용한 함수들입니다.

(1) 두 배열을 왼쪽에서 오른쪽으로 붙이기

: np.r_[a, b]

: np.hstack([a, b])
: np.concatenate((a, b), axis = 0)

(2) 두 배열을 위에서 아래로 붙이기

: np.r_[[a], [b]]

: np.vstack([a, b])

: np.concatenate((c, d), axis = 1) # for 2D ~ array

(3) 두 개의 1차원 배열을 칼럼으로 세로로 붙여서 2차원 배열 만들기

(Stack 1-D arrays as columns into a 2-D array)

: np.c_[a, b]

: np.column_stack([a, b])

: np.concatenate((c.T, d.T), axis = 1) # for 2D~ array

[ 배열을 옆으로, 위 아래로 붙이기 : np.r_, np.c_, np.hstack(), np.vstack(), np.column_stack(), np.concatenate(axis=0), np.concatenate(axis=1) ]

처음에 np.r_[a, b], np.c_[a, b] 코드를 봤을 때 '이게 뭐지?', '잘못 타이핑한거 아닌가?', '쓰다 말았나?' 하고 갸우뚱 했던 기억이 납니다. ^^;

아래에 간단한 예를 들어서 설명하겠습니다.

np.r_[], np.c_[] 는 코드가 완전 간단한 장점이 있구요, np.hstack(), np.vstack(), np.column_stack() 는 코드 이해가 쉬운 장점이 있는데요, 코드 작성하시는 분의 선호도에 따라 골라 쓰시면 되겠습니다.

먼저 numpy 라이브러리 importing 한 후에 a, b 두 개의 예제 배열(array)을 만들겠습니다.

In [1]: import numpy as np

In [2]: a = np.array([1, 2, 3])

In [3]: b = np.array([4, 5, 6])

(1) 두 배열을 왼쪽에서 오른쪽으로 붙이기

: np.r_[a, b] <- ( ) 를 사용하지 않고 [ ] 를 사용하는 것에 주의하세요

: np.hstack([a, b])
: np.concatenate((a, b), axis=0)

In [4]: np.r_[a, b]

Out[4]: array([1, 2, 3, 4, 5, 6])

In [7]: np.hstack([a, b])

Out[7]: array([1, 2, 3, 4, 5, 6])

In [23]: np.concatenate((a, b), axis = 0)

Out[23]: array([1, 2, 3, 4, 5, 6])

(2) 두 배열을 위에서 아래로 붙이기

: np.r_[[a], [b]] <- a, b 배열을 [ ]을 사용해서 1-D 배열로 만든거 주의하세요

: np.vstack([a, b])
: np.concatenate((c, d), axis = 1) <- 1D 배열은 "AxisError: axis 1 is out of bounds for array of dimension 1"라는 AxisError가 나네요. 2D 이상 배열은 에러 없이 잘 되구요.

In [5]: np.r_[[a], [b]]

Out[5]:

array([[1, 2, 3],

[4, 5, 6]])

In [8]: np.vstack([a, b])

Out[8]:

array([[1, 2, 3],

[4, 5, 6]])

In [27]: c = np.array([[0, 1, 2], [3, 4, 5,]])

...: d = np.array([[6, 7, 8], [9, 10, 11]])

In [28]: np.concatenate((c, d), axis = 1) # for 2D~ array

Out[28]:

array([[ 0, 1, 2, 6, 7, 8],

[ 3, 4, 5, 9, 10, 11]])

(3) 두 개의 1차원 배열을 칼럼으로 세로로 붙여서 2차원 배열 만들기

(Stack 1-D arrays as columns into a 2-D array)

: np.c_[a, b]

: np.column_stack([a, b])

: np.concatenate((c.T, d.T), axis = 1) # for 2D~ array

In [6]: np.c_[a, b]

Out[6]:

array([[1, 4],

[2, 5],

[3, 6]])

In [9]: np.column_stack([a, b])

Out[9]:

array([[1, 4],

[2, 5],

[3, 6]])

np.concatenate(axis=1) 은 1D array 로 하면 AxisError 가 납니다. 2D array 이상에 대해서 사용하세요.

In [27]: c = np.array([[0, 1, 2], [3, 4, 5,]])

...: d = np.array([[6, 7, 8], [9, 10, 11]])

In [29]: np.concatenate((c.T, d.T), axis = 1)

Out[29]:

array([[ 0, 3, 6, 9],

[ 1, 4, 7, 10],

[ 2, 5, 8, 11]])

많은 도움이 되었기를 바랍니다.

이번 포스팅이 도움이 되셨다면 아래의 '공감~'를 꾸욱 눌러주세요. ^^

728x90

저작자표시 비영리 변경금지

'Python 분석과 프로그래밍 > Python 데이터 전처리' 카테고리의 다른 글

[Python] numpy 최소, 최대, 조건 색인값 : np.argmin(), np.argmax(), np.where() (7)	2018.05.17
[Python] numpy 집합함수 (set functions) (0)	2018.05.17
[Python NumPy] 다차원 배열을 1차원 배열로 평평하게 펴주는 ravel(), flatten() 함수 (0)	2018.02.18
[Python NumPy] reshape에서 -1 은 무슨 의미인가? (reshape(-1, 1)) (17)	2018.01.25
[Python NumPy] 절대값 함수 np.abs(x), 부호 판별 함수 np.sign(x)를 이용해서 특이값(Outlier) 찾고 다른 값으로 대체하기 (0)	2017.04.17

Posted by Rfriend

,

[Python NumPy] 범용 함수(universal function) : (1-4) 삼각함수(trigonometric functions)

Python 분석과 프로그래밍/Python 데이터 전처리 2017. 3. 13. 23:58

이전 포스팅에서는

- 범용함수(universal function, ufuncs)의 정의 및 유형

(1) 1개의 배열에 대한 ufuncs (Unary universal functions) 중에서

- (1-1) 올림 및 내림 범용 함수 (rounding ufuncs)

- (1-2) 합(sums), 곱(products), 차분(difference), gradient 범용함수

- (1-3) 지수함수(exponential function), 로그함수 (logarithmic function)

에 대해서 소개하였습니다.

이번 포스팅에서는 Unary ufuncs 4번째로

- (1-4) 삼각함수 (trigonometric functions)

에 대해서 알아보겠습니다.

고등학교 때 배웠던 삼각함수 공식을 복습하는 것으로 먼저 시작해보겠습니다. (이미 다 아는 이과생들은 pass... ^^; 긴가민가하는 문과생들은 복기... ^^;;;)

sine (줄여서 sin), cosine (줄여서 cos), tangent (줄여서 tan) 공식은 아래 밑변 AC, 높이 BC, 빗변 AB를 가지고 사이각이 (theta degree) 인 직각삼각형 ABC 를 가지고 삼각함수를 나타내본 것입니다.

[ 삼각함수 (Trigonometric Functions) ]

삼각함수는 어디에 쓰나 싶을 텐데요, 주기적인 파동형태를 띠는 함수 (예: 주파수, 물결 파동 등) 를 나타낼 때 sine function 을 사용합니다. 벡터 내적 계산할 때 cosine function 을 사용하기도 하구요. 고속 푸리에 변환 (FFT : Fast Fourier Transformation) 과 벡터 내적 계산 관련 자세한 내용은 아래 포스팅 링크 참고하세요.

참고로, degree는 우리가 일반적으로 사용하는 것처럼 원을 0~360도로 표기하는 방법이구요, radian은 부채꼴의 호의 길이와 반지름의 길이가 같게 되는 각도를 1 radian이라고 합니다.

180 degree = π radian 이며,

1 degree = π radian/180 ,

1 radian = 180 degree/ π = 57.3 의 관계가 있습니다. (슬슬 헷갈리기 시작하죠? -_-?)

Python NumPy의 삼각함수는 radian을 사용하기 때문에 degree 를 radian으로 바꿔주기 위해서 degree * np.py/180 을 해주었습니다. ( np.deg2rad(x) 함수를 사용해도 됨 )

(1-4-1) 삼각함수 (trigonometric functions) : np.sin(), np.cos(), np.tan()

In [1]: import numpy as np

In [2]: np.sin(np.array((0., 30., 45., 60., 90.))*np.pi / 180.)

Out[2]: array([ 0. , 0.5 , 0.70710678, 0.8660254 , 1. ])

In [3]: np.cos(np.array((0., 30., 45., 60., 90.))*np.pi / 180.)

Out[3]:

array([ 1.00000000e+00, 8.66025404e-01, 7.07106781e-01,
5.00000000e-01, 6.12323400e-17])

In [4]: np.tan(np.array((0., 30., 45., 60., 90.))*np.pi / 180.)

Out[4]:

array([ 0.00000000e+00, 5.77350269e-01, 1.00000000e+00,
1.73205081e+00, 1.63312394e+16])

참고로, 아래는 주요 Degree 혹은 radian 별 삼각함수 값 (Special values in trigonometric functions) 들입니다.

* 출처 : Wikipedia (https://en.wikipedia.org/wiki/Trigonometric_functions)

(1-4-2) 싸인 곡선 그리기 (plotting sine curve)

In [5]: import matplotlib.pyplot as plt

In [6]: x = np.arange(0, 2*np.pi, 0.1)

In [7]: y = np.sin(x)

In [8]: plt.plot(x, y)

Out[8]: [<matplotlib.lines.Line2D at 0x94295f8>]

In [9]: plt.show()

주기적으로 원 회전 운동(a circular movement)을 하는 단자를 시간의 흐름(x축)에 따른 높낮이 변화(y축)를 시계열 그래프로 나타내면 그게 바로 위의 사인 곡선(sine curve)이 됩니다. 저 주기를 가지고 주파수를 계산할 때 FFT (Fast Fourier Transformation)을 사용하구요.

(1-4-3) 삼각함수의 역수

위 삼각함수의 역수인 cosecant (줄여서 csc), secant (줄여서 sec), cotangent (줄여서 cot) 함수는 아래와 같이 정의합니다.

(1-4-4) 역삼각함수 : np.arcsin(), np.arccos(), np.arctan

In [10]: np.arcsin(1) # pi/2

Out[10]: 1.5707963267948966

In [11]: np.sin(1.5707963267948966)

Out[11]: 1.0

In [12]: np.sin(np.arcsin(1))

Out[12]: 1.0

In [13]: np.arcsin([-1, 0, 1]) # real part lies in [-pi/2, pi/2]

Out[13]: array([-1.57079633, 0. , 1.57079633])

In [14]: np.arccos([-1, 0, 1]) # real part lies in [0, pi]

Out[14]: array([ 3.14159265, 1.57079633, 0. ])

In [15]: np.arctan([-1, 0, 1]) # real part lies in [-pi/2, pi/2]

Out[15]: array([-0.78539816, 0. , 0.78539816])

(1-4-5) degree를 radian으로 변환 : np.deg2rad(x)

radian을 degree로 변환 : np.rad2deg(x)

degree를 radian으로 바꾸고 싶을 때는 np.deg2rad(x) 함수를 사용하면 되구요,

radian을 degree로 바꾸고 싶을 때는 np.rad2deg(x) 함수를 사용하면 됩니다.

# Convert angles from degrees to radians : np.deg2rad
# deg2rad(x) is x * pi / 180

In [16]: np.deg2rad(180)

Out[16]: 3.1415926535897931

# Convert angles from radians to degrees : np.rad2deg
# rad2deg(x) is 180 * x / pi

In [17]: np.rad2deg(np.pi)

Out[17]: 180.0

많은 도움 되었기를 바랍니다.

728x90

저작자표시 비영리 변경금지

'Python 분석과 프로그래밍 > Python 데이터 전처리' 카테고리의 다른 글

[Python NumPy] 범용 함수(Universal Functions) : (1-6) 단일 배열 unary ufuncs : 논리형 함수(Logical function) (0)	2017.03.22
[Python NumPy] 범용 함수 (universal functions) : (1-5) 단일 배열 unary ufuncs : 절대값, 제곱근, 제곱값, 정수와 소수점 분리, 부호 함수 (0)	2017.03.21
[Python NumPy] 범용 함수(universal function) : (1-3) 지수함수(exponential function), 로그함수(logarithmic function) (3)	2017.03.12
[Python NumPy] 범용 함수 (universal functions) : (1-2) 단일 배열 unary ufuncs : 합(sum), 누적합(cum_sum), 곱(product), 누적곱(cum_prod), 차분(difference), gradient 범용함수 (2)	2017.03.09
[Python NumPy] 범용 함수 (universal functions) : (1-1) 단일 배열 unary ufuncs : 올림 혹은 내림 (rounding) (0)	2017.03.05

Posted by Rfriend

,

[Python NumPy] 범용 함수(universal function) : (1-3) 지수함수(exponential function), 로그함수(logarithmic function)

Python 분석과 프로그래밍/Python 데이터 전처리 2017. 3. 12. 01:34

이전 포스팅에서는

- 범용함수(universal function, ufuncs)의 정의 및 유형

(1) 1개의 배열에 대한 ufuncs (Unary universal functions) 중에서

- (1-1) 올림 및 내림 범용 함수 (rounding ufuncs)

- (1-2) 합(sums), 곱(products), 차분(difference), 기울기(gradient) 범용함수

들에 대해서 알아보았습니다.

이번 포스팅에서는 Unary ufuncs 중에서

- (1-3) 지수함수(exponential function), 로그함수 (logarithmic function)

에 대해서 알아보겠습니다.

고등학교 때 지수함수, 로그함수에 대해서 배웠을 텐데요, 기억이 가물가물 하신분들을 위해서 간단히 지수함수, 로그함수에 대해서 먼저 복기를 해본 후에 Python NumPy 의 지수함수, 로그함수 사용법으로 넘어가겠습니다.

지수함수(exponential function)는 아래 왼쪽의 그래프처럼 인 형태의 함수를 말합니다. 아래 [그림1] 왼쪽의 지수함수 예시 그래프는 지수함수의 그래프로서, (x=0, y=1), (x=1, y=2) 지점을 지나고 있습니다.

로그함수(logarithmic function)는 지수함수의 역함수(inverse function) 입니다. 즉, 아래 [그림1] 그래프의 예를 들자면원래 지수함수였던 의 역함수는 함수인데요, 이를 표기하기 편하도록 라고 하자고 약속을 한 것입니다. (밑이 '2'인 로그함수)

[그림1] 지수함수와 로그함수의 관계 및 그래프 예시

특히, 자연상수 e 를 밑으로 하는 로그함수를 자연로그(natural logarithm) 하며, 처럼 쓰기 보다는 보통 자연상수 e를 생략하고 그냥 혹은 로 쓰곤 합니다. 아래 [그림2] 그래프를 참고하세요.

(참고로, 자연상수 e 는 2.71828182846... 의 값을 가지는 무리수이며, 수학자의 이름을 따서 '오일러의 수(Euler's number)' 또는 '네이피어의 수(Napier's number)'라고도 함)

[그림2] 밑(base)이 자연상수 e 인 지수함수와 자연로그 함수 그래프

간단한 복기는 여기까지 하고요, 이제 Python NumPy의 지수함수, 로그함수에 대해 알아보겠습니다.

별것 없구요, 간단합니다. ^^'

(1-3-1) 지수함수 (exponential function) : np.exp()

NumPy의 np.exp() 함수는 밑(base)이 자연상수 e 인 지수함수 로 변환해줍니다.

In [1]: import numpy as np

In [2]: x = np.array([0.00001, 1, 2, 4, 10, 100])

In [3]: x

Out[3]:

array([ 1.00000000e-05, 1.00000000e+00, 2.00000000e+00,
4.00000000e+00, 1.00000000e+01, 1.00000000e+02])

In [4]: np.exp(x)

Out[4]:

array([ 1.00001000e+00, 2.71828183e+00, 7.38905610e+00,
5.45981500e+01, 2.20264658e+04, 2.68811714e+43])

(1-3-2) 로그함수 (logarithmic function) : np.log(x), np.log10(x), np.log2(x), log1p(z)

지수함수의 역함수인 로그함수는 밑이 자연상수 e, 혹은 10, 또는 2 이냐에 따라서 np.log(x), np.log10(x), np.log2(x) 를 구분해서 사용합니다.

# natural logarithm (base e)

In [5]: np.log(x)

Out[5]:

array([-11.51292546, 0. , 0.69314718, 1.38629436,
2.30258509, 4.60517019])

# log base 10

In [6]: np.log10(x)

Out[6]: array([-5. , 0. , 0.30103 , 0.60205999, 1. , 2. ])

# log base 2

In [7]: np.log2(x)

Out[7]:

array([-16.60964047, 0. , 1. , 2. ,
3.32192809, 6.64385619])

로그함수의 경우 위의 [그림2]의 하단에 있는 자연로그 함수 그래프를 보면 알겠지만, x=0 인 경우 y가 -무한대(-infinite)의 값을 가집니다. 아래의 Out[9]번에 보면 NumPy 에 '0'이 포함된 배열을 np.log() 함수에 대입하면 'RuntimeWarning: divide by zero encountered in log' 라는 경고메시지가 뜨고, -inf 가 포함된 배열을 반환하게 됩니다. 이럴 때 사용하는 방법이 'x+1'을 해줘서 '0' -> '1' 로 바꿔주는 겁니다. np.log1p() 함수가 바로 이 역할을 해주는 함수입니다. 그러면 y값이 '-inf' -> '0'으로 바뀌게 되죠.

In [8]: z = np.array([0, 1.71828])

In [9]: np.log(z)

C:\Anaconda3\lib\site-packages\spyderlib\widgets\externalshell\start_ipython_kernel.py:1: RuntimeWarning: divide by zero encountered in log

# -*- coding: utf-8 -*-

Out[9]: array([ -inf, 0.54132379])

# log(1+z) = np.log1p(z)

In [10]: np.log1p(z)

Out[10]: array([ 0. , 0.99999933])

물론 np.log1p() 함수를 안쓰고 그냥 np.log() 함수를 써서 아래처럼 np.log(1+z) 라고 해도 똑같은 결과를 얻을 수 있습니다.

In [11]: np.log(1+z)

Out[11]: array([ 0. , 0.99999933])

그럼, 지수함수, 로그함수는 어디에 써먹는 건가 궁금할 것 같습니다.

한가지 예를 들자면 오른쪽으로 심하게 skewed된 멱함수(power law function) 분포를 띠는 데이터를 정규분포(normal distribution) 로 변환할 때 로그 변환 (log transformation)을 사용하곤 합니다.

자세한 내용은 오른쪽 포스팅 참고하세요. ☞ http://rfriend.tistory.com/53

여기서 끝내기 조금 아쉬우니 지수함수와 로그함수의 성질(properties of exponential and logarithmic function)도 복기해보겠습니다. 논문 읽다보면 지수함수와 로그함수의 성질을 알아야지 이해가 되는 공식 전개가 가끔씩 나오니 기억해두면 좋겠지요?! 증명은 생략합니다. ^^'

다음번 포스팅에서는 Unary ufuncs 의 네번째로 삼각함수(trigonometric functions)를 알아보겠습니다.

많은 도움 되었기를 바랍니다.

728x90

저작자표시 비영리 변경금지

'Python 분석과 프로그래밍 > Python 데이터 전처리' 카테고리의 다른 글

[Python NumPy] 범용 함수 (universal functions) : (1-5) 단일 배열 unary ufuncs : 절대값, 제곱근, 제곱값, 정수와 소수점 분리, 부호 함수 (0)	2017.03.21
[Python NumPy] 범용 함수(universal function) : (1-4) 삼각함수(trigonometric functions) (0)	2017.03.13
[Python NumPy] 범용 함수 (universal functions) : (1-2) 단일 배열 unary ufuncs : 합(sum), 누적합(cum_sum), 곱(product), 누적곱(cum_prod), 차분(difference), gradient 범용함수 (2)	2017.03.09
[Python NumPy] 범용 함수 (universal functions) : (1-1) 단일 배열 unary ufuncs : 올림 혹은 내림 (rounding) (0)	2017.03.05
[Python NumPy] 정수 배열을 사용해서 다차원 배열 인덱싱 하기 : Fancy Indexing (0)	2017.03.01

Posted by Rfriend

,

[Python NumPy] 범용 함수 (universal functions) : (1-1) 단일 배열 unary ufuncs : 올림 혹은 내림 (rounding)

Python 분석과 프로그래밍/Python 데이터 전처리 2017. 3. 5. 21:18

이번 포스팅부터는 몇 번에 나누어서 로그함수, 삼각함수, 사칙연산 함수 등과 같이 일반적으로 많이 사용되는 범용 함수 (universal functions)들에 대해서 소개하겠습니다.

Python에서 범용 함수를 지원하는 모듈이 여러개 있습니다.

Pytho 배울 때 초반에 배우는 math module은 실수(real number)에 대해서만 범용함수를 지원하며, cmath module 은 복소수(complex number) 까지 범용함수를 지원합니다. numpy module은 실수, 복소수, 복소수 행렬 (complex matrix)의 원소 간 범용 함수를 모두 지원하므로 사용 범위가 가장 넓어 매우 유용합니다. 배열의 원소간 연산을 위해 NumPy의 Ufunc 함수는 쓸모가 많습니다. NumPy는 맥가이버 칼 같다고나 할까요.

[ Python modules for Universal Functions ]

NumPy 범용 함수는 몇 개의 배열에 대해 적용이 되는지에 따라서

- (1) 1개의 배열에 적용하는 Unary Universal Functions (ufuncs)

- (2) 2개의 배열에 대해 적용하는 Binary Universal Functions (ufuncs)

으로 구분할 수 있습니다.

범용함수 종류가 너무 많아서 포스팅에 한꺼번에 소개하기가 버거우므로, 서너번에 나누어서 Unary Universal Functions를 먼저 소개하고, 다음으로 Binary Ufuncs 순서로 알아보겠습니다.

(1-1) 올림 혹은 내림 범용 함수 (round universal functions)

비슷비슷한 함수들이 여러개 있는데요, 말로 설명하는 것보다 예를 자세히 살펴보고 비교해보는 것이 이해하기에 쉽고 빠를 것 같습니다.

# import module and making an array

In [1]: import numpy as np

In [2]: a = np.array([-4.62, -2.19, 0, 1.57, 3.40, 4.06])

In [3]: a