이전 포스팅에서는
 
 - 범용함수(universal function, ufuncs)의 정의 및 유형
 
 
(1) 1개의 배열에 대한 ufuncs (Unary universal functions) 중에서
 
 - (1-1) 올림 및 내림 범용 함수 (rounding ufuncs)
 - (1-2) 합(sums), 곱(products), 차분(difference), 기울기(gradient) 범용함수
 - (1-3) 지수함수(exponential function), 로그함수 (logarithmic function)

 - (1-4) 삼각함수(trigonometric functions)

 

들에 대해서 알아보았습니다.

 

이번 포스팅에서는 Unary ufuncs 중에서 

 

 - (1-5) 수 처리 함수, 부호 판별 범용 함수들로서

 

수 처리 함수 : 절대값(absolute value), 제곱근(square root), 제곱값(square), 정수와 소수점 값(integral and fractional parts)

 

부호(sign) 판별 함수 : 1 (positive), 0(zero), -1(negative) 값 반환

 

등에 대해서 알아보겠습니다.

 

 

먼저, 수 처리 관련된 Unary funcs 입니다.  절대값, 제곱근, 제곱, 정수와 소수점 값 등 기본적인 것들로서 예제를 보면 금방 이해할 수 있기 때문에 추가적인 설명은 안 달겠습니다.

 

  (1-5-1) 배열 원소의 절대값 (absolute value) 범용 함수 : np.abs(x), np.fabs(x)

 

 

In [1]: import numpy as np


In [2]: x = np.array([-100, 1, -4, 100])


In [3]: x

Out[3]: array([-100, 1, -4, 100])

 

# abs, fabs : element-wise absolute value for integer, floating point, complex values

 

In [4]: np.abs(x)

Out[4]: array([100, 1, 4, 100])

 

In [5]: np.fabs(x)  # faster abs for non-complex-valued data

Out[5]: array([ 100., 1., 4., 100.])

 

 

 

 

  (1-5-2) 배열 원소의 제곱근(Square Root) 범용 함수 : np.sqrt(y)

 

 

In [6]: y = np.array([1, 4, 100])

 

# sqrt : Compute the square root of each element, equivalent to x**0.5

In [7]: np.sqrt(y)  # equivalent to x**0.5

Out[7]: array([ 1., 2., 10.])

 

In [8]: y**0.5

Out[8]: array([ 1., 2., 10.])

 

 

 

 

  (1-5-3) 배열 원소의 제곱값 (square value) 범용 함수 : np.square(y)

 

 

In [9]: y

Out[9]: array([ 1, 4, 100])

 

# square : Compute the square of each element, equivalent to x**2

In [10]: np.square(y) # equvalent to y**2

Out[10]: array([ 1, 16, 10000], dtype=int32)

 

In [11]: y**2

Out[11]: array([ 1, 16, 10000])

 

 

 

 

 (1-5-4) 배열 원소의 정수와 소수점을 구분하여 2개의 배열 반환 : np.modf(z)

 

np.modf() 범용함수는 1개의 배열을 input으로 받아서 특이하게도 2개의 배열을 output으로 반환합니다. 반환되는 첫번째 배열은 원래 배열의 각 원소들의 소수점 부분(fractional parts)으로 구성되어 있구요, 반환되는 두번째 배열에는 원래 배열의 각 원소들의 정수 부분(integral parts)으로 구성되어 있습니다.

 

만약 정수 부분으로만 구성된 두번째 배열을 선택하고 싶다면 np.modf(z)[1] 처럼 하면 됩니다.

 

 

In [12]: z = np.array([3.5, 7.8, -10.3])


In [13]: z

Out[13]: array([ 3.5, 7.8, -10.3])

 

# modf : return fractional and integral prats of array as separate array
# 1st array : fractional parts, 2nd array : integral parts

 

In [14]: np.modf(z)

Out[14]: (array([ 0.5, 0.8, -0.3]), array([ 3., 7., -10.]))

 

# indexing 2nd array of the returned array, which are integral parts 

In [15]: np.modf(z)[1]

Out[15]: array([ 3., 7., -10.])

 

In [16]: np.modf(z)[0]

Out[16]: array([ 0.5, 0.8, -0.3])

 

 

 

 

  (1-5-5) 배열 원소의 부호 판별 함수 : np.sign(x)  ☞ 1 (positive), 0(zero), -1(negative)

 

 

# sign : returns the sign of each element : 1 (positive), 0(zero), -1(negative)

 

In [17]: c = np.array([-2, -1, 0, 1, 2])


In [18]: c

Out[18]: array([-2, -1, 0, 1, 2])


In [19]: np.sign(c)

Out[19]: array([-1, -1, 0, 1, 1])

 

 

다음번 포스팅에서는 논리 함수 (logical unary ufuncs)에 대해서 알아보겠습니다.

 

많은 도움 되었기를 바랍니다.

 

728x90
반응형
Posted by Rfriend
,

이전 포스팅에서는

 

 - 범용함수(universal function, ufuncs)의 정의 및 유형

 

 

(1) 1개의 배열에 대한 ufuncs (Unary universal functions) 중에서

 

 - (1-1) 올림 및 내림 범용 함수 (rounding ufuncs)

 - (1-2) 합(sums), 곱(products), 차분(difference), gradient 범용함수

 - (1-3) 지수함수(exponential function), 로그함수 (logarithmic function)

 

에 대해서 소개하였습니다.

 

이번 포스팅에서는 Unary ufuncs 4번째로

 

 - (1-4) 삼각함수 (trigonometric functions)

 

에 대해서 알아보겠습니다.

 

 

고등학교 때 배웠던 삼각함수 공식을 복습하는 것으로 먼저 시작해보겠습니다. (이미 다 아는 이과생들은 pass... ^^;  긴가민가하는 문과생들은 복기... ^^;;;)

 

sine (줄여서 sin), cosine (줄여서 cos), tangent (줄여서 tan) 공식은 아래 밑변 AC, 높이 BC, 빗변 AB를 가지고 사이각이 (theta degree) 인 직각삼각형 ABC 를 가지고 삼각함수를 나타내본 것입니다.

 

 

 

[ 삼각함수 (Trigonometric Functions) ]

 

 

 

  

삼각함수는 어디에 쓰나 싶을 텐데요, 주기적인 파동형태를 띠는 함수 (예: 주파수, 물결 파동 등) 를 나타낼 때 sine function 을 사용합니다.  벡터 내적 계산할 때 cosine function 을 사용하기도 하구요. 고속 푸리에 변환 (FFT : Fast Fourier Transformation) 과 벡터 내적 계산 관련 자세한 내용은 아래 포스팅 링크 참고하세요.

 

 

 

참고로, degree는 우리가 일반적으로 사용하는 것처럼 원을 0~360도로 표기하는 방법이구요, radian은 부채꼴의 호의 길이와 반지름의 길이가 같게 되는 각도를 1 radian이라고 합니다. 

 

180 degree = π radian 이며,

1 degree = π radian/180 ,

1 radian = 180 degree/ π = 57.3 의 관계가 있습니다. (슬슬 헷갈리기 시작하죠? -_-?)

 

 

Python NumPy의 삼각함수는 radian을 사용하기 때문에 degree 를 radian으로 바꿔주기 위해서 degree * np.py/180 을 해주었습니다. ( np.deg2rad(x) 함수를 사용해도 됨 )

 

 

 

  (1-4-1) 삼각함수 (trigonometric functions) : np.sin(), np.cos(), np.tan()

 

In [1]: import numpy as np


In [2]: np.sin(np.array((0., 30., 45., 60., 90.))*np.pi / 180.)

Out[2]: array([ 0.        ,  0.5       ,  0.70710678,  0.8660254 ,  1.        ])


In [3]: np.cos(np.array((0., 30., 45., 60., 90.))*np.pi / 180.)

Out[3]:

array([  1.00000000e+00,   8.66025404e-01,   7.07106781e-01,
          5.00000000e-01,   6.12323400e-17])


In [4]: np.tan(np.array((0., 30., 45., 60., 90.))*np.pi / 180.)

Out[4]:

array([  0.00000000e+00,   5.77350269e-01,   1.00000000e+00,
          1.73205081e+00,   1.63312394e+16])

 

 

 

 

 

참고로, 아래는 주요 Degree 혹은 radian 별  삼각함수 값 (Special values in trigonometric functions) 들입니다.

 

* 출처 : Wikipedia (https://en.wikipedia.org/wiki/Trigonometric_functions)

 

 

 

 

  (1-4-2) 싸인 곡선 그리기 (plotting sine curve)

 

 

In [5]: import matplotlib.pyplot as plt


In [6]: x = np.arange(0, 2*np.pi, 0.1)


In [7]: y = np.sin(x)


In [8]: plt.plot(x, y)

Out[8]: [<matplotlib.lines.Line2D at 0x94295f8>]

 


In [9]: plt.show()

 

 

 

 

 

주기적으로 회전 운동(a circular movement)을 하는 단자를 시간의 흐름(x축)에 따른 높낮이 변화(y축)를 시계열 그래프로 나타내면 그게 바로 위의 사인 곡선(sine curve)이 됩니다. 저 주기를 가지고 주파수를 계산할 때 FFT (Fast Fourier Transformation)을 사용하구요.

 

 

 

 

 

 

 

  (1-4-3) 삼각함수의 역수

 

삼각함수의 역수cosecant (줄여서 csc), secant (줄여서 sec), cotangent (줄여서 cot) 함수는 아래와 같이 정의합니다.

 

 

 



 

 

 

 

 

 

  (1-4-4) 역삼각함수 : np.arcsin(), np.arccos(), np.arctan

 

 

In [10]: np.arcsin(1) # pi/2

Out[10]: 1.5707963267948966

 

In [11]: np.sin(1.5707963267948966)

Out[11]: 1.0

 

In [12]: np.sin(np.arcsin(1))

Out[12]: 1.0

 


 

In [13]: np.arcsin([-1, 0, 1]) # real part lies in [-pi/2, pi/2]

Out[13]: array([-1.57079633,  0.        ,  1.57079633])


In [14]: np.arccos([-1, 0, 1]) # real part lies in [0, pi]

Out[14]: array([ 3.14159265,  1.57079633,  0.        ])


In [15]: np.arctan([-1, 0, 1]) # real part lies in [-pi/2, pi/2]

Out[15]: array([-0.78539816,  0.        ,  0.78539816])

 

 

 

 

 

  (1-4-5) degree를 radian으로 변환 : np.deg2rad(x)

            radian을 degree로 변환 : np.rad2deg(x)

 

 

degree를 radian으로 바꾸고 싶을 때는 np.deg2rad(x) 함수를 사용하면 되구요,

radian을 degree로 바꾸고 싶을 때는 np.rad2deg(x) 함수를 사용하면 됩니다.

 

 

# Convert angles from degrees to radians : np.deg2rad
# deg2rad(x) is x * pi / 180

 

In [16]: np.deg2rad(180)

Out[16]: 3.1415926535897931

 

 

# Convert angles from radians to degrees : np.rad2deg
# rad2deg(x) is 180 * x / pi

In [17]: np.rad2deg(np.pi)

Out[17]: 180.0

 

 

 

 

많은 도움 되었기를 바랍니다. 

 

 

728x90
반응형
Posted by Rfriend
,

이전 포스팅에서는

 

 - 범용함수(universal function, ufuncs)의 정의 및 유형

 

 

(1) 1개의 배열에 대한 ufuncs (Unary universal functions) 중에서

 

 - (1-1) 올림 및 내림 범용 함수 (rounding ufuncs)

 - (1-2) 합(sums), 곱(products), 차분(difference), 기울기(gradient) 범용함수

 

들에 대해서 알아보았습니다.

 

이번 포스팅에서는 Unary ufuncs 중에서

 

 - (1-3) 지수함수(exponential function), 로그함수 (logarithmic function)

 

에 대해서 알아보겠습니다.

 

 

고등학교 때 지수함수, 로그함수에 대해서 배웠을 텐데요, 기억이 가물가물 하신분들을 위해서 간단히 지수함수, 로그함수에 대해서 먼저 복기를 해본 후에 Python NumPy 의 지수함수, 로그함수 사용법으로 넘어가겠습니다.

 

 

지수함수(exponential function)는 아래 왼쪽의 그래프처럼 인 형태의 함수를 말합니다.  아래 [그림1] 왼쪽의 지수함수 예시 그래프는   지수함수의 그래프로서, (x=0, y=1), (x=1, y=2) 지점을 지나고 있습니다.

 

로그함수(logarithmic function)는 지수함수의 역함수(inverse function) 입니다. 즉, 아래 [그림1] 그래프의 예를 들자면원래 지수함수였던 의 역함수는  함수인데요, 이를 표기하기 편하도록 라고 하자고 약속을 한 것입니다. (밑이 '2'인 로그함수)

 

 

[그림1] 지수함수와 로그함수의 관계 및 그래프 예시

 

 

 

 

특히, 자연상수 e 를 밑으로 하는 로그함수를 자연로그(natural logarithm) 하며, 처럼 쓰기 보다는 보통 자연상수 e를 생략하고 그냥 혹은 로 쓰곤 합니다. 아래 [그림2] 그래프를 참고하세요.

 

(참고로, 자연상수 e2.71828182846... 의 값을 가지는 무리수이며, 수학자의 이름을 따서 '오일러의 수(Euler's number)' 또는 '네이피어의 수(Napier's number)'라고도 함)

 

 

[그림2] 밑(base)이 자연상수 e 인 지수함수와 자연로그 함수 그래프

 

 

 

 

간단한 복기는 여기까지 하고요, 이제 Python NumPy의 지수함수, 로그함수에 대해 알아보겠습니다.

별것 없구요, 간단합니다. ^^'

 

  (1-3-1) 지수함수 (exponential function) : np.exp()

 

NumPy의 np.exp() 함수는 밑(base)이 자연상수 e 인 지수함수  로 변환해줍니다.

 

 

In [1]: import numpy as np


In [2]: x = np.array([0.00001, 1, 2, 4, 10, 100])


In [3]: x

Out[3]:

array([  1.00000000e-05,   1.00000000e+00,   2.00000000e+00,
          4.00000000e+00,   1.00000000e+01,   1.00000000e+02])


In [4]: np.exp(x)

Out[4]:

array([  1.00001000e+00,   2.71828183e+00,   7.38905610e+00,
          5.45981500e+01,   2.20264658e+04,   2.68811714e+43])

 

 

 

 

 (1-3-2) 로그함수 (logarithmic function) : np.log(x), np.log10(x), np.log2(x), log1p(z) 

 

지수함수의 역함수인 로그함수는 밑이 자연상수 e, 혹은 10, 또는 2 이냐에 따라서 np.log(x), np.log10(x), np.log2(x) 를 구분해서 사용합니다.

 

 

# natural logarithm (base e)

 

In [5]: np.log(x)

Out[5]:

array([-11.51292546,   0.        ,   0.69314718,   1.38629436,
           2.30258509,   4.60517019])

 

 

# log base 10

In [6]: np.log10(x)

Out[6]: array([-5.        ,  0.        ,  0.30103   ,  0.60205999,  1.        ,  2.        ])

 

 

# log base 2

In [7]: np.log2(x)

Out[7]:

array([-16.60964047,   0.        ,   1.        ,   2.        ,
           3.32192809,   6.64385619])

 

 

 

 

로그함수의 경우 위의 [그림2]의 하단에 있는 자연로그 함수 그래프를 보면 알겠지만, x=0 인 경우 y가 -무한대(-infinite)의 값을 가집니다.  아래의 Out[9]번에 보면 NumPy 에 '0'이 포함된 배열을 np.log() 함수에 대입하면 'RuntimeWarning: divide by zero encountered in log' 라는 경고메시지가 뜨고, -inf 가 포함된 배열을 반환하게 됩니다. 이럴 때 사용하는 방법이 'x+1'을 해줘서 '0' -> '1' 로 바꿔주는 겁니다. np.log1p() 함수가 바로 이 역할을 해주는 함수입니다. 그러면 y값이 '-inf' -> '0'으로 바뀌게 되죠.

 

 

In [8]: z = np.array([0, 1.71828])


In [9]: np.log(z)

C:\Anaconda3\lib\site-packages\spyderlib\widgets\externalshell\start_ipython_kernel.py:1: RuntimeWarning: divide by zero encountered in log

# -*- coding: utf-8 -*-

Out[9]: array([ -inf, 0.54132379])

 

 

# log(1+z) = np.log1p(z)

In [10]: np.log1p(z)

Out[10]: array([ 0. , 0.99999933])

 

 

 

 

물론 np.log1p() 함수를 안쓰고 그냥 np.log() 함수를 써서 아래처럼 np.log(1+z) 라고 해도 똑같은 결과를 얻을 수 있습니다.

 

 

In [11]: np.log(1+z)

Out[11]: array([ 0. , 0.99999933])

 

 

 

 

그럼, 지수함수, 로그함수는 어디에 써먹는 건가 궁금할 것 같습니다.

한가지 예를 들자면 오른쪽으로 심하게 skewed된 멱함수(power law function) 분포를 띠는 데이터를 정규분포(normal distribution) 로 변환할 때 로그 변환 (log transformation)을 사용하곤 합니다.

 

자세한 내용은 오른쪽 포스팅 참고하세요.  ☞  http://rfriend.tistory.com/53

 

 

여기서 끝내기 조금 아쉬우니 지수함수와 로그함수의 성질(properties of exponential and logarithmic function)도 복기해보겠습니다. 논문 읽다보면 지수함수와 로그함수의 성질을 알아야지 이해가 되는 공식 전개가 가끔씩 나오니 기억해두면 좋겠지요?!  증명은 생략합니다. ^^'

 

 

 

다음번 포스팅에서는 Unary ufuncs 의 네번째로 삼각함수(trigonometric functions)를 알아보겠습니다.

 

많은 도움 되었기를 바랍니다.

 

 

728x90
반응형
Posted by Rfriend
,

지난번 포스팅에서는 NumPy 에서 제공하는

 

 - (1) 단일 배열 대상의 범용 함수

       (Unary Universal Functions)

 - (2) 2개 배열 대상의 범용 함수

       (Binary Universal Functions)

 

에 대해서 간략히 소개를 하였습니다.

 

그리고 단일 배열 대상의 범용 함수 중에서 (1-1) '올림 혹은 내림 (Rounding)' 함수들(np.around, np.round_, np.rint, np.fix, np.ceil, np.floor, np.trunc)에 대해서 알아보았습니다.

 

이번 포스팅에서는 단일 배열 대상의 범용 함수(Unary ufuncs) 중에서 (1-2) 배열 원소 간 곱(products), 합(sums), 차분(differences) 범용 함수들에 대해서 알아보겠습니다.  (함수가 많아서 한꺼번에 포스팅하기에 버거우므로 여러번 나누어서 포스팅합니다)

 

 

[ Unary ufuncs : 배열 원소 간 곱 (products), 합 (sums), 차분 (differences) ]

 

 

 

 (1-2) 배열 원소 간 곱(products), 합(sums), 차분(differences), 기울기(gradient) 범용함수

 

1차원 배열 b와 2차원 배열 c를 가지고 예를 들어 설명하겠습니다.

 

 In [1]: import numpy as np


In [2]: b = np.array([1, 2, 3, 4]) # 1 dimension


In [3]: b

Out[3]: array([1, 2, 3, 4])


In [4]: c = np.array([[1, 2], [3, 4]]) # 2 dimension


In [5]: c

Out[5]:

array([[1, 2],
        [3, 4]])

 

 

 

 

 (1-2-1) 배열 원소 간 곱 범용 함수 (products universal funcstions) : np.prod()

 

2차원 배열의 경우 axis=0 이면 같은 열(column)위*아래 방향으로 배열 원소 간 곱하며, axis=1 이면 같은 행(row)의 왼쪽*오른쪽 원소 간 곱을 합니다.

 

 

# (1-2-1) np.prod() : Return the product of array elements over a given axis

 

# 1 dimensional array

In [3]: b

Out[3]: array([1, 2, 3, 4])

 

In [6]: np.prod(b)  # 1*2*3*4

Out[6]: 24

 

# 2 dimensional array

In [5]: c

Out[5]:

array([[1, 2],
        [3, 4]])

 

In [7]: np.prod(c, axis=0# [1*3, 2*4]  ↓

Out[7]: array([3, 8])


In [8]: np.prod(c, axis=1# [1*2, 3*4]  →

Out[8]: array([ 2, 12])

 

 

 

 

 (1-2-2) 배열 원소 간 합치기 범용 함수 (sum universal functions) : np.sum()

 

keepdims=True 옵션을 설정하면 1 차원 배열로 배열 원소 간 합을 반환합니다.

 

 

# (1-2-2) np.sum() : Sum of array elements over a given axis

 

# 1 dimensional array

In [3]: b

Out[3]: array([1, 2, 3, 4])

 

In [9]: np.sum(b) # [1+2+3+4]

Out[9]: 10

 

# the axes which are reduced are left in the result as dimensions with size one

In [10]: np.sum(b, keepdims=True)

Out[10]: array([10])  # 1 dimension array

 

In [11]: np.sum(b, keepdims=True).shape  # 1 dimension array

Out[11]: (1,)

 

 

 

2차원 배열의 경우 axis=0 을 설정하면 같은 열(column)의 위+아래 원소 값을 더하며, axis=1 을 설정하면 같은 행(row)의 왼쪽+오른쪽 원소 값을 더하여 1차원 배열을 반환합니다.

 

 

# 2 dimensional array

In [5]: c

Out[5]:

array([[1, 2],
        [3, 4]])

 

In [12]: np.sum(c, axis=0)  # [1+3, 2+4]  ↓

Out[12]: array([4, 6])


In [13]: np.sum(c, axis=1)  # [1+2, 3+4]  →

Out[13]: array([3, 7])

 

 

 

 

 (1-2-3) NaN 이 포함된 배열 원소 간 곱하기 범용 함수 : np.nanprod()

 

np.nanprod() 함수는 NaN (Not a Numbers) 을 '1'(one)로 간주하고 배열 원소 간 곱을 합니다.

 

 

# (1-2-3) np.nanprod() : Return the product of array elements

#                             over a given axis treating Not a Numbers (NaNs) as ones

 

In [14]: d = np.array([[1, 2], [3, np.nan]])


In [15]: d

Out[15]:

array([[  1.,   2.],
        [  3.,  nan]])


In [16]: np.nanprod(d, axis=0)  # [1*3, 2*1]  ↓

Out[16]: array([ 3., 2.])


In [17]: np.nanprod(d, axis=1)  # [1*2, 3*1]  →

Out[17]: array([ 2., 3.])

 

 

 

 

 (1-2-4) NaN이 포함된 배열 원소 간 더하기 범용 함수 : np.nansum()

 

np.nansum() 함수는 NaN (Not a Numbers)을 '0'(zero)으로 간주하고 배열 원소 간 더하기를 합니다.

 

 

In [15]: d

Out[15]:

array([[  1.,   2.],
        [  3.,  nan]])

 

# (1-2-4) np.nansum() : Return the sum of array elements

#                             over a given axis treating Not a Numbers (NaNs) as zero

 

In [18]: np.nansum(d, axis=0)  # [1+3, 2+0]  ↓

Out[18]: array([ 4., 2.])


In [19]: np.nansum(d, axis=1)  # [1+2, 3+0]  →

Out[19]: array([ 3., 3.])

 

 

 

 

 (1-2-5) 배열 원소 간 누적 곱하기 범용 함수 : np.cumprod()

 

axis=0 이면 같은 행(column)의 위에서 아래 방향으로 배열 원소들을 누적(cumulative)으로 곱해 나가며, axis=1 이면 같은 열(row)에 있는 배열 원소 간에 왼쪽에서 오른쪽 방향으로 누적으로 곱해 나갑니다.

 

 

In [20]: e = np.array([1, 2, 3, 4])


In [21]: e

Out[21]: array([1, 2, 3, 4])


In [22]: f = np.array([[1, 2, 3], [4, 5, 6]])


In [23]: f

Out[23]:

array([[1, 2, 3],
        [4, 5, 6]])

 

 

# (1-2-5) np.cumprod() : Return the cumulative product of elements along a given axis

In [24]: np.cumprod(e)  # [1, 1*2, 1*2*3, 1*2*3*4]

Out[24]: array([ 1, 2, 6, 24], dtype=int32)


In [25]: np.cumprod(f, axis=0)  # [[1, 2, 3], [1*4, 2*5, 3*6]]  ↓

Out[25]:

array([[ 1,  2,  3],
        [ 4, 10, 18]], dtype=int32)


In [26]: np.cumprod(f, axis=1)  # [[1, 1*2, 1*2*3], [4, 4*5, 4*5*6]]  →

Out[26]:

array([[  1,   2,   6],
        [  4,  20, 120]], dtype=int32)

 

 

 

 

 (1-2-6) 배열 원소 간 누적 합 구하기 범용 함수 : np.cumsum()

 

axis=0 이면 같은 행(column)의 위에서 아래 방향으로 배열 원소들을 누적(cumulative)으로 합해 나가며, axis=1 이면 같은 열(row)에 있는 배열 원소 간에 왼쪽에서 오른쪽 방향으로 누적으로 합해 나갑니다.

 

 

In [21]: e

Out[21]: array([1, 2, 3, 4])

 

# (1-2-6) np.cumsum(a, axis) : Return the cumulative sum of the elements along a given axis

 

In [27]: np.cumsum(e)  # [1, 1+2, 1+2+3, 1+2+3+4]

Out[27]: array([ 1,  3,  6, 10], dtype=int32)

 

 

In [23]: f

Out[23]:

array([[1, 2, 3],
        [4, 5, 6]])

 

In [28]: np.cumsum(f, axis=0)  # [[1, 2, 3], [1+4, 2+5, 3+6]]  ↓

Out[28]:

array([[1, 2, 3],
        [5, 7, 9]], dtype=int32)


In [29]: np.cumsum(f, axis=1)  # [[1, 1+2, 1+2+3], [4, 4+5, 4+5+6]]  →

Out[29]:

array([[ 1,  3,  6],
        [ 4,  9, 15]], dtype=int32)

 

 

 

 

  (1-2-7) 배열 원소 간 n차 차분 구하기 : np.diff()

 

 

# (1-2-7) diff(a, n, axis) : Calculate the n-th discrete difference along given axis

 

In [30]: g = np.array([1, 2, 4, 10, 13, 20])


In [31]: g

Out[31]: array([ 1, 2, 4, 10, 13, 20])

 

 

# 1차 차분 (1st order differencing)

In [32]: np.diff(g)  # [2-1, 4-2, 10-4, 13-10, 20-13]

Out[32]: array([1, 2, 6, 3, 7])

 

 

# 2차 차분 (2nd order differencing) => 1차 차분 결과 Out[32] 를 가지고 한번 더 차분

In [33]: np.diff(g, n=2)  # [2-1, 6-2, 3-6, 7-3]  <- using Out[32] array (1st order difference)

Out[33]: array([ 1, 4, -3, 4])

 

 

# 3차 차분 (3rd order differencing) => 2차 차분 결과 Out[33] 을 가지고 한번 더 차분

In [34]: np.diff(g, n=3)  # [4-1, -3-4, 4-(-3)]  <- using Out[33] array (2nd order diffenence)

Out[34]: array([ 3, -7, 7])

 

 

 

2차원 배열의 경우 axis=0 이면 같은 열(column)의 아래에서 위 방향으로 차분(difference)을 하며,

axis=1 이면 같은 행(row)의 오른쪽에서 왼쪽 방향으로 차분을 합니다.

 

 

#---- 2 dimentional arrays

 

In [35]: h = np.array([[1, 2, 4, 8], [10, 13, 20, 15]])


In [36]: h

Out[36]:

array([[ 1,  2,  4,  8],
        [10, 13, 20, 15]])

 

In [37]: np.diff(h, axis=0)  # [10-1, 13-2, 20-4, 15-8] ↑

Out[37]: array([[ 9, 11, 16, 7]])


In [38]: np.diff(h, axis=1)  # [[2-1, 4-2, 8-4], [13-10, 20-13, 15-20]] ←

Out[38]:

array([[ 1,  2,  4],
        [ 3,  7, -5]])

 

 

# n=2 이면 1차 차분 결과인 Out[38] 배열에 대해 한번 더 차분

 

In [39]: np.diff(h, n=2, axis=1)  [[2-1, 4-2], [7-3, -5-7]] ←

Out[39]:

array([[  1,   2],
        [  4, -12]])

 

 

 

 

 (1-2-8) 차분 결과를 1차원 배열(1 dimensional array)로 반환해주는 함수 : ediff1d()

 

2차원 배열에 대한 차분인 np.diff(h, axis=1) 의 경우 Out[38] 처럼 2차원 배열을 반환합니다. 반면에 ediff1d(h) 함수를 사용하면 Out[41] 처럼 차분 결과를 1차원 배열로 반환합니다.

 

 

# (1-2-8) ediff1d(ary[, to_end, to_begin])

#           : The differences between consecutive elements of an array

 

In [31]: g

Out[31]: array([ 1, 2, 4, 10, 13, 20])

 

In [40]: np.ediff1d(g)

Out[40]: array([1, 2, 6, 3, 7])

 

 

# 2 dimensional array

 

In [36]: h

Out[36]:

array([[ 1,  2,  4,  8],
        [10, 13, 20, 15]])

 

# The returned array is always 1D

In [41]: np.ediff1d(h)

Out[41]: array([ 1, 2, 4, 2, 3, 7, -5])  # 1D array, not 2D array

 

 

 

np.ediff1d() 함수의 시작부분과 끝 부분의 값을 to_begin, to_end 로 설정해줄 수도 있습니다.

 

 

In [42]: np.ediff1d(h, to_begin=np.array([-100, -99]), to_end=np.array([99, 100]))

Out[42]: array([-100, -99, 1, 2, 4, 2, 3, 7, -5, 99, 100])

 

 

 

 

  (1-2-9) 기울기(gradient) 구하기 범용 함수 : np.gradient()

 

gradient는 1차 편미분한 값들로 구성된 배열입니다. 아래 예제에 np.gradient() 함수가 어떻게 계산되는지를 수식을 적어놓았으니 참고하시기 바랍니다.  말로 설명하기가 쉽지가 않네요. ^^; 

 

 

In [31]: g

Out[31]: array([ 1, 2, 4, 10, 13, 20])

 

 

# [(2-1), {(2-1)+(4-2)}/2, {(4-2)+(10-4)}/2, {(10-4)+(13-10)}/2, {(13-10)+(20-13)}/2, (20-13)]

In [43]: np.gradient(g)

Out[43]: array([ 1. , 1.5, 4. , 4.5, 5. , 7. ])

 


# N scalars specifying the sample distances for each dimension

# x축 1단위가 '2'이므로 양쪽 옆으로 x축 변화에 따른 y값 변화를 보는 것이므로 2(단위)*2(방향)으로 나누어 줌

# [(2-1)/2, {(2-1)+(4-2)}/2*2, {(4-2)+(10-4)}/2*2, {(10-4)+(13-10)}/2*2, {(13-10)+(20-13)}/2*2, (20-13)/2] 

In [44]: np.gradient(g, 2)

Out[44]: array([ 0.5 , 0.75, 2. , 2.25, 2.5 , 3.5 ])

 


# Gradient is calculated using N-th order accurate differences at the boundaries

# 양 옆에만 2차 차분 : 1 - (1.5 -1) = 0.5,   7 + (7-5) = 9

In [45]: np.gradient(g, edge_order=2)

Out[45]: array([ 0.5, 1.5, 4. , 4.5, 5. , 9. ])

 

 

 

아래는 2차원 배열에 대한 gradient 구하는 예제입니다. np.gradient(h, axis=0)과 np.gradient(h, axis=1)을 짬뽕해 놓은 것이 np.gradient(h) 라고 보면 되겠습니다.  gradient 방법은 위의 1차원에서 소개한 방법과 같습니다.

 

 

# 2 dimensional array

 

In [36]: h

Out[36]:

array([[ 1,  2,  4,  8],
        [10, 13, 20, 15]])

 

 

# the first array stands for the gradient in rows and the second one in columns direction

In [46]: np.gradient(h)

Out[46]:

[array([[  9.,  11.,  16.,   7.],
         [  9.,  11.,  16.,   7.]]),

 array([[ 1. ,  1.5,  3. ,  4. ],
         [ 3. ,  5. ,  1. , -5. ]])]

 


# The axis keyword can be used to specify a subset of axes of which the gradient is calculated

 

In [47]: np.gradient(h, axis=0)  # ↑

Out[47]:

array([[  9.,  11.,  16.,   7.],
        [  9.,  11.,  16.,   7.]])


In [48]: np.gradient(h, axis=1)  # ←

Out[48]:

array([[ 1. ,  1.5,  3. ,  4. ],
        [ 3. ,  5. ,  1. , -5. ]])

 

 

 

다음번 포스팅에서는 지수함수, 로그함수, 삼각함수에 대해서 다루어보겠습니다.

 

많은 도움 되었기를 바랍니다.

 

 

728x90
반응형
Posted by Rfriend
,

이번 포스팅부터는 몇 번에 나누어서 로그함수, 삼각함수, 사칙연산 함수 등과 같이 일반적으로 많이 사용되는 범용 함수 (universal functions)들에 대해서 소개하겠습니다.

 

Python에서 범용 함수를 지원하는 모듈이 여러개 있습니다. 

 

Pytho 배울 때 초반에 배우는 math module은 실수(real number)에 대해서만 범용함수를 지원하며, cmath module 은 복소수(complex number) 까지 범용함수를 지원합니다. numpy module은 실수, 복소수, 복소수 행렬 (complex matrix)의 원소 간 범용 함수를 모두 지원하므로 사용 범위가 가장 넓어 매우 유용합니다.  배열의 원소간 연산을 위해 NumPy의 Ufunc 함수는 쓸모가 많습니다. NumPy는 맥가이버 칼 같다고나 할까요.

 

[ Python modules for Universal Functions ]

 

 

 

 

NumPy 범용 함수는 몇 개의 배열에 대해 적용이 되는지에 따라서

 - (1) 1개의 배열에 적용하는 Unary Universal Functions (ufuncs)

 - (2) 2개의 배열에 대해 적용하는 Binary Universal Functions (ufuncs)

으로 구분할 수 있습니다.

 

범용함수 종류가 너무 많아서 포스팅에 한꺼번에 소개하기가 버거우므로, 서너번에 나누어서 Unary Universal Functions를 먼저 소개하고, 다음으로 Binary Ufuncs  순서로 알아보겠습니다.

 

 

 

 

  (1-1) 올림 혹은 내림 범용 함수 (round universal functions)

 

비슷비슷한 함수들이 여러개 있는데요, 말로 설명하는 것보다 예를 자세히 살펴보고 비교해보는 것이 이해하기에 쉽고 빠를 것 같습니다.

 

 

# import module and making an array

In [1]: import numpy as np


In [2]: a = np.array([-4.62, -2.19, 0, 1.57, 3.40, 4.06])


In [3]: a

Out[3]: array([-4.62, -2.19, 0. , 1.57, 3.4 , 4.06])

 

 

 

 (1-1-1) np.around(a) : 0.5를 기준으로 올림 혹은 내림

 

 

# np.around(a) : Evenly round to the given number of decimals

 

In [3]: a

Out[3]: array([-4.62, -2.19, 0. , 1.57, 3.4 , 4.06])

 

In [4]: np.around(a)

Out[4]: array([-5., -2., 0., 2., 3., 4.]) 

 

 

 

 

 (1-1-2) np.round_(a, N) : N 소수점 자릿수까지 반올림

 

  

# np.round_(a, n) : Round an array to the given number of decimals

 

In [3]: a

Out[3]: array([-4.62, -2.19, 0. , 1.57, 3.4 , 4.06])

 

In [5]: np.round_(a, 1)

Out[5]: array([-4.6, -2.2, 0. , 1.6, 3.4, 4.1]) 

 

 

 

 

 (1-1-3) np.rint(a) : 가장 가까운 정수로 올림 혹은 내림

 

 

# round elements to the nearest integer

 

In [3]: a

Out[3]: array([-4.62, -2.19, 0. , 1.57, 3.4 , 4.06])

 

In [6]: np.rint(a)

Out[6]: array([-5., -2., 0., 2., 3., 4.])

 

 

 

 

 (1-1-4) np.fix(a) : '0' 방향으로 가장 가까운 정수로 올림 혹은 내림

 

 

# Round to nearest integer towards zero

 

In [3]: a

Out[3]: array([-4.62, -2.19, 0. , 1.57, 3.4 , 4.06])

 

In [7]: np.fix(a)

Out[7]: array([-4., -2., 0., 1., 3., 4.])

 

 

 

 

 (1-1-5) np.ceil(a) : 각 원소 값보다 크거나 같은 가장 작은 정수 값 (천장 값)으로 올림

 

 

# the smallest integer greater than or equal to each element 

 

In [3]: a

Out[3]: array([-4.62, -2.19, 0. , 1.57, 3.4 , 4.06])

 

In [8]: np.ceil(a)

Out[8]: array([-4., -2., 0., 2., 4., 5.])

 

 

 

 

 (1-1-6) np.floor(a) : 각 원소 값보다 작거나 같은 가장 큰 정수 값 (바닥 값)으로 내림

 

 

# the largest integer less than or equal to each element

 

In [3]: a

Out[3]: array([-4.62, -2.19, 0. , 1.57, 3.4 , 4.06])

 

In [9]: np.floor(a)

Out[9]: array([-5., -3., 0., 1., 3., 4.])

 

 

 

 

 (1-1-7) np.trunc(a) : 각 원소의 소수점 부분은 잘라버리고 정수값만 남김

 

 

# Return the truncated value of the input, element-wise

 

In [3]: a

Out[3]: array([-4.62, -2.19, 0. , 1.57, 3.4 , 4.06])

 

In [10]: np.trunc(a)

Out[10]: array([-4., -2., 0., 1., 3., 4.])

 

 

 

다음번 포스팅에서는 단일 배열 범용 함수의 두번째 순서로 합(sums), 곱(products), 차분(difference), 미분(gradient) 함수에 대해서 알아보도록 하겠습니다.

 

많은 도움 되었기를 바랍니다.

 

 

728x90
반응형
Posted by Rfriend
,

지난번 포스팅에서는

 

 - 다차원 배열 Indexing & Slicing

   ( 예: arr[0:2, 5:8] )

 - 다차원 배열 Boolean Indexing 

   ( 예: arr[bool_cond == 'A'] )

 

에 대해서 알아보았습니다.

 

이번 포스팅에서는 배열 Indexing의 세번째 방법으로서 정수 배열을 indexer로 사용해서 다차원 배열로 부터 Indexing하는 방법, Fancy Indexing에 대해 알아보겠습니다.  앞서의 배열 Indexing & Slicing 에서는 view 가 만들어졌었지만, Fancy Indexing은 copy를 만듭니다.

(세가지 방법이 서로 비슷비슷해서 뭐가 다른거지? 하는 혼란이 있을 것입니다.  이번 포스팅을 살펴본 후에 앞서의 2가지도 마저 비교해보면서 살펴볼 것을 권합니다)

 

Fancy Indexing의 경우 앞서 소개했었던 배열 Indexing 하는 부분에 '정수 배열(integer array)'이 들어갑니다.

 

(1) 특정 순서로 다차원 배열의 행을 Fancy Indexing 하기

(2) 특정 순서로 다차원 배열의 행과 열을 Fancy Indexing 하기 

 

로 나누어서 예를 들어 설명하겠습니다.

 

 

  (1) 특정 순서로 다차원 배열의 행(row)을 Fancy Indexing 하기

 

 

 

'axis 0' (row 기준)의 위에서 부터 아래 방향(from the first to the end)으로 '1'과 '2' 위치의 행(row) 전체를 fancy indexing 해보겠습니다. 대괄호(square brackets) 2개를 사용해서 a[[1, 2]] 처럼 입력해주면 됩니다.

 

 

In [1]: import numpy as np


In [2]: a = np.arange(15).reshape(5, 3)


In [3]: a

Out[3]:

array([[ 0,  1,  2],
        [ 3,  4,  5],
        [ 6,  7,  8],
        [ 9, 10, 11],
        [12, 13, 14]])

 

 

# (1) selecting a subset of the rows
# (1-1) selecting a subset of the rows by fancy indexing using integer arrays

In [4]: a[[1, 2]]

Out[4]:

array([[3, 4, 5],
        [6, 7, 8]])

 

 

 

 

'axis 0' (row 기준)의 아래에서 위 방향(from the end to the first) 으로 fancy indexing을 하고 싶으면 '-' (minus) 부호를 붙여주면 됩니다.  단, 이때는 indexing이 '0'부터 시작하는 것이 아니라 '1'부터 시작합니다. (헷갈리지요? -_-;)

 

 

# (1-2) selecting a subet of the rows from the end by using negative indices

 

In [5]: a[[-1, -2]]

Out[5]:

array([[12, 13, 14],
        [ 9, 10, 11]])

 

 

 

 

  (2) 특정 순서로 다차원 배열의 행(row)과 열(column)을 Fancy Indexing 하기

 

두가지 방법이 있습니다.

 

(2-1) 첫번째 방법은 (1-1)에서 소개했던 방법으로 특정 순서로 행(row)을 fancy indexing 합니다. 그런 후에 전체 행을 ':'로 선택하고, 특정 칼럼을 순서대로 배열을 사용해서 indexing을 한번 더 해주는 겁니다.

 

(2-2) 두번째 방법은 np.ix_ 함수를 사용해서 배열1 로 특정 행(row)을 지정, 배열2 로 특정 열(column)을 지정해주는 것입니다.

 

'0', '2', '4'의 행(row)을 indexing하고, '0', '2' 열(column)을 indexing 해오는 두가지 방법을 순서대로 예를 들어보겠습니다.

 

 

 

# (2) selecting a square region of the rows and columns
# (2-1) selecting subset by passing multiple index arrays first, and then selecting columns

 

In [6]: a[[0, 2, 4]][:, [0, 2]]

Out[6]:

array([[ 0,  2],
        [ 6,  8],
        [12, 14]])

 

 

# (2-2) by using np.ix_ function : converting two 1D integer arrays to an indexer

In [7]: a[np.ix_([0, 2, 4], [0, 2])]

Out[7]:

array([[ 0,  2],
        [ 6,  8],
        [12, 14]])

 

 

 

 

  (3) Fancy Indexing은 view가 아니라 copy 를 생성

 

다시 한번 강조하지만, Fancy Indexing 을 하게 되면 view가 아니라 copy 가 생성이 됩니다.  따라서 Fancy Indexing 후의 copy 된 배열에 변화를 주어도 원본 배열에는 아무런 영향이 없습니다.  (앞서의 포스팅에서 다루었던 배열 indexing & slicing에서는 거꾸로 copy가 아니라 view를 생성했었습니다. 그러다보니 view에 변화를 가하면 원본 배열에도 동일한 변화가 가해졌었습니다)

 

 

# (3) fancy indexing creates a copy, not a view

 

In [8]: a

Out[8]:

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11],
       [12, 13, 14]])


In [9]: a_copy = a[np.ix_([0, 2, 4], [0, 2])]


In [10]: a_copy

Out[10]:

array([[ 0,  2],
        [ 6,  8],
        [12, 14]])

 

 

# change to the copy of the ndarray

In [11]: a_copy[0, :] = 100


In [12]: a_copy

Out[12]:

array([[100, 100],
        [  6,   8],
        [ 12,  14]])

 

 

# no change to the original array

In [13]: a

Out[13]:

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11],
       [12, 13, 14]])

 

 

 

많은 도움 되었기를 바랍니다.

 

 

728x90
반응형
Posted by Rfriend
,

지난번 포스팅에서 Python NumPy의 배열 Indexing & Slicing 에 대해서 소개를 했었습니다.

 

이번 포스팅에서는 배열 Indexing & Slicing 에 조금 더 살을 붙여볼 텐데요, 조건문을 가지고 True, False 로 Indexing을 해보는 "Boolean Indexing" 입니다. 

 

데이터 전처리를 하다보면 == (equal), != (not equal), & (and), | (or) 등의 조건문 연산자를 활용해서 indexing & slicing 해야할 때가 종종 있으므로 이번 포스팅도 씀씀이가 솔솔할겁니다.

 

 

 

 

 

2차원 배열을 가지고 간단한 예를 들어서 설명해보겠습니다.

 

  (1) 특정 조건을 만족하는 배열의 모든 열을 선별하기 : ==

 

 

# making a 2D array

 

In [1]: import numpy as np


In [2]: arr = np.arange(20).reshape(5, 4)


In [3]: arr

Out[3]:

array([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11],
        [12, 13, 14, 15],
        [16, 17, 18, 19]])

 

 

 

 

Boolean 조건값으로 사용할 배열을 하나 만들어 보겠습니다. 

 

Boolean Indexing 할 때 원래 배열의 축(axis 0) 의 원소 개수가 Boolean 배열의 원소의 개수와 같아야 합니다.  이번 예에서는 arr 배열의 shape 이 (5, 4) 이므로 행(row)의 '5'에 맞추어서 '5'개의 원소(element)로 구성된 'axis_ABC'라는 배열을 만들었습니다.

 

 

# an array of 'axis_ABC' with duplicates

 

In [4]: axis_ABC = np.array(['A', 'A', 'B', 'C', 'C'])

In [5]: axis_ABC

Out[5]:

array(['A', 'A', 'B', 'C', 'C'],
        dtype='<U1')

 

 

 

 

axis_ABC == 'A' 인 행 전체를 배열 'arr'로 부터 indexing 해보겠습니다.  전체 열을 같이 indexing 해오라고 지시하기 위해 콤마(comma) ','와 콜론 (colon) ':' 을 사용해도 되고, 생략해도 됩니다.

 

 

# selecting all the rows which axis_ABC equals(==) 'A'

 

In [6]: axis_ABC == 'A'

Out[6]: array([ True, True, False, False, False], dtype=bool)


In [7]: arr[axis_ABC == 'A']

Out[7]:

array([[0, 1, 2, 3],
        [4, 5, 6, 7]])

 

 

# the same result with the above

In [8]: arr[axis_ABC == 'A', :]

Out[8]:

array([[0, 1, 2, 3],
        [4, 5, 6, 7]])

 

 

 

 

옆길로 조금 빠져보자면요, Boolean 조건으로 행(row) 전체를 indexing 하고, 콤마(comma) ','  와 함께 콜론(colon) ':'으로 slicing을 하거나 정수(integer)로 열(column)을 indexing 하는 예를 들어보겠습니다.

 

 

# slicing with colon ':'

 

In [9]: arr[axis_ABC == 'A', :2]

Out[9]:

array([[0, 1],
        [4, 5]])

 

 

# indexing with interger => result to low dimension array

In [10]: arr[axis_ABC == 'A', 2]

Out[10]: array([2, 6])

 

 

 

 

 

  (2) 특정 조건을 만족하지 않는 배열의 모든 열을 선별하기 : !=, ~(==)

 

위의 예와는 정반대로 'A'가 아닌 전체 열(row)을 indexing 해보겠습니다. 

'!='와 '~(==)'의 두가지 방법이 있습니다.

 

 

In [3]: arr

Out[3]:

array([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11],
        [12, 13, 14, 15],
        [16, 17, 18, 19]])

 

In [4]: axis_ABC = np.array(['A', 'A', 'B', 'C', 'C'])

 

 

# selecting all the rows except 'A' : != 'A'

 

In [11]: arr[axis_ABC != 'A']

Out[11]:

array([[ 8,  9, 10, 11],
        [12, 13, 14, 15],
        [16, 17, 18, 19]])

 

 

# selecting all the rows except 'A' : ~(axisABC == 'A')

In [12]: arr[~(axis_ABC == 'A')]

Out[12]:

array([[ 8,  9, 10, 11],
        [12, 13, 14, 15],
        [16, 17, 18, 19]])

 

 

 

 

 

  (3) 복수의 조건으로 배열의 특정 열 선별하기 : & (and), | (or)

 

Boolean 조건문으로 두 개 이상의 복수개를 사용할 때가 있겠지요?  & (and), | (or) operator로 복수의 조건문을 엮어서 indexing 하는 예를 들어보겠습니다.

 

 

In [3]: arr

Out[3]:

array([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11],
        [12, 13, 14, 15],
        [16, 17, 18, 19]])

 

In [4]: axis_ABC = np.array(['A', 'A', 'B', 'C', 'C'])

 

 

# indexing by using mutiple boolean conditions, & (and), | (or)

 

In [13]: arr[(axis_ABC == 'A') | (axis_ABC == 'B')]

Out[13]:

array([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]])


In [14]: arr[(axis_ABC != 'A') & (axis_ABC != 'B')]

Out[14]:

array([[12, 13, 14, 15],
        [16, 17, 18, 19]])

 

 

 

 

이때 유의할 게 있는데요, '&', '|' 대신에 'and' 혹은 'or' syntax로 직접 입력하면 'ValueError' 메시지가 뜹니다.

 

 

# ValueError : and, or syntax

 

In [15]: arr[(axis_ABC != 'A') and (axis_ABC != 'B')]

Traceback (most recent call last):


File "<ipython-input-15-ca8b3629eb98>", line 1, in <module>

arr[(axis_ABC != 'A') and (axis_ABC != 'B')]


ValueError: The truth value of an array with more than one element is ambiguous. Use a.any() or a.all()

 

 

 

 

 

  (4) Booean 조건에 해당하는 배열 Indexing에 스칼라 값을 할당하기

 

 

In [3]: arr

Out[3]:

array([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11],
        [12, 13, 14, 15],
        [16, 17, 18, 19]])

 

In [4]: axis_ABC = np.array(['A', 'A', 'B', 'C', 'C'])

 

 

# assigning salcar values with boolean arrays

 

In [16]: arr[axis_ABC == 'A'] = 100


In [17]: arr

Out[17]:

array([[100, 100, 100, 100],
        [100, 100, 100, 100],
        [  8,   9,  10,  11],
        [ 12,  13,  14,  15],
        [ 16,  17,  18,  19]])


 

In [18]: arr[arr >= 100] = 0


In [19]: arr

Out[19]:

array([[ 0,  0,  0,  0],
        [ 0,  0,  0,  0],
        [ 8,  9, 10, 11],
        [12, 13, 14, 15],
        [16, 17, 18, 19]])

 

 

In [20]: arr[(arr >= 8) & (arr <= 15)] = 10


In [21]: arr

Out[21]:

array([[ 0,  0,  0,  0],
        [ 0,  0,  0,  0],
        [10, 10, 10, 10],
        [10, 10, 10, 10],
        [16, 17, 18, 19]])

 

 

 

다음번 포스팅에서는 특정 순서로 행과 열을 선택하는 Fancy Indexing 에 대해서 알아보겠습니다.

 

많은 도움 되었기를 바랍니다.

 

 

728x90
반응형
Posted by Rfriend
,

예전에 Python Pandas 의 DataFrame 전처리에 대해서 연재할 때 DataFrame의 행 또는 열 데이터 선택해서 가져오기 (Indexing and selection of DataFrame objects) 하는 방법에 대해서 소개했던 적이 있습니다.

 

이번 포스팅에서는 Python NumPy 배열의 일부분, 부분집합을 선택 (Indexing and slicing an ndarray) 하는 방법을 알아보겠습니다.  

 

다차원 배열 다룰 때 indexing, slicing 은 마치 밥 먹을 때 수시로 김치에 젖가락이 가듯이 그냥 일상적으로 사용하곤 하므로 정확하게 알아둘 필요가 있습니다.

 

1차원 배열, 2차원 배열, 3차원 배열의 순서대로 indexing 하는 방법을 간단한 예를 들어서 설명해보겠습니다.

 

 

 

 

  (1-1) Indexing a subset of 1D array : a[from : to]

 

 

#%% NumPy array Indexing and Slicing

 

In [1]: import numpy as np


In [2]: a = np.arange(10)


In [3]: a

Out[3]: array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

 

 

# (1-1) Indexing a subset of 1D array

In [4]: a[0]

Out[4]: 0

In [5]: a[0:5]

Out[5]: array([0, 1, 2, 3, 4])

 

 

 

 

  (1-2) array slices are views of the original array and are not a copy

 

Python NumPy의 배열 indexing, slicing에서 유의해야할 것이 있습니다.  배열을 indexing 해서 얻은 객체는 복사(copy)가 된 독립된 객체가 아니며, 단지 원래 배열의 view 일 뿐이라는 점입니다.  따라서 view를 새로운 값으로 변경시키면 원래의 배열의 값도 변경이 됩니다.

 

아래 예에서 원래의 배열 'b'의 0, 1, 2 위치의 원소에 빨간색으로 밑줄을 그어놨습니다.  배열 b에서 0, 1, 2, 3, 4 위치의 값을 indexing 해서 만든 b_idx 배열은 원래 배열 b의 view 일 뿐이며, copy가 아닙니다. b_idx 에서 뭔가 변화가 일어나면 원래의 배열 b에도 b_idx의 변화가 반영됩니다.  b_idx의 0, 1, 2 위치의 원소 값을 '10'으로 바꿔치기 했더니 원래의 배열 b의 0, 1, 2 위치의 값도 '10'으로 바뀌어있음을 알 수 있습니다.

 

 

In [6]: b = np.arange(10)


In [7]: b

Out[7]: array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])


In [8]: b_idx = b[0:5]


In [9]: b_idx

Out[9]: array([0, 1, 2, 3, 4])

 

 

# Assigning(Broadcasting) a scalar to a slice of 1D array

In [10]: b_idx[0:3] = 10


In [11]: b_idx

Out[11]: array([10, 10, 10, 3, 4])

 

 

# compare this 'b' with the original array 'b' above, it's different!!!

In [12]: b

Out[12]: array([10, 10, 10, 3, 4, 5, 6, 7, 8, 9])

 

 

 

R 사용자라면 위 상황을 보고 아주 당황스러울 것입니다.  R에서는 indexing을 하면 무조건 copy 가 되고, 원래의 배열과 indexing한 후의 배열은 전혀 별개의, 독립된 객체로 간주가 되거든요.  그래서 저 같은 경우는 크기가 매우 큰 배열의 경우 아주 작은 일부분만 indexing을 해 온후에, 작은 크기의 indexing한 배열을 가지고 데이터 조작 test를 이렇게 저렇게 다양하게 해 본 후에, 제대로 작동하는 걸 확인한 최종 R script를 원래의 크기가 큰 배열에 적용하곤 했거든요.  indexing 했던 배열에 제가 무슨 짓을 하던 그건 원래의 배열에 영향이 없었던 거지요.

 

반면에, Python NumPy의 배열에서는 indexing해온 배열에 제가 무슨 짓을 하면요, 그게 원래의 배열에도 반영이 되는 줄을 처음에 몰랐었습니다. 그러다 보니 indexing했던 배열에 이런, 저런 test 해보고 나서 원래 배열이 변질(?)이 된 것 보고 '이게 뭐지?  왜 이런 거지?  무슨 일이 벌어진 거지?  이거 혹시 버그?'... 뭐, 이랬습니다.  한참을 이랬습니다.  에휴... -_-;

 

Python NumPy가 배열 indexing 할 때 copy가 view를 반환하는데는 이유가 있겠지요?  그건 성능(performance)을 높이고 메모리(memory) 이슈를 피하기 위해서 입니다.

 

 

 

  (1-3) indexing한 배열을 복사하기 : arr[0:5].copy()

 

배열을 indexing 한 후에 얻은 배열을 복사하고 싶으면, 그래서 원래의 배열과 독립된 배열로 처리하고 싶으면 copy() method 를 사용하면 됩니다.  아래 예는 c[0:5].copy() 만 다르고, 나머지는 위의 예와 동일한데요, 제일 마지막의 [19] 번 결과를 보면 원래의 배열 'c'가 indexing된 배열 'c_idx_copy'가 중간에 바뀐것에 영향을 안받고 원래의 값을 그대로 유지하고 있습니다.  빨간색으로 밑줄 그어놓은 부분을 위의 [12]번 결과와 아래의 [19]번 결과를 비교해보시기 바랍니다.

 

 

In [13]: c = np.arange(10)


In [14]: c

Out[14]: array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])


In [15]: c_idx_copy = c[0:5].copy()


In [16]: c_idx_copy

Out[16]: array([0, 1, 2, 3, 4])


In [17]: c_idx_copy[0:3] = 10


In [18]: c_idx_copy

Out[18]: array([10, 10, 10, 3, 4])


In [19]: c

Out[19]: array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

 

 

 

 

이제 2차원 배열로 넘어가 볼까요?

 

  (2-1) Indexing and Slicing 2D array with comma ',' : d[0:3, 1:3]

 

행과 열 기준으로 위치를 지정해주어서 indexing을 하며, 연속된 위치 값의 경우 '0:2' 처럼 콜론(colon) ':' 를 사용하면 편리합니다. 행과 열의 구분은 콤마(comma) ',' 를 사용합니다.

 

아래 몇 가지 유형별로 예시를 들어놓았으니 indexing 방법과 결과를 살펴보시기 바랍니다.

 

 

In [20]: d = np.arange(20).reshape(4, 5)


In [21]: d

Out[21]:

array([[ 0,  1,  2,  3,  4],
        [ 5,  6,  7,  8,  9],
        [10, 11, 12, 13, 14],
        [15, 16, 17, 18, 19]])

 

 

# indexing a row of 2D array => returning a 1D array

In [22]: d[0]

Out[22]: array([0, 1, 2, 3, 4])

 

 

# indexing mutiple rows in a row of 2D array : use colon ':'

 

In [23]: d[0:2]

Out[23]:

array([[0, 1, 2, 3, 4],
        [5, 6, 7, 8, 9]])

 

 

# indexing an element of of 2D array : use comma ','

 

In [24]: d[0, 4]

Out[24]: 4

 

In [25]: d[0:3, 1:3]

Out[25]:

array([[ 1,  2],
        [ 6,  7],
        [11, 12]])

 

 

 

 

  (2-2) Indexing and Slicing 2D array with square bracket '[ ][ ]' : d[0:3][1:3]

 

NumPy 배열을 행과 열을 기준으로 indexing 할 때 콤마(comma) ','를 사용하지 않고 아래 처럼 대괄호(square bracket)을 두개 '[ ][ ]' 처럼 사용할 수도 있습니다. 다만, indexing 하는 순서와 결과가 위에서 예를 들었던 콤마 ','를 사용하는 것과 조금 다르므로 주의하기 바랍니다.

 

대괄호 두개 '[ ][ ]'는 첫번째 대괄호 '[ ]'에서 indexing을 먼저 하고 나서, 그 결과를 가져다가 두번째 대괄호 '[ ]'에서 한번 더 indexing을 하게 됩니다. 

 

 

In [26]: d

Out[26]:

array([[ 0,  1,  2,  3,  4],
        [ 5,  6,  7,  8,  9],
        [10, 11, 12, 13, 14],
        [15, 16, 17, 18, 19]])


In [27]: d[0][4] # the same result with the above [24]

Out[27]: 4


In [28]: d[0:3][1:3] # a different result from the above [25], working sequencially

Out[28]:

array([[ 5,  6,  7,  8,  9],
        [10, 11, 12, 13, 14]])

 

 

 

 

  (2-3) array slices are views of the original array and are not a copy

 

위의 (1-2) 에서 NumPy 배열을 indexing해서 얻은 배열은 원래 배열의 copy가 아니라 view 라고 했었습니다.  2차원 배열도 똑같습니다.  복습하는 차원에서 2차원 배열에서 indexing한 view 'd_idx_0'에 일부 변화를 줘보겠습니다.  그랬더니 원래 배열 'd'에도 view 'd_dix_0'의 변화가 반영이 되었음을 알 수 있습니다.

 

 

# assigning a scalar value to the subset(1D array) of 2D array

 

In [29]: d

Out[29]:

array([[ 0,  1,  2,  3,  4],
        [ 5,  6,  7,  8,  9],
        [10, 11, 12, 13, 14],
        [15, 16, 17, 18, 19]])


In [30]: d_idx_0 = d[0]


In [31]: d_idx_0

Out[31]: array([0, 1, 2, 3, 4])


In [32]: d_idx_0[0:2] = 100


In [33]: d_idx_0

Out[33]: array([100, 100, 2, 3, 4])

 

 

# once again, subset of array by indexing is not a copy, but a view!!!

In [34]: d

Out[34]:

array([[100, 100,   2,   3,   4],
        [  5,   6,   7,   8,   9],
        [ 10,  11,  12,  13,  14],
        [ 15,  16,  17,  18,  19]])

 

 

 

 

3차원 배열 indexing도 마저 알아보겠습니다. 

 

  (3-1) Indexing and Slicing of 3D array : e[0, 0, 0:3]

 

방법은 위의 1차원 배열, 2차원 배열 indexing과 동일합니다.  3차원이 되면 2차원 배열이 층을 이루어서 겹겹이 쌓여서 나타나게 되어서 좀 헷갈릴 수 있는데요, 아래에 몇 개 indexing 유형별로 예를 들었으니 참고하시기 바랍니다.

 

층을 먼저 선택(2차원 배열 덩어리 중에서 먼저 indexing) 하는 것이 추가가 된 것이구요, 그 다음의 indexing은 위의 2차원 배열 indexing 방법과 동일합니다.

 

 

# (3-1) Indexing and Slicing 3D array

 

In [35]: e = np.arange(24).reshape(2, 3, 4)


In [36]: e

Out[36]:

array([[[ 0,  1,  2,  3],
         [ 4,  5,  6,  7],
         [ 8,  9, 10, 11]],

        [[12, 13, 14, 15],
         [16, 17, 18, 19],
         [20, 21, 22, 23]]])

 

 

# indexing the first array with shape(3, 4) from the 3D array with shape(2, 3, 4)

In [37]: e_idx_0 = e[0]


In [38]: e_idx_0

Out[38]:

array([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]])

 

 

# indexing the first row of the first array with shape(3, 4) from the 3D array with shape(2, 3, 4)

In [39]: e_idx_0_0 = e[0, 0]


In [40]: e_idx_0_0

Out[40]: array([0, 1, 2, 3])

 

 

# indexing the '0, 1, 2' elements from the first row of the first array with shape(3, 4)

# from the 3D array with shape(2, 3, 4)

In [41]: e_idx_0_0_0_2 = e[0, 0, 0:3]


In [42]: e_idx_0_0_0_2

Out[42]: array([0, 1, 2])

 

 

 

 

  (3-2) 축 하나를 통째로 가져오기( indexing the entire axis by using colon ':')

 

콜론(colon) ':' 을 사용해서 행 축(row, axis 0)을 통째로 slicing 해올 수 있습니다.

 

 

In [44]: e

Out[44]:

array([[[ 0,  1,  2,  3],
         [ 4,  5,  6,  7],
         [ 8,  9, 10, 11]],

        [[12, 13, 14, 15],
         [16, 17, 18, 19],
         [20, 21, 22, 23]]])

 

 

# indexing the entire axis by using colon ':'

 

In [43]: e[0, :, 0:3]

Out[43]:

array([[ 0,  1,  2],
        [ 4,  5,  6],
        [ 8,  9, 10]])

 

 

 

 

 

 Python NumPy 배열 Indexing과 R의 행렬 Indexing 비교

 

마지막으로, R을 사용하면서 Python을 사용하는 분이라면 indexing이 처음에 혼란스러울 것입니다. 

저는 R indexing이 훨씬 더 쉬운데요, 여러분은 어떤지 모르겠습니다.  Python indexing은 '0'부터 시작하는 것도 어색하고, '0:3'이라고 했을 때 '3' 위치는 포함하지 않는 것도 어색합니다.  Python indexing 할 때는 항상 긴장하고, 실수 하지 않기 위해 머리 써야 해서 피곤합니다. -_-;;;  

(Java 나 C 프로그래밍 하셨던 분이라면 Python indexing이 더 쉽고 R indexing이 혼란스럽다고 하겠지요? ㅎㅎ)

 

아래에 Python NumPy 2차원 배열 indexing과 똑같은 결과를 얻을 수 있는 R의 행렬 indexing을 비교해보았습니다.

 

 Python NumPy : Indexing of 2D array

R : Indexing of Matrix 

 

In [44]: d = np.arange(20).reshape(4, 5)


In [45]: d

Out[45]:

array([[ 0,  1,  2,  3,  4],
        [ 5,  6,  7,  8,  9],
        [10, 11, 12, 13, 14],
        [15, 16, 17, 18, 19]])


In [46]: d[0:3, 1:3]

Out[46]:

array([[ 1,  2],
        [ 6,  7],
        [11, 12]])

 

 

> R_matrix_4_5 <- matrix(0:19, 
+                        nrow=4, 
+                        byrow=T)
>
> R_matrix_4_5 [,1] [,2] [,3] [,4] [,5] [1,] 0 1 2 3 4 [2,] 5 6 7 8 9 [3,] 10 11 12 13 14 [4,] 15 16 17 18 19 > > R_matrix_4_5[1:3, 2:3] [,1] [,2] [1,] 1 2 [2,] 6 7 [3,] 11 12

 

 

 

다음번 포스팅에서는

 

 - Boolean Indexing

 - Fancy Indexing

 

에 대해서 알아보겠습니다.

 

많은 도움 되었기를 바랍니다.

 

 

728x90
반응형
Posted by Rfriend
,

지난번 포스팅에서는 다차원 행렬 ndarray에 축을 추가하는 방법으로 arr(:, np.newaxis, :), np.tile() 을 소개했었습니다.

 

이번 포스팅에서는 행렬의 행과 열을 바꾸기, 행렬의 축을 바꾸는 방법을 알아보겠습니다.  선형대수에서 보면 '전치행렬(transpose matrix)'이라는 특수한 형태의 행렬이 있는데요, 이번 포스팅이 바로 그겁니다. 행렬의 내적(inner product) 구할 때 aT*a 처럼 전치행렬과 원래 행렬을 곱할 때 전치행렬(aT)를 씁니다.

 

 

Python의 NumPy 로 부터 행렬 전치를 위해

 

 - a.T attribute

 - np.transpose(a) method

 - np.swapaxes(a, 0, 1) method

 

의 3가지 방법을 사용할 수 있습니다.

 

 

 

a.T attrbute, np.transpose() method, np.swapaxes() method 각각에 대해 2차원 행렬을 전치하는 단한 예를 들어보겠습니다.

 

 

  (1-1) Transposing 2 D array : a.T attribute

 

 

In [1]: import numpy as np


In [2]: a = np.arange(15).reshape(3, 5)


In [3]: a

Out[3]:

array([[ 0,  1,  2,  3,  4],
        [ 5,  6,  7,  8,  9],
        [10, 11, 12, 13, 14]])

 

# (1-1) transposing 2D array : T attribute

In [4]: a.T

Out[4]:

array([[ 0,  5, 10],
        [ 1,  6, 11],
        [ 2,  7, 12],
        [ 3,  8, 13],
        [ 4,  9, 14]])

 

 

 

 

  (1-2) Transposing 2D array : np.transpose() method

 

 

In [5]: a

Out[5]:

array([[ 0,  1,  2,  3,  4],
        [ 5,  6,  7,  8,  9],
        [10, 11, 12, 13, 14]])

 

# (1-2) transpose method : numpy.transpose(a, axes=None)

In [6]: np.transpose(a)

Out[6]:

array([[ 0,  5, 10],
        [ 1,  6, 11],
        [ 2,  7, 12],
        [ 3,  8, 13],
        [ 4,  9, 14]])

 

 

 

 

  (1-3) Transposing 2D array : np.swapaxes() method

 

 

In [7]: a

Out[7]:

array([[ 0,  1,  2,  3,  4],
        [ 5,  6,  7,  8,  9],
        [10, 11, 12, 13, 14]])

 

# (1-3) swapaxes method : numpy.swapaxes(a, axis1, axis2)

In [8]: np.swapaxes(a, 0, 1)

Out[8]:

array([[ 0,  5, 10],
        [ 1,  6, 11],
        [ 2,  7, 12],
        [ 3,  8, 13],
        [ 4,  9, 14]])

 

 

 

 

이쯤에서 NumPy의 np.dot() 으로 행렬 내적 (inner product, aT*a) 계산해볼까요?

 

 

In [9]: np.dot(a.T, a)

Out[9]:

array([[125, 140, 155, 170, 185],
        [140, 158, 176, 194, 212],
        [155, 176, 197, 218, 239],
        [170, 194, 218, 242, 266],
        [185, 212, 239, 266, 293]])


In [10]: np.dot(np.transpose(a), a)

Out[10]:

array([[125, 140, 155, 170, 185],
        [140, 158, 176, 194, 212],
        [155, 176, 197, 218, 239],
        [170, 194, 218, 242, 266],
        [185, 212, 239, 266, 293]])


In [11]: np.dot(np.swapaxes(a, 0, 1), a)

Out[11]:

array([[125, 140, 155, 170, 185],
        [140, 158, 176, 194, 212],
        [155, 176, 197, 218, 239],
        [170, 194, 218, 242, 266],
        [185, 212, 239, 266, 293]])

 

 

 

 

2차원 행렬로 전치에 대한 맛을 봤으니, 이제 3차원 행렬의 축을 바꿔보는 것으로 난이도를 높여보겠습니다.  np.transpose() 와 np.swapaxes() method는 전치시키려고 하는 축을 입력해줘야 하는데요, 조금 조심해서 사용해야 합니다.

 

  (2-1) Transposing 3D array : a.T attribute

 

 

In [12]: b = np.arange(24).reshape(2, 3, 4)


In [13]: b

Out[13]:

array([[[ 0,  1,  2,  3],
         [ 4,  5,  6,  7],
         [ 8,  9, 10, 11]],

        [[12, 13, 14, 15],
         [16, 17, 18, 19],
         [20, 21, 22, 23]]])


In [14]: b.T

Out[14]:

array([[[ 0, 12],
         [ 4, 16],
         [ 8, 20]],

        [[ 1, 13],
         [ 5, 17],
         [ 9, 21]],

        [[ 2, 14],
         [ 6, 18],
         [10, 22]],

        [[ 3, 15],
         [ 7, 19],
         [11, 23]]])

 

In [15]: b.T.shape

Out[15]: (4, 3, 2)

 

 

 

 

  (2-2) Transposing 3D array : np.transpose() method

 

np.transpose() method는 축을 바꾸고 싶은 위치, 순서를 분석가가 마음대로 지정할 수 있다는 측면에서 T attribute 보다 자유도가 높습니다. (처음엔 좀 헷갈리고 이해가 잘 안가는 면도 있지만요)

 

 

# shape (2, 3, 4)

In [16]: b

Out[16]:

array([[[ 0,  1,  2,  3],
         [ 4,  5,  6,  7],
         [ 8,  9, 10, 11]],

        [[12, 13, 14, 15],
         [16, 17, 18, 19],
         [20, 21, 22, 23]]])

 

 

# shape(2, 3, 4) => shape (4, 3, 2)

 

In [17]: np.transpose(b)

Out[17]:

array([[[ 0, 12],
         [ 4, 16],
         [ 8, 20]],

        [[ 1, 13],
         [ 5, 17],
         [ 9, 21]],

        [[ 2, 14],
         [ 6, 18],
         [10, 22]],

        [[ 3, 15],
         [ 7, 19],
         [11, 23]]])

 

 

# shape(2, 3, 4) => shape (4, 3, 2)

 

In [18]: np.transpose(b, (2, 1, 0))

Out[18]:

array([[[ 0, 12],
         [ 4, 16],
         [ 8, 20]],

        [[ 1, 13],
         [ 5, 17],
         [ 9, 21]],

        [[ 2, 14],
         [ 6, 18],
         [10, 22]],

        [[ 3, 15],
         [ 7, 19],
         [11, 23]]])


In [19]: b.shape

Out[19]: (2, 3, 4)


In [20]: np.transpose(b).shape

Out[20]: (4, 3, 2)

 

 

 

 

  (2-3) Transposing 3D array : np.swapaxes() method

 

 

In [21]: b

Out[21]:

array([[[ 0,  1,  2,  3],
         [ 4,  5,  6,  7],
         [ 8,  9, 10, 11]],

        [[12, 13, 14, 15],
         [16, 17, 18, 19],
         [20, 21, 22, 23]]])


In [22]: b.shape

Out[22]: (2, 3, 4)

 


# shape(2, 3, 4) => shape(4, 3, 2)

 

In [23]: np.swapaxes(b, 0, 2)

Out[23]:

array([[[ 0, 12],
         [ 4, 16],
         [ 8, 20]],

        [[ 1, 13],
         [ 5, 17],
         [ 9, 21]],

        [[ 2, 14],
         [ 6, 18],
         [10, 22]],

        [[ 3, 15],
         [ 7, 19],
         [11, 23]]])

 

In [24]: np.swapaxes(b, 0, 2).shape

Out[24]: (4, 3, 2)

 

 

 

 

np.transpose() 와 np.swapaxes() method를 사용해서 전치시키려는 축의 순서를 위의 예시와는 조금 다르게 바꿔서 해보겠습니다. 축(axes)의 순서를 바꿔서 입력해주면 됩니다. (말로 설명하기 좀 어려운데요, 아래 예와 위의 예를 유심히 살펴보시기 바랍니다)

 

 

In [25]: b

Out[25]:

array([[[ 0,  1,  2,  3],
         [ 4,  5,  6,  7],
         [ 8,  9, 10, 11]],

        [[12, 13, 14, 15],
         [16, 17, 18, 19],
         [20, 21, 22, 23]]])


In [26]: b.shape

Out[26]: (2, 3, 4)

 

 

# shape(2, 3, 4) => shape(3, 2, 4)

In [27]: np.transpose(b, (1, 0, 2)).shape

Out[27]: (3, 2, 4)


In [28]: np.transpose(b, (1, 0, 2))

Out[28]:

ararray([[[ 0,  1,  2,  3],
           [12, 13, 14, 15]],

          [[ 4,  5,  6,  7],
           [16, 17, 18, 19]],

          [[ 8,  9, 10, 11],
           [20, 21, 22, 23]]])

 

 

 

 

위의 [28]번 np.transpose(b, (1, 0, 2)) 와 똑같은 결과를 얻을 수 있는 방법으로 np.swapaxes(b, 1, 0)을 사용하면 됩니다.

 

 

In [29]: b

Out[29]:

array([[[ 0,  1,  2,  3],
         [ 4,  5,  6,  7],
         [ 8,  9, 10, 11]],

        [[12, 13, 14, 15],
         [16, 17, 18, 19],
         [20, 21, 22, 23]]])


In [30]: b.shape

Out[30]: (2, 3, 4)


In [31]: np.swapaxes(b, 1, 0).shape

Out[31]: (3, 2, 4)


In [32]: np.swapaxes(b, 1, 0)

Out[32]:

ararray([[[ 0,  1,  2,  3],
           [12, 13, 14, 15]],

          [[ 4,  5,  6,  7],
           [16, 17, 18, 19]],

          [[ 8,  9, 10, 11],
           [20, 21, 22, 23]]])

 

 

 

많은 도움 되었기를 바랍니다.

 

 

728x90
반응형
Posted by Rfriend
,

지난번 포스팅에서 Broadcasting을 다루어보았는데요, 이번 포스팅에서는 Broadcasting 과 관련이 있는 NumPy Array에 새로운 축 추가하는 2가지 방법을 소개해보겠습니다.

 

하나는 np.newaxis attribute 이고, 또 하나는 np.tile() method 인데요, 사용법이나 결과가 조금 다르니 데이터 처리 용도나 목적에 맞게 골라서 사용하시면 되겠습니다.

 

(1) indexing으로 길이가 1인 새로운 축을 추가하기

   : arr(:, np.newaxis, :)

 

(2) 배열을 반복하면서 새로운 축을 추가하기

   : np.tile(arr, reps)

 

 

 

 

 

  (1) indexing으로 길이가 1인 새로운 축을 추가하기 : arr(:, np.newaxis, :)

 

먼저 NumPy 모듈을 불러어고, 예제 array 를 만들어보겠습니다.

 

 

In [1]: import numpy as np


In [2]: a = np.array([1., 2., 3., 4.])


In [3]: a

Out[3]: array([ 1., 2., 3., 4.])


In [4]: a.shape

Out[4]: (4,)

 

 

 

np.newaxis attribute를 사용해서 길이가 1인 새로운 축을 하나 추가해보겠습니다.

 

 

# (1) np.newaxis : adding and inserting new axis  with length 1 by indexing

 

In [5]: a_4_1 = a[:, np.newaxis]


In [6]: a_4_1

Out[6]:

array([[ 1.],
       [ 2.],
       [ 3.],
       [ 4.]])


In [7]: a_4_1.shape

Out[7]: (4, 1)

 

 

 

 

이번에는 shape(3, 4) 인 2차원의 배열에 길이가 1인 새로운 축을 추가해서 3차원 배열을 만들어보겠습니다.  ':'를 사용해서 기존 배열의 값을 indexing 하구요, np.newaxis attribute로 새로운 축을 추가하게 됩니다.

 

 


In [8]: b = np.arange(12).reshape(3, 4)


In [9]: b

Out[9]:

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])


In [10]: b.shape

Out[10]: (3, 4)

 


# shape(3, 4, 1)

In [11]: b_3_4_1 = b[ :, :, np.newaxis]


In [12]: b_3_4_1

Out[12]:

array([[[ 0],
         [ 1],
         [ 2],
         [ 3]],

        [[ 4],
         [ 5],
         [ 6],
         [ 7]],

        [[ 8],
         [ 9],
         [10],
         [11]]])


In [13]: b_3_4_1.shape

Out[13]: (3, 4, 1)

 


# shape(3, 1, 4)

In [14]: b_3_1_4 = b[ :, np.newaxis, : ]


In [15]: b_3_1_4

Out[15]:

array([[[ 0,  1,  2,  3]],

        [[ 4,  5,  6,  7]],

        [[ 8,  9, 10, 11]]])


In [16]: b_3_1_4.shape

Out[16]: (3, 1, 4) 

 

 

 

 

 

(2) 배열을 반복하면서 새로운 축을 추가하기 : np.tile(arr, reps)

 

np.tile(arr, reps) method 는 'arr' 에는 배열을, 'reps'에는 반복하고자 하는 회수를 넣어줍니다.

'reps'에는 숫자를 넣을 수도 있고, 배열을 넣을 수도 있습니다.

 

먼저 원소 4개짜리 배열을 가지고

 - 같은 차원으로 '2번' 반복하기 : reps = 2

 - '2차원'으로 '2번' 반복하기 : reps = (2, 2)

를 차례대로 해보겠습니다.

 

 

In [17]: A = np.array([0., 1., 2., 3.])


In [18]: A

Out[18]: array([ 0., 1., 2., 3.])


In [19]: A.shape

Out[19]: (4,)

 


# reps = 2

In [20]: A_8 = np.tile(A, 2)


In [21]: A_8

Out[21]: array([ 0., 1., 2., 3., 0., 1., 2., 3.])


In [22]: A_8.shape

Out[22]: (8,)

 


# reps = (2, 2)

In [23]: A_2_8 = np.tile(A, (2, 2))


In [24]: A_2_8

Out[24]:

array([[ 0.,  1.,  2.,  3.,  0.,  1.,  2.,  3.],
        [ 0.,  1.,  2.,  3.,  0.,  1.,  2.,  3.]])


In [25]: A_2_8.shape

Out[25]: (2, 8)

 

 

 

 

다음으로 2차원 배열에 np.tile() method를 사용해서

 - 배열을 반복하기

 - 배열을 반복하면서 차원을 하나 더 추가하기

를 해보겠습니다.

 

 

In [26]: B = np.arange(8).reshape(2, 4)


In [27]: B

Out[27]:

array([[0, 1, 2, 3],
        [4, 5, 6, 7]])


In [28]: B.shape

Out[28]: (2, 4)


In [29]: B_2_8 = np.tile(B, 2)


In [30]: B_2_8

Out[30]:

array([[0, 1, 2, 3, 0, 1, 2, 3],
        [4, 5, 6, 7, 4, 5, 6, 7]])


In [31]: B_2_8.shape

Out[31]: (2, 8)


In [32]: B_4_4 = np.tile(B, (2, 1))


In [33]: B_4_4

Out[33]:

array([[0, 1, 2, 3],
        [4, 5, 6, 7],
        [0, 1, 2, 3],
        [4, 5, 6, 7]
])


In [34]: B_4_4.shape

Out[34]: (4, 4)


In [35]: B_3_4_8 = np.tile(B, (3, 2, 2))


In [36]: B_3_4_8

Out[36]:

array([[[0, 1, 2, 3, 0, 1, 2, 3],
         [4, 5, 6, 7, 4, 5, 6, 7],
         [0, 1, 2, 3, 0, 1, 2, 3],
         [4, 5, 6, 7, 4, 5, 6, 7]],

        [[0, 1, 2, 3, 0, 1, 2, 3],
         [4, 5, 6, 7, 4, 5, 6, 7],
         [0, 1, 2, 3, 0, 1, 2, 3],
         [4, 5, 6, 7, 4, 5, 6, 7]],

        [[0, 1, 2, 3, 0, 1, 2, 3],
         [4, 5, 6, 7, 4, 5, 6, 7],
         [0, 1, 2, 3, 0, 1, 2, 3],
         [4, 5, 6, 7, 4, 5, 6, 7]]]
)


In [37]: B_3_4_8.shape

Out[37]: (3, 4, 8)

 

 

 

많은 도움 되었기를 바랍니다.

 

728x90
반응형
Posted by Rfriend
,