R, Python 분석과 프로그래밍의 친구 (by R Friend)

'Broadcasting'에 해당되는 글 2건

[Python numpy] 가중합(weighted sum)을 구하는 3가지 방법: np.dot(), broadcasting, np.repeat()

Python 분석과 프로그래밍/Python 데이터 전처리 2020. 8. 6. 22:13

이번 포스팅에서는 값 배열에 가중치 배열을 곱해서 합한 가중합(weighted sum)을 구하는 3가지 방법을 소개하겠습니다.

a 를 가중치, b 를 값 배열이라고 했을 때,

(1) 내적을 이용한 가중합 계산: np.dot(a, b) or np.matmul(a, b)

(2) 브로드캐스팅(broadcasting)을 이용하여 가중치와 값을 원소끼리 곱한 후 합하는,

np.sum(a.reshape(5, 1) * b, axis=0)

(3) repeat()로 가중치를 값 배열 1축만큼 반복 생성한 후, 가중치와 값의 원소끼리 곱한 후 합하는,

np.sum(a.reshape(5, 1).repeat(3, axis=1) * b, axis=0)

먼저, numpy를 import하고, 예제로 사용할 가중치 배열 a와, 값의 행렬 b를 만들어보겠습니다.

import numpy as np

# weights

a = np.array([0.5, 0.3, 0.1, 0.08, 0.02])

print('a shape:', a.shape)

a shape: (5,)

print(a)

[0.5 0.3 0.1 0.08 0.02]

# values

b = np.arange(15).reshape(5, 3)

print('b shape:', b.shape)

b shape: (5, 3)

print(b)

[[ 0 1 2]

[ 3 4 5]

[ 6 7 8]

[ 9 10 11]

[12 13 14]]

(1) 내적을 이용한 가중합 계산: np.dot(a, b) 또는 np.matmul(a, b)

가장 편리한 방법은 np.dot() 또는 np.matmul() 메소드를 사용하여 내적(inner prodct, dot product)을 계산하는 것입니다. 이때 가중치 벡터 a 에 대해서는 형태 변환(reshape)을 할 필요가 없이 그대로 사용할 수 있습니다.

np.dot(a, b)

Out[2]: array([2.46, 3.46, 4.46])

np.matmul(a, b)

Out[3]: array([2.46, 3.46, 4.46])

(2) Broadcasting을 이용하여 가중치와 값을 원소끼리 곱한 후, axis=0으로 합하기

이번에는 위의 (1) 내적을 계산의 각 단계별로 분리해서 순서대로 해보겠습니다. 가중치 a와 값 b의 원소끼리 곱한 후에, axis=0을 기준으로 합할 것입니다.

먼저, 가중치 a와 값 b를 원소끼리 곱하기 위해 가중치 a의 형태(shape)를 기존의 (5,)에서 a.reshape(5, 1) 을 적용하여 (5, 1) 의 형태로 변환을 해줍니다. 값이 들어있는 배열 b의 형태는 (5, 3) 이므로 가중치 배열 a의 (5, 1) 형태를 값 배열 b에 곱해주면 ==> 서로 형태가 같지 않으므로 numpy 는 가중치 a 배열 (5, 1) 을 (5, 3)으로 자동으로 형태 변환을 시켜서 값 배열 b 의 (5, 3) 형태와 동일하게 맞추어 주어 원소간 곱을 해줍니다. 이러한 기능을 브로드캐스팅(boradcasting) 이라고 합니다.

# shape of a_rs and b are different

a_rs = a.reshape(5, 1)

print(a_rs.shape)

print(a_rs)

(5, 1)

print(b.shape)

(5, 3)

# multiply using boradcasting of a_rs

a_rs_b_mult = a_rs * b

print(a_rs_b_mult.shape)

(5, 3)

print(a_rs_b_mult)

[[0. 0.5 1. ]

[0.9 1.2 1.5 ]

[0.6 0.7 0.8 ]

[0.72 0.8 0.88]

[0.24 0.26 0.28]]

# weighted sum

np.sum(a_rs_b_mult, axis=0)

Out[9]: array([2.46, 3.46, 4.46])

* numpy 배열들의 다른 차원의 배열 간 산술연산 시 Broadcasting 은 아래 포스팅을 참고하세요.

https://rfriend.tistory.com/287

(3) repeat()로 가중치를 반복 생성한 후, 가중치와 값을 원소끼리 곱한 후 합하기

위의 (2)번에서는 가중치 배열 a의 형태를 바꾼 후의 a_rs 배열과 값 b 배열을 곱할 때, 사람 눈에는 보이지않게 numpy가 알아서 자동으로 가중치 a_rs 배열 (5, 1) 형태를 브로드캐스팅(broadcasting)을 해주어서 (5, 3) 형태로 만들어서 원소끼리 곱해주었습니다.

반면에, 이번 (3)번에서는 사람이 repeat(n, axis) 메소드를 사용해서 명시적으로 배열을 n번 만큼 axis 축을 기준으로 반복해주어서 (2)번의 브로드캐스팅의 역할을 수행해주는 것입니다.

구현 관점에서 보면 브로드케스팅이 편리한 장점이 있고, 반면에 repeat() 메소드로 명시적으로 기입을 해주면 코딩하는 사람이 이해하기 쉬운 장점이 있습니다.

# match the shape of a and b by repeatition

a_rs_rp = a.reshape(5, 1).repeat(3, axis=1)

print(a_rs_rp.shape)

(5, 3)

print(a_rs_rp)

[[0.5 0.5 0.5 ]

[0.3 0.3 0.3 ]

[0.1 0.1 0.1 ]

[0.08 0.08 0.08]

[0.02 0.02 0.02]]

# multiplication of a_rs_rp and b per each elements

a_rs_rp_b_mult = a_rs_rp * b

print(a_rs_rp_b_mult.shape)

(5, 3)

print(a_rs_rp_b_mult)

[[0. 0.5 1. ]

[0.9 1.2 1.5 ]

[0.6 0.7 0.8 ]

[0.72 0.8 0.88]

[0.24 0.26 0.28]]

# weighted sum

np.sum(a_rs_rp_b_mult, axis=0)

Out[17]: array([2.46, 3.46, 4.46])

많은 도움이 되었기를 바랍니다.

이번 포스팅이 도움이 되었다면 아래의 '공감~'를 꾹 눌러주세요.

728x90

저작자표시 비영리 변경금지

'Python 분석과 프로그래밍 > Python 데이터 전처리' 카테고리의 다른 글

[Python numpy] numpy 배열에서 특정 형상의 빈 자리를 0으로 채우기 (padding) (6)	2020.09.11
[Python] Numpy 희소행렬을 SciPy 압축 희소 열 행렬 (Compressed sparse row matrix)로 변환하기 (3)	2020.08.09
[Python numpy] np.random.choice() 메소드로 임의표본 추출하기 (무작위, 확률 샘플링) (2)	2020.08.05
[Python numpy] A배열의 idx 위치에 B배열의 원소를 순서대로 더하기: np.add.at(A, idx, B) (0)	2020.07.26
[Python pandas] 데이터프레임 여러개 칼럼별로 결측값을 다르게 대체하는 방법 (0)	2020.06.29

Posted by Rfriend

[Python Numpy] 다른 차원의 배열 간 산술연산 시 Broadcasting

Python 분석과 프로그래밍/Python 데이터 전처리 2017. 2. 12. 23:16

지난번 포스팅에서는 같은 차원 크기의 배열 간 산술연산인 Vectorization 에 대해서 소개하였습니다.

이번 포스팅에서는 차원의 크기가 서로 다른 배열 간 산술연산 시의 Broadcasting 에 대해서 알아보겠습니다. (Braodcasting도 Vectorization 의 일부분 입니다. 사실, 지난번 vectorization에서 Scalar와의 연산 시 element-wise 연산 시 이미 Broadcasting을 맛보았었습니다. ㅎㅎ)

Broadcasting이 서로 다른 모양, 크기의 배열 간 연산이다 보니 좀 헷갈릴 수도 있는데요, 알아두면 매우 편리하고 또 빠른 연산으로 유용합니다. 이해하기 쉽도록 Broadcasting 되는 모습을 이미지(점선 & 화살표)로 표현을 병행했습니다.

배열의 차원(Dimension)과 축(Axis) 별로 4가지 유형의 Broadcasting 을 차례대로 소개해보겠습니다.

1) Broadcasting over axis 1 with a Scalar

2) Broadcasting over axis 0 with a 1-D array

3) Broadcasting over axis 1 with a 2-D array

4) Broadcasting over axis 0 with a 3-D array

순서대로 예를 들어 살펴보겠습니다.

1) Broadcasting over axis 1 with a Scalar

먼저, 간단한 Scalar 부터 시작해보시지요.

# (1-1) Arithmetic operations between array and scalars
# : the scalar are broadcasted along the same dimensions of ndarray

In [1]: import numpy as np

In [2]: a_ar = np.array([1., 2., 3., 4.])

In [3]: a_ar.shape

Out[3]: (4,)

In [4]: a_ar + 1

Out[4]: array([ 2., 3., 4., 5.])

배열 뿐만 아니라 Pandas의 DataFrame 도 Scalar 산술 연산 시에 Broadcasting 이 적용됩니다. 간단한 예를 들어볼겠요.

# (1-2) Arithmetic operations between DataFrame and scalars
# : the scalar are broadcasted along the same dimensions of DataFrame

In [5]: import pandas as pd

In [6]: a_df = pd.DataFrame({'x1': [1, 2, 3, 4], 'x2': [5, 6, 7, 8]})

In [7]: a_df

Out[7]:

x1 x2

0 1 5

1 2 6

2 3 7

3 4 8

In [8]: a_df + 1

Out[8]:

x1 x2

0 2 6

1 3 7

2 4 8

3 5 9

자, 이제 차원을 하나 늘려볼까요?

2) Broadcasting over axis 0 with a 1-D array

세로 방향(over axis 0)으로 row를 복사해가면서 Braodcasting을 하는 예입니다.

## (2) Broadcasting using a 1-D array
# Arithmetic operations between 2-D array and 1-D array
# that is the same length as the row-length

In [9]: b = np.arange(12).reshape((4, 3))

In [10]: b.shape

Out[10]: (4, 3)

In [11]: b

Out[11]:

array([[ 0, 1, 2],

[ 3, 4, 5],

[ 6, 7, 8],

[ 9, 10, 11]])

In [12]: c = np.array([0, 1, 2])

In [13]: c.shape

Out[13]: (3,)

In [14]: c

Out[14]: array([0, 1, 2])

# adding c (1-D array) row-wise to b (2-D array)

In [15]: b + c

Out[15]:

array([[ 0, 2, 4],

[ 3, 5, 7],

[ 6, 8, 10],

[ 9, 11, 13]])

배열의 차원 크기, 모양이 다르다고 해서 Broadcasting 이 아무때나 되는 것은 아닙니다. Broadcasting을 시키려면 기준 축에 있는 원소의 크기(개수)가 서로 같아야지 짝을 맞추어서 확산(broadcasting, propagating)을 할 수 있습니다. 말로 설명하기가 좀 어렵습니다. ^^; 아래에 Broadcasting이 안되고 ValueError가 난 사례를 예로 들어보겠습니다.

ValueError: operands could not be broadcast together with shapes (4,3) (4,)

## Shape mismatches
# ValueError: operands could not be broadcast together with shapes (4,3) (4,)

In [11]: b

Out[11]:

array([[ 0, 1, 2],

[ 3, 4, 5],

[ 6, 7, 8],

[ 9, 10, 11]])

In [16]: d = np.array([0, 1, 2, 3])

In [17]: b + d

Traceback (most recent call last):

File "<ipython-input-17-8c4237e65878>", line 1, in <module>

b + d

ValueError: operands could not be broadcast together with shapes (4,3) (4,)

3) Broadcasting over axis 1 with a 2-D array

가로 방향(over axis 1)으로 column을 복사해가면서 broadcasting하는 예입니다.

## (3) Broadcasting over axis 1 of a 2-D array

In [18]: b = np.arange(12).reshape((4, 3))

In [19]: b.shape

Out[19]: (4, 3)

In [20]: b

Out[20]:

array([[ 0, 1, 2],

[ 3, 4, 5],

[ 6, 7, 8],

[ 9, 10, 11]])

In [21]: e = np.array([0, 1, 2, 3]).reshape(4, 1)

In [22]: e.shape

Out[22]: (4, 1)

In [23]: e

Out[23]:

array([[0],

[1],

[2],

[3]])

# adding e (2-D array) column-wise to b (2-D array)

In [24]: b + e

Out[24]:

array([[ 0, 1, 2],

[ 4, 5, 6],

[ 8, 9, 10],

[12, 13, 14]])

자, 이제 3차원으로 넘어가보겠습니다. 머리가 슬슬 아파오지요? ^^;

4차원부터는 그림으로 예시를 들기가 애매해서 3차원까지만 할께요.

4) Broadcasting over axis 0 with a 3-D array

3-D 배열에서 앞뒤 방향(over axis 0) 으로 2-D 배열을 복사해가면서 Broadcasting 하는 예제입니다.

## (4) Broadcasting over axis 0 of a 3-D array
# 3-D array

In [25]: f = np.arange(24).reshape((2,4,3))

In [26]: f

Out[26]:

array([[[ 0, 1, 2],

[ 3, 4, 5],

[ 6, 7, 8],

[ 9, 10, 11]],

[[12, 13, 14],

[15, 16, 17],

[18, 19, 20],

[21, 22, 23]]])

# 2-D array

In [27]: g = np.ones((4,3))

In [28]: g

Out[28]:

array([[ 1., 1., 1.],

[ 1., 1., 1.],

[ 1., 1., 1.]])

# Broadcasting over axis 0 of a 3-D array : 3-D array + 2-D array

In [29]: f + g

Out[29]:

array([[[ 1., 2., 3.],

[ 4., 5., 6.],

[ 7., 8., 9.],

[ 10., 11., 12.]],

[[ 13., 14., 15.],

[ 16., 17., 18.],

[ 19., 20., 21.],

[ 22., 23., 24.]]])

* 서로 다른 차원을 가진 두 배열의 산술연산 시 repeat(n, axis) 메소드를 통해 차원을 맞추어주는 방법은 https://rfriend.tistory.com/549 를 참고하세요.

많은 도움 되었기를 바랍니다.

이번 포스팅이 도움이 되었다면 아래의 '공감 ~♡'를 꾹 눌러주세요. ^^

728x90

저작자표시 비영리 변경금지

'Python 분석과 프로그래밍 > Python 데이터 전처리' 카테고리의 다른 글

[Python NumPy] 행렬의 행과 열 바꾸기, 축 바꾸기, 전치행렬 : a.T, np.transpose(a), np.swapaxes(a,0,1) (0)	2017.02.25
[Python NumPy] NumPy 배열에 축 추가하기 (adding axis to NumPy Array) : np.newaxis, np.tile (0)	2017.02.19
[Python NumPy] 배열과 배열, 배열과 스칼라 연산 (Numerical Operations between Arrarys and Scalars) (2)	2017.02.04
[Python NumPy] ndarray 데이터 형태 지정 및 변경 (Data Types for ndarrays) (0)	2017.01.30
[Python NumPy] 무작위 표본 추출, 난수 만들기 (random sampling, random number generation) (4)	2017.01.21

Posted by Rfriend

이전 1 다음

R, Python 분석과 프로그래밍의 친구 (by R Friend)

'Broadcasting'에 해당되는 글 2건

[Python numpy] 가중합(weighted sum)을 구하는 3가지 방법: np.dot(), broadcasting, np.repeat()

'Python 분석과 프로그래밍 > Python 데이터 전처리' 카테고리의 다른 글

[Python Numpy] 다른 차원의 배열 간 산술연산 시 Broadcasting

'Python 분석과 프로그래밍 > Python 데이터 전처리' 카테고리의 다른 글

카테고리

태그목록

티스토리툴바