[Greenplum, PostgreSQL] SQL과 MADlib을 활용한 대용량데이터 선형 회귀분석 (Linear Regression using SQL, MADlib)

Greenplum and PostgreSQL Database 2020. 12. 1. 23:47

지난번 포스팅에서는 PostgreSQL, Greenplum database에서 SQL과 Apache MADlib을 활용해서 대용량의 연속형 데이터에 대한 In-DB 상관관계 분석(Correlation Analysis in Database)에 대해서 알아보았습니다.

이번 포스팅에서는 상관관계 분석에서 한발 더 나아가서, 설명변수(독립변수) X와 목표변수(종속변수) Y 간의 선형/인과관계를 모델링하는 선형 회귀모형(Linear Regression)을 훈련(train)하고 예측(predict)하는 방법을 소개하겠습니다.

PostgreSQL, Greenplum database에서 대용량 데이터에 대해

(1) SQL로 선형 회귀모형 적합하고 모수 확인하기

(2) SQL로 그룹별로 선형 회귀모형 적합하고 예측하기

(3) Apache MADlib으로 다중 선형 회귀모형 적합하기

(4) Apache MADlib으로 그룹별로 다중 선형 회귀모형 적합하고 예측하기

먼저, 예제로 사용할 데이터로 4개의 연속형 데이터('sepal_length', 'sepal_width', 'petal_length', 'petal_width')와 1개의 범주형 데이터('class_name')를 가진 iris 데이터셋으로 테이블을 만들어보겠습니다.

-- Iris data table
DROP TABLE IF EXISTS iris;
CREATE TABLE iris (id INT, sepal_length FLOAT, sepal_width FLOAT,
petal_length FLOAT, petal_width FLOAT,
class_name text);
INSERT INTO iris VALUES
(1,5.1,3.5,1.4,0.2,'Iris-setosa'),
(2,4.9,3.0,1.4,0.2,'Iris-setosa'),
(3,4.7,3.2,1.3,0.2,'Iris-setosa'),
(4,4.6,3.1,1.5,0.2,'Iris-setosa'),
(5,5.0,3.6,1.4,0.2,'Iris-setosa'),
(6,5.4,3.9,1.7,0.4,'Iris-setosa'),
(7,4.6,3.4,1.4,0.3,'Iris-setosa'),
(8,5.0,3.4,1.5,0.2,'Iris-setosa'),
(9,4.4,2.9,1.4,0.2,'Iris-setosa'),
(10,4.9,3.1,1.5,0.1,'Iris-setosa'),
(11,7.0,3.2,4.7,1.4,'Iris-versicolor'),
(12,6.4,3.2,4.5,1.5,'Iris-versicolor'),
(13,6.9,3.1,4.9,1.5,'Iris-versicolor'),
(14,5.5,2.3,4.0,1.3,'Iris-versicolor'),
(15,6.5,2.8,4.6,1.5,'Iris-versicolor'),
(16,5.7,2.8,4.5,1.3,'Iris-versicolor'),
(17,6.3,3.3,4.7,1.6,'Iris-versicolor'),
(18,4.9,2.4,3.3,1.0,'Iris-versicolor'),
(19,6.6,2.9,4.6,1.3,'Iris-versicolor'),
(20,5.2,2.7,3.9,1.4,'Iris-versicolor'),
(21,6.3,3.3,6.0,2.5,'Iris-virginica'),
(22,5.8,2.7,5.1,1.9,'Iris-virginica'),
(23,7.1,3.0,5.9,2.1,'Iris-virginica'),
(24,6.3,2.9,5.6,1.8,'Iris-virginica'),
(25,6.5,3.0,5.8,2.2,'Iris-virginica'),
(26,7.6,3.0,6.6,2.1,'Iris-virginica'),
(27,4.9,2.5,4.5,1.7,'Iris-virginica'),
(28,7.3,2.9,6.3,1.8,'Iris-virginica'),
(29,6.7,2.5,5.8,1.8,'Iris-virginica'),
(30,7.2,3.6,6.1,2.5,'Iris-virginica');

SELECT * FROM iris ORDER BY id LIMIT 5;

(1) SQL로 선형 회귀모형 적합하고 모수 확인하기

PostgreSQL 에서 설명변수(독립변수) X 1개와 목표변수(종속변수) Y 와의 선형 회귀모형을 적합할 수 있습니다. 대신에 하나의 함수로 한번에 선형 회귀모형을 적합하는 것은 아니구요, REGR_SLOPE(Y, X) 함수로 기울기(slope)를 구하고, REGR_INTERCEPT(Y, X)로 Y절편을 구할 수 있습니다.

-- Python으로 산점도와 선형회귀선을 겹쳐서 그래보면 아래와 같습니다.

## Scatter Plot using Python seaborn package

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
plt.rcParams['figure.figsize'] = [12, 8]

iris = sns.load_dataset('iris')

sns.regplot(x=iris['petal_length'],
y=iris['petal_width'],
fit_reg=True)

plt.title('Scatter Plot with Regression Line', fontsize=16)
plt.show()

REGR_COUNT(Y, X)는 관측치의 개수, REGR_AVGY(Y, X) 는 Y의 평균 값, REGR_AVGX(Y, X) 는 X의 평균 값을 구해줍니다.

그리고 REGR_R2(Y, X)는 적합된 선형회귀모형의 설명력을 보여주는 결정계수(coefficient of determination)를 구해줍니다.

----------------------------
-- (1) PostgreSQL functions
----------------------------
-- Training a Regression using PostgreSQL regr_slope(Y, X), regr_intercept(Y, X) function
DROP TABLE IF EXISTS iris_regr_postgres;
CREATE TABLE iris_regr_postgres AS (
SELECT
   'petal_width' AS y_var_nm
   , 'petal_length' AS x_var_nm
   , REGR_SLOPE(petal_width, petal_length)
   , REGR_INTERCEPT(petal_width, petal_length)
   , REGR_R2(petal_width, petal_length)
   , REGR_AVGY(petal_width, petal_length)
   , REGR_AVGX(petal_width, petal_length)
   , REGR_COUNT(petal_width, petal_length)
FROM iris
);

SELECT * FROM iris_regr_postgres;

(2) SQL로 그룹별로 선형 회귀모형 적합하고 예측하기

다음으로 'class_name' 범주('iris_setosa', 'iris_versicolor', 'iris_virginica') 그룹별로 1개 설명변수 'petal_length'와 종속변수 'petal_width'의 관계를 모형화하는 선형 회귀모형을 적합해보겠습니다.

위의 (1)번 SQL query에 SELECT 문에 그룹 칼럼('class_name')을 넣어주고, FROM 절 다음에 GROUP BY 그룹 칼럼('class_name') 을 넣어주면 됩니다. 모델 3개가 잘 적합되었습니다.

-- Regression by Groups
DROP TABLE IF EXISTS iris_regr_grp_postgres;
CREATE TABLE iris_regr_grp_postgres AS (
SELECT
   class_name AS group_nm
   , 'petal_width' AS y_var_nm
   , 'petal_length' AS x_var_nm
   , REGR_SLOPE(petal_width, petal_length)
   , REGR_INTERCEPT(petal_width, petal_length)
   , REGR_R2(petal_width, petal_length)
   , REGR_AVGY(petal_width, petal_length)
   , REGR_AVGX(petal_width, petal_length)
   , REGR_COUNT(petal_width, petal_length)
FROM iris
GROUP BY class_name
ORDER BY class_name
);

SELECT * FROM iris_regr_grp_postgres ORDER BY group_nm;

이제 위에서 적합한 class_name별 3개 모델(기울기 slope, Y절편 intercept)의 모수를 활용해서 아래의 수식을 사용해서 예측을 해보겠습니다.

-- Prediction
SELECT
   iris.class_name
   , iris.id
   , iris.petal_width AS y_petal_width
   , (iris.petal_length * m.regr_slope + m.regr_intercept) AS pred_petal_width
FROM iris, iris_regr_grp_postgres m
WHERE iris.class_name = m.group_nm
ORDER BY id;

(3) Apache MADlib으로 다중 선형 회귀모형(Multiple Linear Regression) 적합하기

SQL 기반의 오픈소스 Apache MADlib의 madlib.linregr_train() 함수를 사용하여 PostgreSQL, Greenplum database에서 여러개의 설명변수를 사용하는 다중 선형회귀모형 (multiple linear regression)을 적합할 수 있습니다.

위의 (1)번 PostgreSQL 의 기울기, Y절편 함수에서는 설명변수 X로 1개의 칼럼만을 사용하는 한계가 있었습니다. 그리고 기울기와 Y절편, R^2 등을 구하기 위해 개별 함수를 사용해야 하는 불편함이 있었습니다.

반면에, MADlib의 madlib.linregr_train() 함수는 source table, output table, dependent variable, ARRAY[1, independent variables] 의 순서대로 칼럼 이름을 넣어주면 됩니다. 그러면 회귀계수(coef), 결정계수(r2), 설명변수별 표준화오차(std_err)와 t통계량(t_stats), p값(p_values), condition_no, 관측치 개수(num_rows_processed), 결측치 개수(num_missing_rows_skipped), 분산공분산(variance_covariance) 의 결과를 반환합니다.

----------------
-- (2) MADlib
----------------
-- Multivariate Regression using MADlib
DROP TABLE IF EXISTS iris_regr, iris_regr_summary;
SELECT madlib.linregr_train(
   'iris'            -- source table
   , 'iris_regr' -- output table
   , 'petal_width' -- dependent variable
   , 'ARRAY[1, petal_length, sepal_length]' -- independent variables
);

SELECT * FROM iris_regr;

위의 선형 회귀모형 적합 결과를 좀더 보기 좋도록 UNNEST() 를 사용해서 설명변수별로 구분해서 풀어서 제시해보겠습니다.

SELECT
   UNNEST(ARRAY['intercept', 'petal_length', 'sepal_length']) AS var_nm
   , UNNEST(coef) AS coef
   , UNNEST(std_err) AS std_err
   , UNNEST(t_stats) AS t_stats
   , UNNEST(p_values) AS p_values
FROM iris_regr;

(4) Apache MADlib으로 그룹별로 다중 선형 회귀모형 적합하고 예측하기

이번에는 class_name 범주의 그룹별로 다중 선형회귀모형을 적합해 보겠습니다.

madlib.linregr_tarin() 함수의 5번째 인자에 Grouping Column으로서 'class_name' 을 넣어주면 됩니다.

-- Multiple Regression by Group using MADlib
DROP TABLE IF EXISTS iris_regr_grp, iris_regr_grp_summary;
SELECT madlib.linregr_train(
   'iris'          -- source table
   , 'iris_regr_grp'   -- output table
   , 'petal_width' -- dependent variable
   , 'ARRAY[1, petal_length, sepal_length]' -- indepent variables
   , 'class_name' -- grouping column
);

--SELECT * FROM iris_regr_grp;

SELECT
   class_name
   , UNNEST(ARRAY['intercept', 'petal_length', 'sepal_length']) AS var_nm
   , UNNEST(coef) AS coef
   , UNNEST(std_err) AS std_err
   , UNNEST(t_stats) AS t_stats
   , UNNEST(p_values) AS p_values
FROM iris_regr_grp;

위에서 3개 범주 그룹별로 적합한 모델을 사용해서 madlib.linregr_predict() 함수로 예측을 해보겠습니다. 이때 WHERE 조건절에 input dataset의 class_name 범주와 모델 테이블의 class_name 이 같아야 한다는 조건을 추가해줍니다.

-- Prediction
SELECT iris.*,
       madlib.linregr_predict( m.coef,
                               ARRAY[1,petal_length,sepal_length]
                             ) AS predict
FROM iris, iris_regr_grp m
WHERE iris.class_name = m.class_name
ORDER BY id
LIMIT 10;

[Reference]

* PostgreSQL 9.4: https://www.postgresql.org/docs/9.4/functions-aggregate.html
* Apache MADlib : https://madlib.apache.org/docs/latest/group__grp__linreg.html

이번 포스팅이 많은 도움이 되었기를 바랍니다.

행복한 데이터 과학자 되세요! :-)

728x90

저작자표시 비영리 변경금지

'Greenplum and PostgreSQL Database' 카테고리의 다른 글

[Greenplum PostGIS] spatial_ref_sys 테이블에 신규 좌표계 등록하고 좌표 변환하기 (0)	2021.03.14
[Greenplum PostGIS] spatial_ref_sys 복제 테이블 생성하여 st_transform 함수 사용하기 (0)	2021.03.14
[PostgreSQL, Greenplum] 상관관계 분석 (Correlation Coefficients using SQL, MADlib) (0)	2020.11.29
[PostgreSQL, Greenplum] 연속형 데이터의 집계/ 요약 통계량 구하기 (0)	2020.11.28
[PostgreSQL, Greenplum] ipython-sql로 Jupyter Notebook에서 SQL query한 결과를 pandas DataFrame으로 가져오는 3가지 방법 (0)	2020.11.21

Posted by Rfriend

R, Python 분석과 프로그래밍의 친구 (by R Friend)

[Greenplum, PostgreSQL] SQL과 MADlib을 활용한 대용량데이터 선형 회귀분석 (Linear Regression using SQL, MADlib)

'Greenplum and PostgreSQL Database' 카테고리의 다른 글

카테고리

태그목록

티스토리툴바