R, Python 분석과 프로그래밍의 친구 (by R Friend)

'group by'에 해당되는 글 2건

2017.06.26 [SQL]웹으로 SQL 연습할 수 있는 웹사이트: w3schools.com/sql : 유통업체 ERD 및 Query 예시
2016.06.26 [Hive] HiveQL : 중첩 SELECT문, LIKE, CASE WHEN THEN ELSE END, GROUP BY, HAVING, ORDER BY, SORT BY, DISTRIBUTE BY

[SQL]웹으로 SQL 연습할 수 있는 웹사이트: w3schools.com/sql : 유통업체 ERD 및 Query 예시

Hive 2017. 6. 26. 23:13

지난번 포스팅에서는 웹으로 간단하게 SQL 을 연습할 수 있는 온라인 사이트로서

w3schools.com/sql 과 테이블을 쿼리해서 데이터 항목을 알아보았습니다.

주문, 주문상세 테이블과 고객, 상품, 상품카테고리, 상품제공업체, 배송업체, 종업원의 기준정보 테이블이 있는 것으로 봐서 유통업체의 데이터임을 알 수 있습니다. 이벤트나 프로모션 정보 테이블, 온라인이나 모바일 등의 채널 이용 정보 테이블, 고객등급/고객세분화 정보 테이블, 결제수단 정보 테이블 등... 뭐, 유통업체라면 더 많은 테이블이 있어야 겠지만서도, SQL 연습하라고 만든 가상의 약식 데이터 DB 테이블이므로 '이 정도도 어디야'하고 감사하면 사용하면 좋겠습니다.

ERD (Entity Relationship Diagram)이 없어서 테이블, 데이터 간의 관계를 한 눈에 파악하는 것이 어려웠는데요, 시간 좀 내서 아래처럼 ERD 그려보았습니다.

[ 유통업체 ERD (Entity Relationship Diagram) ]

* https://www.w3schools.com/sql/trysql.asp?filename=trysql_select_all 에 있는 테이블별 칼럼을 보고 추측해서 ERD 그린 것임. SQL 연습하려는 분은 이 ERD 참고해서 테이블 간 join 해서 분석하면 됨.

테이블을 여러개 Join 해서 통계량 집계하고 정렬하는 예를 들어보겠습니다.

[SQL Query 문제]

"제품 카테고리 중 'Dairy Products', 'Grains/Cereals', 'Seafood', 'Condiments' 카테고리에 대해서 카테고리별로 판매가 일어난(주문이 발생한) 제품들의 가격의 합계, 총 주문 발생 회수, 제품들의 가격의 평균을 구하시오.

단, 카테고리별 제품 가격의 합계가 1,100 이상인 경우만 집계 결과를 제시하되,

가격의 합계를 기준으로 내림차순으로 정렬하여 제시하시오."

SELECT e.CategoryName AS CategoryName,

SUM(e.Price) AS Price_sum,

COUNT(*) AS Order_cnt,

AVG(e.Price) AS Price_avg

FROM

(SELECT c.OrderID, c.ProductID, c.Price, c.CategoryID, d.CategoryName -- sub query 2

FROM (SELECT a.OrderID, a.ProductID, b.Price, b.CategoryID -- sub query 1

FROM OrderDetails a

INNER JOIN Products b ON a.ProductID = b.ProductID) c

LEFT JOIN Categories d ON c.CategoryID = d.CategoryID) e

WHERE e.CategoryName IN ('Dairy Products', 'Grains/Cereals', 'Seafood', 'Condiments')

GROUP BY e.CategoryName

HAVING Price_sum > 1100

ORDER BY Price_sum DESC;

Number of Records: 3

====================================================

CategoryName Price_sum Order_cnt Price_avg

====================================================

Dairy Products 2863.2 100 28.63

Seafood 1345.17 67 20.07

Condiments 1121.5 49 22.88

위의 문제가 너무 복잡하고, SQL Query도 SUM(), COUNT(), AVG() 등의 aggregation 함수, FROM 절에 Sub Query 랑 INNER JOIN, LEFT JOIN 이 들어가 있고, WHERE 조건절, GROUP BY, HAVING, ORDER BY 등 어지간한 SQL 기능이 망라되어 있어서 복잡하긴 합니다.

Query가 잘 이해가 안되면 Sub Query를 하나씩 순차적으로 실행시켜보면서 결과를 확인해보면 한결 이해하기가 쉽습니다.

예를 들어보자면, 위의 Query를 가장 안에 위치한 Sub Query 부터 하나씩 아래에 풀어보겠습니다.

=========================================================================

[ sub query 1]

OrderDetails 테이블(a)과 Products 테이블(b)을 ProductID key를 기준으로 INNER JOIN으로 교집합을 구해서 Products 테이블에서 상품의 가격과 카테고리ID 데이터를 가져왔습니다. (테이블 구분하기 편하라고 a, b 라는 alias name 별명을 부여해서 변수 앞에 b.Price 처럼 붙여서 사용합니다) 상위 5개만 예시로 가져오겠습니다.

SELECT a.OrderID, a.ProductID, b.Price, b.CategoryID

FROM OrderDetails a

INNER JOIN Products b ON a.ProductID = b.ProductID

LIMIT 5;

OrderID ProductID Price CategoryID

10248 11 21 4

10248 42 14 5

10248 72 34.8 4

10249 14 23.25 7

10249 51 53 7

=========================================================================

[sub query 2]

위의 'sub query 1' 결과 테이블(c)에다가 CategoryID key를 기준으로 Categories 테이블(d)을 LEFT JOIN 하여 Categories 테이블에 있는 CategoryName 칼럼을 붙여서 가져왔습니다. CategoryName 을 붙여 와야지 원래의 SQL Query 문제에 나와있는 'CategoryName별 판매상품 가격의 합계, 판매(주문)회수, 평균판매가격'을 구할 수 있겠지요?

SELECT c.OrderID, c.ProductID, c.Price, c.CategoryID, d.CategoryName

FROM (SELECT a.OrderID, a.ProductID, b.Price, b.CategoryID

FROM OrderDetails a

INNER JOIN Products b ON a.ProductID = b.ProductID) c

LEFT JOIN Categories d ON c.CategoryID = d.CategoryID

LIMIT 5;

c.OrderID c.ProductID c.Price c.CategoryID d.CategoryName

10248 11 21 4 Dairy Products

10248 42 14 5 Grains/Cereals

10248 72 34.8 4 Dairy Products

10249 14 23.25 7 Produce

10249 51 53 7 Produce

========================================================================

아래 Query 는 CASE WHEN ~ THEN ... ELSE ... END 문으로 연속형 변수(continuous variable)를 범주형 변수(categorical variable) 로 변환하는 예제 Query 입니다. 아래처럼 '가격대(Price_grp)' 변수를 만든 후에 위에 'SQL Query' 문제에서 사용했던 Query 를 사용해서 다른 응용을 할 수 있습니다.

SELECT a.OrderID, a.ProductID, b.Price,

CASE WHEN b.Price >= 40 THEN '1_over_40'

WHEN b.Price < 40 AND b.Price >= 20 THEN '2_20_40'

ELSE '3_under_20' END Price_grp

FROM OrderDetails a

INNER JOIN Products b ON a.ProductID = b.ProductID

LIMIT 10;

OrderID ProductID Price Price_grp

10248 11 21 2_20_40

10248 42 14 3_under_20

10248 72 34.8 2_20_40

10249 14 23.25 2_20_40

10249 51 53 1_over_40

10250 41 9.65 3_under_20

10250 51 53 1_over_40

10250 65 21.05 2_20_40

10251 22 21 2_20_40

10251 57 19.5 3_under_20

많은 도움이 되었기를 바랍니다.

이번 포스팅이 도움이 되었다면 아래의 '공감~'를 꾸욱 눌러주세요. ^^

728x90

저작자표시 비영리 변경금지

'Hive' 카테고리의 다른 글

[R] R로 Oracle DB 접근 방법, R로 Presto 접근 방법 (R Oracle DB connect, R Presto DB connect) (2)	2017.08.29
[SQL] 웹으로 SQL 연습할 수 있는 online site : w3schools.com/sql (2)	2017.06.23
[Hive] R로 Hive에 접속해서 데이터 추출하기, R DB connect (R, Hive dbConnect) : rJava, RJDBC, dbConnect(), dbGetQuery(), R로 PostgreSQL 사용하는 방법, R로 MySQL 접속해서 사용하는 방법 (4)	2016.09.03
[Hive] 뷰(View), 갭슐화(encapsulation) (0)	2016.06.26
[Hive] 조인 문 : INNER JOIN, LEFT OUTER JOIN, RIGHT OUTER JOIN, FULL JOIN, CARTESIAN PRODUCT JOIN, MAP-SIDE JOIN, UNION ALL (0)	2016.06.26

Posted by Rfriend

[Hive] HiveQL : 중첩 SELECT문, LIKE, CASE WHEN THEN ELSE END, GROUP BY, HAVING, ORDER BY, SORT BY, DISTRIBUTE BY

Hive 2016. 6. 26. 22:30

이번 포스팅에서는 HiveQL의

- (1) 중첩 SELECT 문

- (2) LIKE

: substring 문자열 일치 여부 확인

- (3) CASE ... WHEN ... THEN ... ELSE ... END

: 범주형 변수 생성

- (4) GROUP BY, HAVING 절

: 집계 (aggregation), 그룹 내 조건절(HAVING)

- (5) ORDER BY

: 전체 정렬 (total ordering)

- (6) SORT BY, DISTRIBUTE BY

: 부분 정렬 (local ordering)

에 대해서 알아보겠습니다.

--------------------------------
-- HiveQL : 중첩 SELECT 문
--------------------------------

FROM (
    SELECT var_1, var_2, (var_1*var_2) AS var_1_2_multi
    FROM my_table
) a
SELECT a.var_1, a.var_2
    WHERE a.var_1_2_multi > 100

LIMIT 10; -- 반환하는 행 상한치 10개로 제한

---------------------------------------------------
-- HiveQL : LIKE
---------------------------------------------------
-- substring 문자열 일치 여부 확인

SELECT var_1, var_2, var_3
    FROM my_table
    WHERE var_2 LIKE '%CC'; -- var_2에서 'CC'로 끝나는 문자열이 들어있는 row 선택

SELECT var_1, var_2, var_3
FROM my_table
   WHERE var_2 LIKE 'AA%'; -- var_2에서 'AA'로 시작하는 문자열이 들어있는 row 선택

SELECT var_1, var_2, var_3
    FROM my_table
    WHERE var_2 LIKE '%BB%'; -- var_2에서 'BB'를 포함하는 문자열이 들어있는 row 선택

--------------------------------------------------------------
-- HiveQL : CASE ... WHEN ... THEN ... ELSE ... END

--------------------------------------------------------------

-- 범주형 변수 생성

SELECT var_1, var_2,
    CASE
        WHEN var_3 < 100.0 THEN 'L'
        WHEN var_3 >= 100 AND var_3 < 1000 THEN 'M'
        ELSE 'H'
    END AS var_3_cd
    FROM my_table;

-----------------------------------------
-- HiveQL : GROUP BY, HAVING
-----------------------------------------

-- 집계 (aggregation), 그룹 내 조건절(HAVING)

SELECT prd_cd, max(prd_price) AS prd_max_price
    FROM prd_tr
    WHERE prd_cd = 'ABC'
    GROUP BY prd_cd -- aggregation by group
    HAVING max(prd_price) >= 10000; -- GROUP BY에 의해 생성된 그룹에 대한 SUBQUERY

---------------------------------------------------------
-- HiveQL : ORDER BY
---------------------------------------------------------

-- => 쿼리 결과 집합에 대한 전체 정렬(TOTAL ORDERING), 오랜 시간 소요

SELECT prd_cd, prd_id, sum(prd_rev) AS prd_rev_sum
    FROM prd_tr
    WHERE prd_cd IN ('ABC', 'DEF', 'GHI')
    GROUP BY prd_cd, prd_id
    ORDER BY prd_cd ASC, prd_id DESC; -- total ordering, ASC 오름차순, DESC 내림차순

---------------------------------------------------
-- HiveQL : SORT BY, DISTRIBUTE BY
---------------------------------------------------

-- => 각 REDUCER에서 데이터 정렬(LOCAL ORDERING), 상대적으로 빠름

SELECT a.prd_cd, a.prd_id, sum(a.prd_price) AS prd_rev_sum
    FROM prd_tr a
    WHERE prd_cd IN ('ABC', 'DEF', 'GHI')
    DISTRIBUTE BY a.prd_cd -- 같은 prd_cd 를 가진 데이터를 같은 reducer로 보냄
    GROUP BY a.prd_cd, a.prd_id
    SORT BY a.prd_cd ASC, a.prd_id DESC; -- local ordering

다음번 포스팅에서는 테이블 JOIN에 대해서 알아보겠습니다.

이번 포스팅이 도움이 되었다면 아래의 '공감 ~♡'를 꾸욱 눌러주세요.

728x90

저작자표시 비영리 변경금지

'Hive' 카테고리의 다른 글

[Hive] 뷰(View), 갭슐화(encapsulation) (0)	2016.06.26
[Hive] 조인 문 : INNER JOIN, LEFT OUTER JOIN, RIGHT OUTER JOIN, FULL JOIN, CARTESIAN PRODUCT JOIN, MAP-SIDE JOIN, UNION ALL (0)	2016.06.26
[Hive] 내장 함수(Built-in Functions), 수학 함수(Arithmetic Functions), 집계 함수(Aggregation Functions) (0)	2016.06.25
[Hive] HiveQL Operators : 프로젝션 연산자, 비교 연산자, 산술 연산자, 논리 연산자, 복합 연산자 (0)	2016.06.25
Hive 데이터 조작 언어 : Data Manipulation Language (0)	2016.06.25

Posted by Rfriend

이전 1 다음

R, Python 분석과 프로그래밍의 친구 (by R Friend)

'group by'에 해당되는 글 2건

[SQL]웹으로 SQL 연습할 수 있는 웹사이트: w3schools.com/sql : 유통업체 ERD 및 Query 예시

'Hive' 카테고리의 다른 글

[Hive] HiveQL : 중첩 SELECT문, LIKE, CASE WHEN THEN ELSE END, GROUP BY, HAVING, ORDER BY, SORT BY, DISTRIBUTE BY

'Hive' 카테고리의 다른 글

카테고리

태그목록

티스토리툴바