이번 포스팅에서는 국가통계포털 사이트에서 받은 2020년, 2021년도 실업률과 취업자 수 통계 데이터를 가지고 R의 dplyr과 ggplot2 패키지를 사용해서 아래의 데이터 전처리 및 시각화하는 방법을 소개하겠습니다. 

 

1. 취업자 수 증가율(%) 변수 계산 (전년 동월 대비)

2. 실업률과 취업자 수 증가율 변수의 평균, 분산, 표준편차, 중앙값, 최대값, 최소값 계산

3. 실업률과 취업자 수 증가율 변수의 시계열 그래프 그리기

4. 실업률과 취업자 수 증가율 변수의  히스토그램 그리기 (히스토그램의 구간은 10개)

 

 

먼저, 국가통계포털 사이트에서 받은 2020년, 2021년도 실업률과 취업자 수 통계 데이터를 입력해서 DataFrame을 만들어보겠습니다. 데이터 자료 구조를 어떻게 해서 만드는지 유심히 봐주세요. 

 

## making a dataframe
df <- data.frame(
  month=c("01", "02", "03", "04", "05", "06", "07", "08", "09", "10", "11", "12"), 
  unemploy_rate_2020=c(4.1, 4.1, 4.2, 4.2, 4.5, 4.3, 4.0, 3.1, 3.6, 3.7, 3.4, 4.1), 
  unemploy_rate_2021=c(5.7, 4.9, 4.3, 4.0, 4.0, 3.8, 3.2, 2.6, 2.7, 2.8, 2.6, 3.5), 
  employed_num_2020=c(26800, 26838, 26609, 26562, 26930, 27055, 27106, 27085, 27012, 27088, 27241, 26526), 
  employed_num_2021=c(25818, 26365, 26923, 27214, 27550, 27637, 27648, 27603, 27683, 27741, 27795, 27298)
)

print(df)
#    month unemploy_rate_2020 unemploy_rate_2021 employed_num_2020 employed_num_2021
# 1     01                4.1                5.7             26800             25818
# 2     02                4.1                4.9             26838             26365
# 3     03                4.2                4.3             26609             26923
# 4     04                4.2                4.0             26562             27214
# 5     05                4.5                4.0             26930             27550
# 6     06                4.3                3.8             27055             27637
# 7     07                4.0                3.2             27106             27648
# 8     08                3.1                2.6             27085             27603
# 9     09                3.6                2.7             27012             27683
# 10    10                3.7                2.8             27088             27741
# 11    11                3.4                2.6             27241             27795
# 12    12                4.1                3.5             26526             27298

 

 

 

1. 취업자 수 증가율(%) 변수 계산 (전년 동월 대비)

 

dplyr 패키지로 새로운 변수를 생성하는 방법은 https://rfriend.tistory.com/235 를 참고하세요. 

dplyr 패키지의 chain operation, pipe operator %>% 사용 방법은 https://rfriend.tistory.com/236 를 참고하세요. 

 

## 1. 취업자 수 증가율(%) 변수 계산 (전년 동월 대비)
library(dplyr)
df2 <- df %>% 
  transform(
    employed_inc_rate = 100*(employed_num_2021 - employed_num_2020)/employed_num_2020) # percentage


print(df2)
#    month unemploy_rate_2020 unemploy_rate_2021 employed_num_2020 employed_num_2021 employed_inc_rate
# 1     01                4.1                5.7             26800             25818         -3.664179
# 2     02                4.1                4.9             26838             26365         -1.762426
# 3     03                4.2                4.3             26609             26923          1.180052
# 4     04                4.2                4.0             26562             27214          2.454634
# 5     05                4.5                4.0             26930             27550          2.302265
# 6     06                4.3                3.8             27055             27637          2.151174
# 7     07                4.0                3.2             27106             27648          1.999557
# 8     08                3.1                2.6             27085             27603          1.912498
# 9     09                3.6                2.7             27012             27683          2.484081
# 10    10                3.7                2.8             27088             27741          2.410662
# 11    11                3.4                2.6             27241             27795          2.033699
# 12    12                4.1                3.5             26526             27298          2.910352

 

 

 

2. 실업률과 취업자 수 증가율 변수의 평균, 분산, 표준편차, 중앙값, 최대값, 최소값 계산

 

dplyr 패키지로 데이터의 요약통계량을 계산하는 방법은 https://rfriend.tistory.com/235 를 참고하세요. 

여러개의 패키지별로 그룹별 요약통계량을 계산하는 방법은 https://rfriend.tistory.com/125 를 참고하세요. 

 

## 2. 실업률과 취업자 수 증가율 변수의 평균, 분산, 표준편차, 중앙값, 최대값, 최소값 계산
df2 %>% 
  summarise(
    unemploy_rate_2021_mean = mean(unemploy_rate_2021), 
    unemploy_rate_2021_var = var(unemploy_rate_2021), 
    unemploy_rate_2021_sd = sd(unemploy_rate_2021), 
    unemploy_rate_2021_median = median(unemploy_rate_2021), 
    unemploy_rate_2021_max = max(unemploy_rate_2021), 
    unemploy_rate_2021_min = min(unemploy_rate_2021)
  )

# unemploy_rate_2021_mean unemploy_rate_2021_var unemploy_rate_2021_sd 
#                   3.675              0.9547727             0.9771247
# 
# unemploy_rate_2021_median unemploy_rate_2021_max unemploy_rate_2021_min
#                      3.65                    5.7                    2.6


df2 %>% 
  summarise(
    employed_inc_rate_mean = mean(employed_inc_rate), 
    employed_inc_rate_var = var(employed_inc_rate), 
    employed_inc_rate_sd = sd(employed_inc_rate), 
    employed_inc_rate_median = median(employed_inc_rate), 
    employed_inc_rate_max = max(employed_inc_rate), 
    employed_inc_rate_min = min(employed_inc_rate)
  )

# employed_inc_rate_mean employed_inc_rate_var employed_inc_rate_sd 
#               1.367697              3.970439             1.992596
# 
# employed_inc_rate_median employed_inc_rate_max employed_inc_rate_min
#                 2.092436              2.910352             -3.664179

 

 

3. 실업률과 취업자 수 증가율 변수의 시계열 그래프 그리기

 

ggplot2 로 시계열 그래프 그리기는 https://rfriend.tistory.com/73 를 참고하세요. 

 

## 3. 실업률과 취업자 수 증가율 변수의 시계열 그래프 그리기 
library(ggplot2)

ggplot(df2, aes(x=month, y=unemploy_rate_2021, group=1)) +
  geom_line() +
  ylim(0, max(df2$unemploy_rate_2021)) +
  ggtitle("Time Series Plot of Unemployment Rate, Year 2021")

Time Series Plot of Unemployment Rate

 

 

ggplot(df2, aes(x=month, y=employed_inc_rate, group=1)) +
  geom_line() +
  ylim(min(df2$employed_inc_rate), max(df2$employed_inc_rate)) +
  ggtitle("Time Series Plot of Employment Increase Rate, Year 2021")

Time Series Plot of Employment Increase Rate

 

 

 

4. 실업률과 취업자 수 증가율 변수의  히스토그램 그리기 (히스토그램의 구간은 10개)

 

ggplot2 패키지로 히스토그램 그리기는 https://rfriend.tistory.com/67 를 참고하세요. 

 

ggplot(df2, aes(x=employed_inc_rate)) + 
  geom_histogram(bins=10) + 
  ggtitle("Histogram of Unemployment Rate, Year 2021")

Histogram of Unemployment Rate

 

 

ggplot(df2, aes(x=employed_inc_rate)) + 
  geom_histogram(bins=10) + 
  ggtitle("Histogram of Employment Incease Rate, Year 2021")

Histogram of Employment Increase Rate

 

 

이번 포스팅이 많은 도움이 되었기를 바랍니다. 

행복한 데이터 과학자 되세요!  :-)

 

728x90
반응형
Posted by Rfriend
,