변수의 개수 및 데이터의 형태에 따라서 그래프, 시각화 방법이 달라지는데요,

 

지난번 포스팅에서는 한 변수의 연속형 데이터의 시각화 방법으로

 

 - 히스토그램(Histogram)
    : geom_histogram()

- 커널 밀도 곡선(Kernel Density Curve)
    : geom_density()

 - 박스 그래프(Box Plot)
    : geom_boxplot()

 - 바이올린 그래프(Violin Plot)
    : geom_violin()

 

범주형 데이터에 대한 시각화 방법으로

 

 - 막대그림(Bar Chart): geom_bar()

 - 원그림(Pie Chart): geom_bar() + coord_polar()

 - 모자이크 그림(Mosaic Chart): vcd 패키지 mosaic()

 

알아보았습니다.

 

 

이번에는 두 개 이상의 연속형 변수를 시각화하는 방법으로

 

 - 산점도 (Scatter Plot): geom_point()

 - 선 그래프(Line Plot): geom_line()

 - 시계열 그래프(Time Series Plot): geom_line()  

 

에 대해서 알아보겠습니다.

 

 

[ 변수 개수 및 형태에 따른 그래프 종류 ]

 

 

 

 

 

선 그래프(Line Graph)는 x축의 연속형 변수(또는 (순서나 크기가 있는 이산형 변수, ordered factor)의 변화에 따른 y축의 변화를 선으로 이어서 보여주는 그래프입니다.  x축이 시간의 순서이면 시계열 그래프(Time Series Graph) 이구요.

 

 

Base 패키지에 들어있는 airquality 데이터 프레임을 가지고 시계열 그래프를 그려보도록 하겠습니다.

airquality 데이터 프레임은 1973년 5월부터 9월달까지 뉴욕의 공기의 Ozone, Solar, Wind, Temp를 Daily 로 측정한 데이터 셋입니다.  결측값이 없는 Wind와 Temp를 가지고 시계열 그래프를 그려보겠습니다.

 

> str(airquality)
'data.frame':	153 obs. of  6 variables:
 $ Ozone  : int  41 36 12 18 NA 28 23 19 8 NA ...
 $ Solar.R: int  190 118 149 313 NA NA 299 99 19 194 ...
 $ Wind   : num  7.4 8 12.6 11.5 14.3 14.9 8.6 13.8 20.1 8.6 ...
 $ Temp   : int  67 72 74 62 56 66 65 59 61 69 ...
 $ Month  : int  5 5 5 5 5 5 5 5 5 5 ...
 $ Day    : int  1 2 3 4 5 6 7 8 9 10 ...
 
> head(airquality)
  Ozone Solar.R Wind Temp Month Day
1    41     190  7.4   67     5   1
2    36     118  8.0   72     5   2
3    12     149 12.6   74     5   3
4    18     313 11.5   62     5   4
5    NA      NA 14.3   56     5   5
6    28      NA 14.9   66     5   6

 

> # 결측값 여부 확인
> sum(is.na(airquality$Ozone))
[1] 37
> sum(is.na(airquality$Solar.R))
[1] 7
> sum(is.na(airquality$Wind))
[1] 0
> sum(is.na(airquality$Temp))
[1] 0

 

 

보기에 좋도록 Month 변수와 Day 변수를 합쳐서 Time이라는 새로운 변수를 만들어보겠습니다.

 

> # Time 변수 생성
> airquality <- transform(airquality, 
+                         Month.ch_temp = as.character(Month), 
+                         Day.ch_temp = as.character(Day))
> 
> airquality <- transform(airquality, 
+                         Month.ch = paste("0", Month.ch_temp, sep=""), 
+                         Day.ch = ifelse(Day.ch_temp == "1", "01", 
+                                  ifelse(Day.ch_temp == "2", "02", 
+                                  ifelse(Day.ch_temp == "3", "03", 
+                                  ifelse(Day.ch_temp == "4", "04", 
+                                  ifelse(Day.ch_temp == "5", "05", 
+                                  ifelse(Day.ch_temp == "6", "06", 
+                                  ifelse(Day.ch_temp == "7", "07", 
+                                  ifelse(Day.ch_temp == "8", "08", 
+                                  ifelse(Day.ch_temp == "9", "09", 
+                                                  Day))))))))))
> 
> airquality <- transform(airquality, 
+                         Time = paste(Month.ch, Day.ch, sep=""))
> 
> airquality_May <- airquality[c(1:31), c(1:6, 11)]
> 
> head(airquality_May)
  Ozone Solar.R Wind Temp Month Day Time
1    41     190  7.4   67     5   1 0501
2    36     118  8.0   72     5   2 0502
3    12     149 12.6   74     5   3 0503
4    18     313 11.5   62     5   4 0504
5    NA      NA 14.3   56     5   5 0505
6    28      NA 14.9   66     5   6 0506

 

 

 

선그래프를 그릴 때 group 지정을 안해주면 아래처럼 경고메시지가 뜨고, 선그래프가 텅 비게 나옵니다.

 

* 경고메시지: geom_path: Each group consist of only one observation. Do you need to adjust the group aesthetic?

 

> # 선그래프
> library(ggplot2)
> 
> # warning: geom_path: Each group consist of only one observation. Do you need to adjust the group aesthetic?
>
> ggplot(airquality_May, aes(x=Time, y=Wind)) + 
+   geom_line() + 
+   ggtitle("Line Graph, Wind from May.01 to May.31")
geom_path: Each group consist of only one observation. Do you need to adjust the group aesthetic?

 

 

 

 

 

이 문제를 해결하기 위해 gruop=1 을 지정해줍니다.

 

> # group=1
> ggplot(airquality_May, aes(x=Time, y=Wind, group=1)) + 
+   geom_line() + 
+   ggtitle("Time Series Graph, Wind from May.01 to May.31")

 

 

 

 

 


> ggplot(airquality_May, aes(x=Time, y=Temp, group=1)) + 
+   geom_line() + 
+   ggtitle("Time Series Graph, Temp from May.01 to May.31")

 

 

 

 

 

 

위의 두 개의 시계열 그래프를 보면 y축을 ggplot2 가 자동으로 계산해서 적정 범위를 설정해주었습니다만, 경우에 따라서는 사용자가 강제로 특정 범위를 설정해주고 싶을 때가 있습니다.  아래는 ylim()을 이용해서 0~max(y) 값 까지 y축 범위를 설정한 예시입니다.

 

> # y축 범위 설정 0~max
> ggplot(airquality_May, aes(x=Time, y=Temp, group=1)) + 
+   geom_line() + 
+   ylim(0, max(airquality_May$Temp)) +
+   ggtitle("Time Series Graph, Temp from May.01 to May.31, y axis from 0 to max")

 

 

 

 

 

 

 

선그래프의 선 모양도 바꿔보고 싶고, 점도 덮입혀 보고 싶다면 아래 예제를 참고하세요.

 

> # 점선으로 변경, 점 추가
> ggplot(airquality_May, aes(x=Time, y=Temp, group=1)) + 
+   geom_line(linetype="dotted", size=1, colour="blue") + 
+   geom_point(size=3, shape=19, colour="blue") +
+   ggtitle("Time Series Graph, Temp from May.01 to May.31, with dotted line, dot")

 

 

 

 

 

참고로 R Line Type과 Shape 은 아래와 같습니다.

 

[ R Line Type ]

 

 

 

[ R Symbol Shape ]

 

 

 

다음은 aes() 내 group과 colour 를 사용하여 그룹별로 선그래프, 시계열그래프 그리는 방법입니다. 

 

> # 집단별 시계열 그래프 : 월별(5월~9월) Temp 시계열 그래프
> ggplot(data=airquality, aes(x=Day, y=Temp, colour=Month, group=Month)) + 
+   geom_line() + 
+   geom_point(size=3) +
+   ggtitle("Time Seires Graph, Temp from May to Sep.")

 

 

 

 

많은 도움 되었기를 바랍니다.

 

이번 포스팅이 도움이 되었다면 아래의 '공감 ~♡' 단추를 꾸욱 눌러주세요.^^

 

728x90
반응형
Posted by Rfriend
,