이번 포스팅에서는 외부의 엑셀(Excel) 파일로 존재하는 데이터를 RStudio 를 사용해서 R로 불러오기 하는 방법을 소개하겠습니다. 


저는 주로 DB에 직접 connect해서 데이터를 내리거나, 아니면 csv 나 txt 형태의 데이터를 R로 불러와서 분석에 사용하곤 합니다만(read.table() 함수 참고), 엑셀이 워낙 숫자 다루는데 강력하고 편리하다 보니 엑셀 데이터를 가져다가 R에서 사용해야 하는 경우도 있을 것입니다. 그리고 RStudio 에서 GUI로 Excel, SAS, SPSS, Stata 포맷을 데이터를 불러올 수 있는 기능이 있으니 클릭 몇 번으로 해결할 수 있으니 편리합니다. 


예제로 사용할 'cust_profile.xlsx'라는 이름의 엑셀 자료는 아래처럼 생겼습니다. 

(주의사항 1) 여러개의 sheet 중에서 'cust_profile' 라는 이름의 첫번재 sheet에 있는 데이터를 불러오고 싶습니다. 

(주의사항 2) 1~2번째 행(row)는 사용하지 않을 것이구요, 3번째 행부터 데이터를 불러오고 싶습니다.  1번째 열은 사용하지 않고 2번째 열부터 데이터를 불러오고 싶습니다. (정확히는 B3:E8 range)

(주의사항 3) 'gender' 열의 세번째 관측치 값이 결측값(missing value) 인데요, R로 불러왔을 때 결측값( 'NA')으로 잘 인식해서 불러오게 하고 싶습니다.  


[ 엑셀 예제 파일 ] 

* 실습 예제 엑셀 파일 첨부 ☞   cust_profile.xlsx



우선 R에서 "readex" package를 설치하고 로딩해보겠습니다. 


(1) {readxl} package 설치 및 로딩하기 



# installing and loading readxl package 

install.packages('readxl')

library(readxl)

 



엑셀 데이터를 R로 불러오는 방법에는 (a) R script를 이용하는 방법과,  (b) RStudio GUI 를 이용하는 방법의 2가지가 있습니다.  차례대로 소개하겠습니다. 


  (2) R script를 사용해서 엑셀 데이터 불러오기


엑셀 파일이 들어있는 경로(path), 사용할 sheet 이름, 불러올 데이터의 범위(range), 칼럼 이름(column name), 칼럼 유형(column type), cell 에 값이 비어있는 결측값에 사용할 문자열(비어 있으면 디폴트로 결측값으로 인식함)을 입력해주면 됩니다. 

> # importing excel file by using read_excel() function

> cust_profile <- read_excel("C:/Users/Administrator/Documents/cust_profile.xlsx", # path

+                            sheet = "cust_profile", # sheet name to read from

+                            range = "B3:E8", # cell range to read from

+                            col_names = TRUE, # TRUE to use the first row as column names

+                            col_types = "guess", # guess the types of columns

+                            na = "NA") # Character vector of strings to use for missing values

> str(cust_profile)

Classes ‘tbl_df’, ‘tbl’ and 'data.frame': 5 obs. of  4 variables:

 $ ID    : chr  "c1" "c2" "c3" "c4" ...

 $ gender: chr  "F" "M" NA "M" ...

 $ age   : num  30 28 46 65 38

 $ name  : chr  "Kim" "Lee" "Park" "Moon" ...


> cust_profile

# A tibble: 5 × 4

     ID gender   age  name

  <chr>  <chr> <dbl> <chr>

1    c1      F    30   Kim

2    c2      M    28   Lee

3    c3   <NA>    46  Park

4    c4      M    65  Moon

5    c5      F    38  Choi






엑셀 데이터 크기가 커지면 행과 열의 범위(range)를 찾아서 정확히 입력하기가 번거로운 경우도 있을 텐데요, 아래처럼 처음의 2개의 행(row)은 무시하고(skip), 3번재 행부터 엑셀에서 데이터를 불러오라고 설정을 해주어도 결과는 똑같게 데이터를 불러올 수 있습니다. 


> # importing excel file using 'skip' option

> cust_profile_2 <- read_excel("C:/Users/Administrator/Documents/cust_profile.xlsx", # path

+                            sheet = "cust_profile", # sheet name to read from

+                            skip = 2, # Minimum number of rows to skip before reading anything

+                            col_names = TRUE, # TRUE to use the first row as column names

+                            col_types = "guess", # guess the types of columns

+                            na = "NA") # Character vector of strings to use for missing values

> cust_profile_2

# A tibble: 5 × 4

     ID gender   age  name

  <chr>  <chr> <dbl> <chr>

1    c1      F    30   Kim

2    c2      M    28   Lee

3    c3   <NA>    46  Park

4    c4      M    65  Moon

5    c5      F    38  Choi

 



다음으로 RStudio GUI 를 사용해서 클릭 몇 번으로 간단하게 엑셀 데이터 불러오는 방법을 소개하겠습니다. 


  (3) RStudio GUI 를 사용해서 엑셀 데이터 불러오기


(3-1) RStudio 우측 상단의 'Environments' 창에서 'Import Dataset' 메뉴를 선택한 후에, 'From Excel...' 하위 메뉴를 선택해보세요. 



(3-2) RStudio 의 'Import Excel Data' 창에서 왼쪽 하단의 'Import Options:' 화면에서 옵션을 입력하여 엑셀 데이터 불러오기



'Import Options:' 화면이 잘 안보일 것 같아서 아래에 확대해서 R Script 와 비교할 수 있도록 번호를 같이 표기해보았습니다. 


많은 도움 되었기를 바랍니다. 

이번 포스팅이 도움이 되었다면 아래의 '공감~♡'를 꾸욱 눌러주세요. ^^



저작자 표시 비영리 변경 금지
신고
크리에이티브 커먼즈 라이선스
Creative Commons License
Posted by R Friend R_Friend


티스토리 툴바