방명록

  1. 로날벡스 2017.06.26 17:20 신고  수정/삭제  댓글쓰기

    안녕하세요, R공부하고 있는 초심자입니다.

    R프렌드님 블로그 보면서 엄청 도움받고 있는데요,
    이번에 제가 국비지원과정 한달짜리 빅데이터분석(R기초) 강좌를 수강해볼까 하는데,

    실무적으로 도움되는 테크닉을 많이 배울수 있을까요? 저는 현재 9월 ADsP 취득을 목표로 공부하고 있습니다
    ( http://hanbitedu.co.kr/index.php?main_page=regular&action=bigdata&mode=view&id=272&query=sc )

    감사합니다. 항상 건강하세요 !
    블로그 항상 열독하겠습니다 ㅎㅎ

    • R Friend R_Friend 2017.06.26 21:37 신고  수정/삭제

      안녕하세요.

      빅데이터 분석 쪽 공부하신다니 반갑습니다.

      문의하신 교육 과정은 제가 모르는 과정이네요. 제 주변에도 그 과정을 들어본 사람이 없어서요, 제가 무어라 말씀을 못드리겠습니다.

      아무래도 인터넷이나 다른분 통해서 이미 수강하셨던 분들의 강의평을 알아보시는게 좋겠습니다.

  2. 기홍명 2017.06.21 16:22 신고  수정/삭제  댓글쓰기

    블로그 보면서 열심히 공부하고 있습니다. 직접 코딩하는데 막히는 부분이 생겨서 질문드려요.

    A,B 학생의 영어,수학점수 관련 데이터를 다루고 있습니다.

    데이터의 형태는

    구분 과목 학생 성적
    1 수학 A 83
    2 영어 A 72
    3 영어 B 93
    4 영어 A 82
    5 수학 B 65
    6 수학 B 75
    7 영어 B 88
    . . . . . . . .
    600 수학 A 97


    이런식으로 이뤄져있습니다. A,B 학생의 수학,영어의 시험본 횟수는 동일합니다.

    제가 알고 싶은 것은 각 학생이 시험을 보기전 5개의 시험의 평균점수가 이번 시험에 영향을 주는 지 알아보려 합니다.

    예를 들어 A 학생이 120번째 시험점수를 예측하기 위해서 A학생의 119, 118, 117, 116, 115번째 시험점수의 평균을 계산하는 것이지요. 또, A 학생의 40번째 수학시험의 점수를 예측하기위해 A학생의 39, 38, 37번째 수학점수 평균을 찾고자 합니다.

    첫번째 시험은 그 점수로 하고, 4개번째 시험은 앞의 1,2,3개의 시험 평균이면 됩니다.

    최종적으로 제가 얻고자하는 형태는



    구분 과목 학생 성적, Want1, Want2
    1 수학 A 83
    . . . . . . . . . . . . . . . . .
    30 수학 A 92 (A학생의 최근 5개의 시험의 평균), (A학생의 수학의 최근 3개의 시험의 평균)



    뭔가 설명도 난해하고 부족하지만 도움을 주실 수 있으시다면 ㅜㅜ 얌전히 기다리겠습니다.

    • R Friend R_Friend 2017.06.21 17:53 신고  수정/삭제

      안녕하세요, 기홍명님.
      R 공부하신다니 반갑습니다.

      원하시는 분석 내용이 보니 시계열분석에서 단순이동평균 구하는 거네요.

      최근거에 더 가중치를 주고 싶으면 지수평활법을 쓰면 되구요.

      TSA 라는 R의 시계열분석 패키지 사용해서 분석해보시지요. 사용법은 TSA 매뉴얼 참고하시구요.

      --------------------
      혹시 시계열분석이 좀 어려우시면요,

      melt(), cast()함수로 데이터를 재구조화하신 후에요,
      http://rfriend.tistory.com/80

      => lag() 함수를 써서 1차lag, 2차 lag, 3차 lag, 4차 lag, 5차 lag 해서 각 새로운 변수를 만든 후에
      => 1차lag~3차lag 단순평균,
      => 1차lag~5차lag 단순평균
      해도 되겠네요.

      lag 함수는 아래의 포스팅 참고하세요.
      http://rfriend.tistory.com/242

  3. 이상규 2017.06.12 16:32 신고  수정/삭제  댓글쓰기

    안녕하세요 ~! 오랜만에 글남겨요 ㅜㅜ 좋은 정보 계속 올려주셔서 많이 공부하고 있습니다!!

    제가 책 한권 구입해서 머신러닝을 공부하고 있습니다.

    로지스틱회귀모델, SVM모델 등 모델 생성하고 성능평가도 할 수 있는데 실제 데이터를 대입하여 예측하는 내용이 없어요 ㅠㅜ

    로지스틱회귀 모델을 만들어 confusionmatrix로 성능평가 까지 끝난 후 새로운 데이터의 종속변수 값을 예측하려면 어떻게 해야할까요?

    • R Friend R_Friend 2017.06.12 22:20 신고  수정/삭제

      아래의 dataset이랑 glm() 함수, predict(), confusion matrix 생성 R script 참고하세요.

      ##===================================
      ## Logistic Regression
      ##===================================

      ##---------- data
      # getting 'Caravan' data set from ISLR package
      install.packages("ISLR")
      library(ISLR)

      Caravan <- data.frame(Caravan)

      # Caravan data.frame: 5822 obs. of 86 variables
      str(Caravan)

      # response variable : Purchase
      table(Caravan$Purchase) # Yes : 348
      prop.table(table(Caravan$Purchase)) # Yes : 0.05977

      #-------------- logistic regression
      # training set, test set
      train_vec <- 1:4000

      Caravan_test_Purchase <- Caravan$Purchase[-train_vec]

      # logistic regression fitting using glm()
      Caravan_logistic_fit <- glm(Purchase~.,
      data = Caravan,
      family = binomial,
      subset = train_vec)

      # predict() for test set
      Caravan_logistic_fit_prob <- predict(Caravan_logistic_fit,
      Caravan[-train_vec, ],
      type = "response")

      # checking the prediction(classification) result
      Caravan_logistic_fit_prob_pred = rep("No", (nrow(Caravan) - 4000))

      logistic_prob_threshold <- 0.5
      Caravan_logistic_fit_prob_pred[Caravan_logistic_fit_prob > logistic_prob_threshold] <- "Yes"
      table(Caravan_logistic_fit_prob_pred, Caravan_test_Purchase)

    • 이상규 2017.06.13 15:56 신고  수정/삭제

      제가 질문을 잘 못했나봐요 ㅜㅜ 생성된 모델을 사용해서 종속변수가 없는 데이터를
      입력하여 종속변수를 예측하려 합니다. 스코어링(?)하는 법이 궁금합니다.

    • R Friend R_Friend 2017.06.13 17:38 신고  수정/삭제

      끝부분에 있는 predict() 함수 부분을 그대로 이용하시되 대상 데이터셋만 바꿔주시면 됩니다

    • 이상규 2017.06.14 18:01 신고  수정/삭제

      와.. 갑자기 머리가 멍하지네요ㅋㅋㅋㅋㅋㅋ ㅜㅜㅜㅜ 감사합니다. 이렇게 멍청했다니

    • R Friend R_Friend 2017.06.14 20:20 신고  수정/삭제

      저도 종종 헤메곤 합니다. ^^;

  4. 이진우 2017.06.01 17:13 신고  수정/삭제  댓글쓰기

    해결됬네요 ㅎㅎ 감사합니다.

    my_files <- paste(dir(pattern = ".dat"),sep="")

    my_files
    test <- c()
    i=1

    while(i<= length(my_files))
    {

    test[i]<- substr(my_files[i],6,nchar(my_files[i])-4)
    i=i+1

    }
    test
    test <- as.numeric(test)
    test
    test<-sort(test)

    while(i<=length(my_files))
    {
    my_files[i]<- paste(paste("case_",test[i],sep=""),".bin",sep ="")
    i=i+1
    }
    my_files


  5. 이진우 2017.06.01 16:04 신고  수정/삭제  댓글쓰기

    안녕하세요 ㅎㅎ 오랜만에 들어왔습니다.

    궁금한게 하나 있어서요..

    오름차순 할때 보통 sort()함수 쓰거나 하는데

    문제는 텍스트와 숫자가 섞여있을때입니다..

    폴더에
    case_1.dat, case_1.bin, case_1.out
    case_2.dat, case_3.bin, case_3.out
    case_12.dat, case_6.bin, case_6.out
    case_19.dat, case_11.bin, case_11.out
    이렇게 같은 이름에 확장자만 다른 파일이 12개가 있습니다.

    my_files <- paste(dir(pattern = ".dat"),sep="")
    my_outs <- sub("dat", replacement = "out", x = my_files)
    my_bins <- sub("dat", replacement = "bin", x = my_files)

    이렇게 함수를 써서 분류를 해야하는데..

    my_files 경우 원하는 입력은 case_1.dat, case_2.dat, case_12.dat, case_19.dat 이거지만

    "case_1.dat" "case_12.dat" "case_19.dat" "case_2.dat" 이렇게 나오네요.

    sort함수를 써도 정렬이 안되네요... 다른 함수가 있을까요??

    • R Friend R_Friend 2017.06.01 16:32 신고  수정/삭제

      '_' 기준으로 분해해서

      => 숫자가 자리수가 1개인 경우 '0'을 끼워넣어주고(예: '1' -> '01', '2'-> '02', '3' -> '03' 등),

      => 다시 원래대로 paste로 합친 후에

      => 정렬을 하면 원하시는 순서로 정렬이 될거예요.

  6. 산낙지 2017.05.30 12:43 신고  수정/삭제  댓글쓰기

    안녕하세요. 항상 블로그 글 잘 읽으며 r에 대해 차츰 배워나가고 있습니다.
    한글로 된 r 전문 블로그가 몇 없는데, 그중에서도 가장 최고인 것 같네요!
    다름이 아니라 제가 현재 통계청의 합계출산율 자료를 사용하고 있는데
    통계청 자료는 이런 형태로 되어있습니다.

    region
    서울특별시
    동대문구
    ...
    경기도
    수원시
    팔달구
    권선구
    ...

    저는 이 region이라고 하나로 되어 있는 변수를
    region1(서울특별시), region2(동대문구)
    region1(경기도), region2(수원시), region3(팔달구)
    region1(경기도), region2(수원시), region3(권선구)

    이렇게 위계(?)를 주며 나누고 싶습니다.
    엑셀로는 할 수 있을 것 같은데 혹시 R로도 가능한 명령어가 있을지 궁금해서 질문 드립니다.
    블로그 내에 문자 관련된 명령어를 봐도 paste 외에 관련이 있는 게 무엇인지 잘 감이 안와서요.
    제가 R 초보다보니 이런 작업도 제대로 잘 못하네요 ㅠㅠ 그럼 글 읽어주셔서 감사합니다! :)

    • R Friend R_Friend 2017.05.30 13:30 신고  수정/삭제

      안녕하세요 산낙지님,

      문자열 처리함수를 다룬
      http://rfriend.tistory.com/37
      번 포스팅에서 4-1번, 4-2번 참고해보시기 바랍니다.

      혹시 통계청 자료 중에 JSON 포맷으로 된게 있다면 rfriend.tistory.com/315 번 포스팅 참고하시구요.

    • 산낙지 2017.05.30 17:57 신고  수정/삭제

      네네 확인해보았습니다! 그런데 제가 저 명령어를 이해했을 때에는

      region
      서울시 동대문구
      경기도 수원시 팔달구

      이런 식으로 변수 하나에 모든 내용이 다 적혀져 있을 때에는 strsplit 명령어를 이용해 split=' '로 빈칸을 기준으로 나누면 될 거 같은데 통계청 자료는

      region
      서울시
      동대문구
      ...

      이런 식으로 그냥 한 행에 서울시, 한 행에 동대문구 이렇게 각자 데이터가 써져있어서요 ㅠㅠ 더 많이 공부를 해야겠네요. R을 공부하면서 느끼는 거지만 정말 공부를 하면 할수록 더 어려워지는 거 같습니다 ㅠㅠ

    • R Friend R_Friend 2017.05.30 17:59 신고  수정/삭제

      데이터를 볼 수 있는 링크 남겨줘보실래요?

      퇴근해서 한번 볼께요

    • R Friend R_Friend 2017.05.30 18:05 신고  수정/삭제

      (1) 지역 위계(regionq1, region2, region3)를 나타내는 변수를 하나 추가해서 만드시구요

      => (2) melt, cast 함수로 데이터셋을 재구조화하면 될거 같습니다.

    • 산낙지 2017.05.30 19:40 신고  수정/삭제

      http://kosis.kr/statHtml/statHtml.do?orgId=101&tblId=DT_1B81A17&vw_cd=MT_ZTITLE&list_id=A21_1&scrId=&seqNo=&lang_mode=ko&obj_var_id=&itm_id=&conn_path=K1&path=%25EC%259D%25B8%25EA%25B5%25AC%25C2%25B7%25EA%25B0%2580%25EA%25B5%25AC%2520%253E%2520%25EC%259D%25B8%25EA%25B5%25AC%25EB%258F%2599%25ED%2596%25A5%25EC%25A1%25B0%25EC%2582%25AC%2520%253E%2520%25EC%25B6%259C%25EC%2583%259D%2520%253E%2520%25ED%2595%25A9%25EA%25B3%2584%25EC%25B6%259C%25EC%2582%25B0%25EC%259C%25A8%252C%2520%25EB%25AA%25A8%25EC%259D%2598%2520%25EC%2597%25B0%25EB%25A0%25B9%25EB%25B3%2584%2520%25EC%25B6%259C%25EC%2582%25B0%25EC%259C%25A8%2520-%2520%25EC%258B%259C%25EA%25B5%25B0%25EA%25B5%25AC%25EC%258B%259C%25EA%25B5%25B0%25EA%25B5%25AC%252F%25ED%2595%25A9%25EA%25B3%2584%25EC%25B6%259C%25EC%2582%25B0%25EC%259C%25A8%252C%2520%25EB%25AA%25A8%25EC%259D%2598%2520%25EC%2597%25B0%25EB%25A0%25B9%25EB%25B3%2584%2520%25EC%25B6%259C%25EC%2582%25B0%25EC%259C%25A8

      여기입니다! 여기서 시군구 전부 다 체크해서 보시면 됩니다. 다시 한번 정말 감사드립니다 ㅠㅠㅠ 저도 melt와 cast 함수 알아보도록 하겠습니다!

    • R Friend R_Friend 2017.06.05 16:31 신고  수정/삭제

      필요로 하시는 R script 중에서 첫번째 region_1 부분만 짜봤습니다. region_2, region_3는 아래 R script를 참고해서 직접 짜보시면 좋겠습니다.

      참고로, 통계청 자료에서 txt로 내린 후에 첫번째 행은 삭제하고 2번째 행을 header로 사용해서 데이터를 읽어들인 후에 작업했습니다.

      # (1) reading txt dataset
      region_data <- read.table("C:/R/통계청/시군구_합계출산율__모의_연령별_출산율_20170605152126.txt",
      sep = "|",
      header = TRUE,
      stringsAsFactor = FALSE)

      # (2) marking region_level_1 : 00시, 00도
      region_level_1 <- c('서울특별시', '부산광역시', '대구광역시', '인천광역시', '대전광역시',
      '울산광역시', '세종특별자치시', '경기도', '강원도', '충청북도',
      '충청남도', '전라북도', '전라남도', '경상북도', '경상남도', '제주특별자치도')

      region_data <- transform(region_data,
      region_1 = ifelse(시군구별 %in% region_level_1, 시군구별, NA))

      # (3) filling in region_1
      for (i in 2 : nrow(region_data)) {
      if (is.na(region_data[i, 'region_1']) == TRUE) {
      region_data[i, 'region_1'] = region_data[i-1, 'region_1']
      } else {
      region_data[i, 'region_1'] = region_data[i, 'region_1']
      }
      }

      # (4) delete the '시', '도' summary rows
      region_data <- subset(region_data,
      subset = 시군구별 != region_1)

  7. Liam 2017.05.29 11:11 신고  수정/삭제  댓글쓰기

    오랜만에 블로그 방문했습니다. 그동안 많은 포스트가 올라와 있네요. 다 읽어봐야겠습니다.

  8. 노경모 2017.05.25 10:38 신고  수정/삭제  댓글쓰기

    여태까지 본 블로그 중 최고네요. 좋은 정보 정말 감사합니다.
    ggplot 그래프 질문 드립니다.

    ggplot(data,aes(x=ipt,fill=type)) + geom_histogram() 이용해서 그래프 우측에 라벨이 나타납니다. 우측에 생긴 라벨을 위나 아래로 위치 변경할 수 있나요? 엑셀로 치면 그래프의 범례 옵션에서 오른쪽이 아닌 위쪽이나 아래쪽으로 변경하려 합니다

    가르침 부탁 드립니다.

    • R Friend R_Friend 2017.05.27 23:38 신고  수정/삭제

      안녕하세요.

      범례를 하단에 놓고 싶으시면
      + theme(legend.position="bottom")
      을 한줄 추가하시면 됩니다.

      "right", "left", "top", "bottom" 중에서 원하는 위치 고르시면 됩니다.

      [참고 =>] http://rfriend.tistory.com/316

      블로그 좋게 봐주셔서 감사합니다. ^^

    • 노경모 2017.05.25 13:02 신고  수정/삭제

      아 정말 정말 감사합니다! 바로 적용하였습니다.

      혹시 개인적인 질문을 드려도 될까요?
      아마 저 말고도 다른 분들도 많이 궁금하실 것 같은데 언제 한번 기계학습, 데이터마이닝, R, python을 공부하게 된 계기나, 공부했던 방법(대학교, 온라인, 책) 등을 포스팅 한 번 부탁 드릴게요.

      저도 책사고, 온라인 강좌 듣고 따라해보고 시간지나면 까먹고 또 해보고를 반복하는데, 블로그 글들을 보니 내공이 장난 아니신것 같습니다. 언제 한번 시간 나실 때 공부 방법 좀 알려주시면 감사드립니다 ^^

    • R Friend R_Friend 2017.05.26 00:10 신고  수정/삭제

      노경모님, 저도 책도 보고, 인터넷도 보고, 공부하는 것은 비슷하답니다. 시행착오도 많구요, 자꾸 까먹고, 다시 공부하고 그래요. ^^;

      일하면서 그때 그때 필요한 분석 기법들을 공부하고, R이나 Python 가지고 계속 사용하는게 중요한것 같습니다.

      무림의 고수들이 엄청 많이 계시구요, 저는 아직 공부해야 할게 더 많아서요, 그냥 겸손히, 꾸준히 공부하고 있습니다. 길게 보고, 지치지 않게, 재미있게 공부하고 있습니다.

  9. Hihello 2017.05.08 19:49 신고  수정/삭제  댓글쓰기

    안녕하세요 선생님ㅠㅠㅠ
    제가 답답해서 우선 방명록으로라도 여쭤보고 싶어 이렇게 글을 남깁니다

    현재 제가 csv 파일을 가지고 있습니다!
    month Day Date Team 1 Team 2 Team1_Score Team2_Score Stadium
    4 1 Fri Lotte Nexen 2 1 고척
    4 1 Fri Hanhwa LG 4 5 잠실
    4 1 Fri KT SK 8 4 문학
    이런식으로 쭉 600개가 넘는 파일이 있습니다

    이때 비긴 경기는 분석 대상에서 제외(데이터에서 제거 후 분석을 수행)하고

    1. 팀끼리 서로 승리한 횟수를 세어 표로 정리
    2. 각 팀별로 구장별 승리 횟수를 세어 표로 정리

    이렇게 조건을 주어주고

    ## Lotte Hanhwa KT Doosan KIA NC Nexen LG Samsung SK
    ## Lotte 0 8 10 7 6 1 5 8 11 5
    ## Hanhwa 8 0 7 2 7 7 4 5 9 10
    ## KT 4 7 0 3 5 5 3 6 8 6
    ## Doosan 5 12 13 0 9 9 9 9 9 9
    ## KIA 10 9 10 5 0 7 5 6 7 6
    ## NC 14 8 9 7 9 0 6 8 5 7
    ## Nexen 7 9 11 4 11 7 0 6 8 6
    ## LG 7 8 9 7 7 4 10 0 5 6
    ## Samsung 4 5 6 5 6 7 7 8 0 6
    ## SK 9 4 9 4 8 5 9 10 5 0

    이것이 1번에 대한 예상 결과물이고

    ## 고척 잠실 문학 대구 마산 대전 광주 수원 사직 포항 울산 청주
    ## Lotte 1 5 3 3 1 3 2 4 33 2 4 0
    ## Hanhwa 2 5 5 3 3 32 2 2 2 1 1 1
    ## KT 2 3 3 5 4 2 1 25 1 0 1 0
    ## Doosan 5 48 3 4 4 5 4 6 3 0 0 2
    ## KIA 1 5 2 5 5 3 36 4 4 0 0 0
    ## NC 3 6 4 2 33 4 6 7 8 0 0 0
    ## Nexen 41 4 2 3 2 4 4 7 2 0 0 0
    ## LG 4 40 3 2 1 4 4 3 2 0 0 0
    ## Samsung 3 5 4 26 3 2 3 4 2 2 0 0
    ## SK 3 6 35 2 3 1 4 5 4 0 0 0

    이것이 2번에 대한 결과물인데 도저히 어떻게 이를 추출할지 감이 안와요ㅠㅠㅠ
    정말 급하고 중요한데 혹시 좀 알려주실 수 없을까요ㅠㅠ죄송합니다 미리 감사드립니다!

    • R Friend R_Friend 2017.05.09 00:37 신고  수정/삭제

      안녕하세요 Hihello 님,

      아래에 R script 짜보았습니다. 원하시는 결과이면 좋겠습니다.
      ^^


      > ##----------------------------------------------------
      > ## KBO 2017 : baseball game competition score analysis
      > ##----------------------------------------------------
      >
      > # (1) making a sample dataset
      > month <- c(4, 4, 4, 4, 4, 4, 4)
      > Day <- c(1, 1, 1, 3, 3, 3, 3)
      > Date <- c("Fri", "Fri", "Fri", "Sun", "Sun", "Sun", "Sun")
      > Team1 <- c("Lotte", "Hanhwa", "KT", "SK", "Nexen", "LG", "Samsung")
      > Team2 <- c("Nexen", "LG", "SK", "KT", "Lotte", "Hanhwa", "Kia")
      > Team1_Score <- c(2, 4, 8, 6, 4, 1, 3)
      > Team2_Score <- c(1, 5, 4, 3, 9, 2, 3)
      > Stadium <- c("고척", "잠실", "문학", "수원", "부산", "대전", "광주")
      >
      > KBO_2017 <- data.frame(month, Day, Date, Team1, Team2, Team1_Score, Team2_Score, Stadium)
      > str(KBO_2017)
      'data.frame': 7 obs. of 8 variables:
      $ month : num 4 4 4 4 4 4 4
      $ Day : num 1 1 1 3 3 3 3
      $ Date : Factor w/ 2 levels "Fri","Sun": 1 1 1 2 2 2 2
      $ Team1 : Factor w/ 7 levels "Hanhwa","KT",..: 4 1 2 7 5 3 6
      $ Team2 : Factor w/ 7 levels "Hanhwa","Kia",..: 6 4 7 3 5 1 2
      $ Team1_Score: num 2 4 8 6 4 1 3
      $ Team2_Score: num 1 5 4 3 9 2 3
      $ Stadium : Factor w/ 7 levels "고척","광주",..: 1 7 4 6 5 3 2
      >
      > KBO_2017 <- transform(KBO_2017,
      + Team1 = as.character(Team1),
      + Team2 = as.character(Team2))
      >
      > rm(month, Day, Date, Team1, Team2, Team1_Score, Team2_Score, Stadium)
      >
      >
      > # (2) if the score is tied, then delete the game
      > # http://rfriend.tistory.com/49
      > KBO_2017_1 <- subset(KBO_2017, subset = (Team1_Score != Team2_Score))
      >
      >
      > # (3) counting the number of wins b/w teams
      > KBO_2017_1 <- transform(KBO_2017_1,
      + Team_win = ifelse(Team1_Score > Team2_Score, Team1, Team2),
      + Team_lose = ifelse(Team1_Score > Team2_Score, Team2, Team1),
      + win_cnt = 1)
      >
      > # http://rfriend.tistory.com/235
      > #install.packages("dplyr")
      > library(dplyr)
      > Team_win_cnt <- KBO_2017_1 %>%
      + group_by(Team_win, Team_lose) %>%
      + summarise(win_cnt_sum = sum(win_cnt))
      >
      > Team_win_cnt
      Source: local data frame [5 x 3]
      Groups: Team_win [?]

      Team_win Team_lose win_cnt_sum
      <fctr> <fctr> <dbl>
      1 Hanhwa LG 1
      2 KT SK 1
      3 LG Hanhwa 1
      4 Lotte Nexen 2
      5 SK KT 1
      >
      > # http://rfriend.tistory.com/80
      > #install.packages("reshape")
      > library(reshape)
      > Team_win_cast <- cast(data = Team_win_cnt,
      + Team_win ~ Team_lose,
      + value = 'win_cnt_sum',
      + fun = sum)
      >
      > Team_win_cast
      Team_win Hanhwa KT LG Nexen SK
      1 Hanhwa 0 0 1 0 0
      2 KT 0 0 0 0 1
      3 LG 1 0 0 0 0
      4 Lotte 0 0 0 2 0
      5 SK 0 1 0 0 0
      >
      >
      > # (4) counting the number of wins
      > Team_Stadium_win_cnt <- KBO_2017_1 %>%
      + group_by(Team_win, Stadium) %>%
      + summarise(win_cnt_sum = sum(win_cnt))
      >
      > Team_Stadium_win_cnt
      Source: local data frame [6 x 3]
      Groups: Team_win [?]

      Team_win Stadium win_cnt_sum
      <fctr> <fctr> <dbl>
      1 Hanhwa 대전 1
      2 KT 문학 1
      3 LG 잠실 1
      4 Lotte 고척 1
      5 Lotte 부산 1
      6 SK 수원 1
      >
      > Team_Stadium_win_cnt_cast <- cast(data = Team_Stadium_win_cnt,
      + Team_win ~ Stadium,
      + value = 'win_cnt_sum',
      + fun = sum)
      >
      > Team_Stadium_win_cnt_cast
      Team_win 고척 대전 문학 부산 수원 잠실
      1 Hanhwa 0 1 0 0 0 0
      2 KT 0 0 1 0 0 0
      3 LG 0 0 0 0 0 1
      4 Lotte 1 0 0 1 0 0
      5 SK 0 0 0 0 1 0

  10. 진형민 2017.05.08 04:16 신고  수정/삭제  댓글쓰기

    좋은자료 잘 보고가요!!
    정말정말 열심히 공부하신게 보이시네요!

    • R Friend R_Friend 2017.05.08 09:49 신고  수정/삭제

      블로그 좋게 봐주셔서 감사합니다. ^^

    • 진형민 2017.05.08 17:46 신고  수정/삭제

      와.. 혼자 독학하신건가요~~???

    • R Friend R_Friend 2017.05.09 00:46 신고  수정/삭제

      R이랑 Python은 주로 책이랑 인터넷으로 공부하고 있습니다. 업무에 적용해서 성과를 내야 하다보니 더 절박하게 공부하게 되는거 같아요. 그리고 블로그에 정리해놓으면 나중에 저도 필요할 때 요긴하게 찾아서 쓸 수 있어서 지식공유도 할겸, 제 knowledge DB 로도 사용할 겸 포스팅하고 있습니다.

      요즘엔 양질의 컨텐츠(특히, 영어)가 정말 많다는 점이예요. 남들이 기꺼이 베푸는 지식공유의 혜택을 저도 누리고 있는거지요. ^^



티스토리 툴바