미스터리 음악쇼 복면가왕 16회가 7/19(일) 저녁에 있었습니다. 10주 만에 '화생방실 클레오파트라'가 복면가왕 가면을 벗었고, '노래왕 퉁키'는 새로운 복면가왕으로 등극하였습니다.

 

'죠스가 나타났다'도 정말 잘했는데 '노래왕 퉁키' 너무 잘했죠. 그리고 '화생방실 클레오파트라' 역시 4연속 가왕으로서 '한오백년'과 '진도아리랑'을 가지고 관객과 시청자를 홀렸습니다만, 관객석을 콘서트장으로 만든 '노래왕 퉁키'가 새로운 복면가왕이 되었습니다.  이번 회차는 노래 듣는 내내 참 귀가 호강했습니다.

 

 

 

새로운 복면가왕 '노래왕 퉁키'

콘서트장을 방불케하는 카리스마!

 

 

 

한오백년으로 전혀 새로운 장르에 도전하며 가왕 타이틀 방어전에 임하는 화생방실 클레오파트라

 

 

 

8대 복면가왕은 간발의 표 차이로 '노래왕 퉁키'

 

 

 

10주만에 새 복면가왕 탄생에 놀라워하는 심사단

 

* 화면 출처: MBC 복면가왕 16회차 방송 사진 캡쳐

 

 

 

16회차 복면가수들의 노래에 대한 후기는 다른 많은 분들이 포스팅을 할 것이라 예상이 되구요, 저는 이번 포스팅에서 "대진 순서가 승패에 영향을 미칠까?"라는 질문(가설)에 대해서 통계적으로 검증을 해보았습니다.

 

14회차 Final Round에서 '소녀감성 우체통(린)'과 '내 칼을 받아라 낭만자객(김보아)'가 맞붙었는데요, 낭만자객이 52표, 우체통이 47표를 얻어서 낭만자객이 클레오파트라와 복면가왕전을 벌였고, 클레오파트라 승으로 끝났었죠. 

 

14회차 Final Round 때 둘다 잘하기는 했지만, 저는 '소녀감성 우체통'에 조금 더 마음이 끌리더라구요. 그런데 낭만자객이 근소한 표 차이로 승리를 했는데요, '그게 혹시 노래 순서 때문은 아닐까?', '뒤에 노래하는 복면가수일 수록 심사 관객/심사원의 뇌리에 인상이 더 크게 남아 있어서 더 유리한 것은 아닐까?' 하는 생각이 들었습니다. 그래서 .... 인터넷 뒤져가면서 1회부터 28회까지 대진표랑 승패 결과를 데이터로 정리해서 카이제곱 독립성 검정을 해보았습니다.

 

결론부터 말씀드리자면, "대진 순서는 10% 유의수준 하에서 승패에 영향이 있다"로 나왔습니다.

 

 

분석에 활용한 데이터는 1회~28회까지 매 회의 2 round, 3round 의 대진 순서와 승패 결과 데이터를 활용하였습니다.

아래 15, 16회차를 예로 들면 황색으로 테두리 친 영역이 분석 대상이 되겠습니다.  

 

 

 

 

데이터셋은 바로 아래에 링크 걸어놓습니다. (자료 모으고 정리하느라 시간 꽤 걸렸습니다. ㅜ_ㅠ) 

 

 

 

masksinger_win_lose_20151011.csv

 

(17회, 18회, 19회, 20회, 21회, 22회, 23회, 24회, 25회, 26회, 27회, 28회 업데이트 한 자료 새로 올립니다)

 

 

귀무가설 H0 : "노래 대진 순서는 승패에 영향이 없다"

대립가설 H1 : "노래 대진 순서는 승패에 영향이 있다"

 

라는 가설 검정을 위해서 R 오픈소스 통계툴을 활용해서 이변량 범주형 데이터의 독립성을 10% 유의수준 하에서 카이제곱 검정했습니다.

다음은 R에서 데이터 불러오고, 분할표 만들고, 카이제곱 검정 옵션 줘서 검정하라는 R 명령문입니다.

 

> masksinger_win_lose <- read.csv("C:/Users/user/Documents/R/masksinger_win_lose_20151011.csv", + header = TRUE)

>

> install.packages("gmodels") # gmodels 패키지 설치

> library(gmodels) # 패키지 호출 > str(masksinger_win_lose) # 데이터셋 구조 탐색, 60개의 관측치, 5개 변수를 가진 데이터 프레임 'data.frame': 84 obs. of 5 variables: $ broadcast: Factor w/ 10 levels "1_2","11_12",..: 1 1 1 1 1 1 7 7 7 7 ... $ round : int 2 2 2 2 3 3 2 2 2 2 ... $ singer : Factor w/ 40 levels "7월의크리스마스",..: 24 5 40 8 5 40 33 2 9 28 ... $ sequence : Factor w/ 2 levels "1st","2nd": 1 2 1 2 1 2 1 2 1 2 ... $ win_lose : Factor w/ 2 levels "lose","win": 1 2 2 1 1 2 2 1 1 2 ...

 

 

아래는 노래 대진 순서(1st, 2nd)와 승패 결과 (lose, win) 분할표 결과 입니다.

'2번째(2nd)'로 노래를 했으면서 승리(win)할 기대도수(Expected N)은 '21'인데 실제는 '25' 이고, 패배(lose)할 기대도수(Expected N)도 '21'인데 실제는 '17'이 나왔다는 뜻입니다.  

피어슨 카이제곱 검정 통계량은 '3.047619'이고, p-value는 0.0808이므로, 유의수준 10% 하에서 귀무가설 H0 : "노래 대진 순서는 승패에 영향이 없다"를 기각하고, 대립가설 H1: "노래 대진 순서는 승패에 영향이 있다"를 채택하게 됩니다.

 

 

 

> masksinger_win_lose <- read.csv("C:/Users/user/Documents/R/0_분석 관점으로 세상보기/02_복면가왕/masksinger_win_lose_20151011.csv", 
+                                 header = TRUE)
> CrossTable(masksinger_win_lose$sequence, masksinger_win_lose$win_lose, 
+            expected = TRUE, 
+            chisq = TRUE)

 
   Cell Contents
|-------------------------|
|                       N |
|              Expected N |
| Chi-square contribution |
|           N / Row Total |
|           N / Col Total |
|         N / Table Total |
|-------------------------|

 
Total Observations in Table:  84 

 
                             | masksinger_win_lose$win_lose 
masksinger_win_lose$sequence |      lose |       win | Row Total | 
-----------------------------|-----------|-----------|-----------|
                         1st |        25 |        17 |        42 | 
                             |    21.000 |    21.000 |           | 
                             |     0.762 |     0.762 |           | 
                             |     0.595 |     0.405 |     0.500 | 
                             |     0.595 |     0.405 |           | 
                             |     0.298 |     0.202 |           | 
-----------------------------|-----------|-----------|-----------|
                         2nd |        17 |        25 |        42 | 
                             |    21.000 |    21.000 |           | 
                             |     0.762 |     0.762 |           | 
                             |     0.405 |     0.595 |     0.500 | 
                             |     0.405 |     0.595 |           | 
                             |     0.202 |     0.298 |           | 
-----------------------------|-----------|-----------|-----------|
                Column Total |        42 |        42 |        84 | 
                             |     0.500 |     0.500 |           | 
-----------------------------|-----------|-----------|-----------|

 
Statistics for All Table Factors


Pearson's Chi-squared test 
------------------------------------------------------------
Chi^2 =  3.047619     d.f. =  1     p =  0.0808556 

Pearson's Chi-squared test with Yates' continuity correction 
------------------------------------------------------------
Chi^2 =  2.333333     d.f. =  1     p =  0.1266305

 

 

 

심사단의 투표 결과가 박빙일 때는 노래 순서가 영향을 미치지 않을까...하고 지금도 의혹을 가지고 있기는 합니다만, 복면가왕 보시는 분들은 아시겠지만, 진짜 가수와 아마추어 (개그맨, 탤런드, 아나운서 등)가 나와서 대진을 하면 실력차이가 나기 때문에 실력있는 가수 쪽으로 쏠림이 심한 경우가 많았습니다. 이렇게 실력차가 확연해서 쏠림이 심하면 '대진 순서'는 의미가 퇴색되겠지요. (다 아는 내용인데 미련한 저만 몰랐던 걸까요? 똥인지 된장인지 꼭 찍어먹어봐야 아는.... ㅋㅋ)

 

암튼, "노래 대진 순서는 승패에 영향이 없다"가 그동안의 1회~26회까지의 결과를 기반으로 통계분석를 통해 도출한 결론이 되겠습니다.

 

앞으로 몇 회 더 추적해서 분석을 업데이트 하도록 하겠습니다.

 

16회 때 이 블로그를 썼었는데요, 그때보다 회를 거듭할 수록 제가 세웠던 대립가설, 즉 "대진 순서가 승패에 영향이 있을 것이다 (두번째 노래한 가수의 승률이 더 높을 것이다)"라는 가설의 통계적 유의성이 점점 더 높아지고 있습니다.  두어달 더 꾸준히 트래킹해보면서 더 지켜보겠습니다.

 

그동안 아슬아슬하게 대립가설을 채택 못했는데요, 드디어 28회차에 뒤집혀서 10% 유의수준 하에  대진순서가 승패에 영향이 있다는 대립가설을 채택할 수 있게 되었습니다.  매주 데이터 수집, 정리하느라 시간이 솔찬히 걸렸는데요, 보람이 있었네요. ^^v

 

시간 순서에 따른 평가의 왜곡(후광효과?)을 줄이기 위해서는 첫번째 복면가수가 노래를 부르고 나서 바로 점수를 입력하게 하고, 두번째 복면가수가 노래를 부르면 또 바로 입력하게 하는 것이 필요할 것 같습니다.  그리고 평가를 할 때 몇 가지 평가요소를 세분화(예: 목소리, 리듬, 무대 퍼포먼스 등)해 놓고 평가를 하게 하면 왜곡을 줄일 수 있을 것 같습니다. 

 

회사에서도 연말에 한번 몰빵으로 평가를 하는 것이 아니라, 월이나 분기마다 평가를 하고 자주 피드백을 하는 것이 필요하거든요.  그리고 평가 항목을 직급, 업무에 따라 세분화, 구체화하구요.

 

아래는 복면가왕 역대 대진표와 승자를 정리한 내용이 되겠습니다. (데이터는 위의 본문 중간에 링크)

 


 

[복면가왕 1회, 2회 대진표 ('15.4.5~4.12)]

 

 


 

[복면가왕 3회, 4회 대진표 ('15.4.19~4.26)]

 

  


 

[복면가왕 5회, 6회 대진표 ('15.5.3~5.10)]

 

 


 

[복면가왕 7회, 8회 대진표 ('15.5.17~5.24)]

 

 


 

[복면가왕 9회, 10회 대진표 ('15.5.31~6.7)]

 

 


 

[복면가왕 11회, 12회 대진표 ('15.6.14~6.21)]

 

 


 

 [복면가왕 13회, 14회 대진표 ('15.6.28~7.5)]

 


 

[ 복면가왕 15회, 16회 대진표 ('15.7.12~7.19) ]

 

 

 


 

[ 복면가왕 17회, 18회 대진표 ('15.7.26~8.2) ]

 

 

 


 

[복면가왕 19회, 20회 대진표 ('15.8.9~8.16) ]

 

 

 

 

 


 

[ 복면가왕 21회, 22회 대진표 ('15.8.23~8.30) ]

  

 

 

 


 

[ 복면가왕 23회, 24회 대진표 ('15.9.6~9.13) ]

 

 

 

 

 


 

[ 복면가왕 25회, 26회 대진표 ('15.9.20~9.27) ]

 

 

 


 

[ 복면가왕 27회, 28회 대진표 ('15.10.04~10.11) ]

 

728x90
반응형
Posted by Rfriend
,

아래의 '태풍 찬홈 실제 이동 경로, 미 예보가 정확... 한국이 가장 빗나가' 신문 기사와 관련하여, 생각나는 것들 몇가지 적어봅니다. 

 

제대로 조사하고 정리하자면 일이 되어 차일피일 미루다가 글을 못쓰게 되곤 하야, 이슈가 될 때 짧고 굷게 휘갈겨 적어봅니다.

 

 

 

 

 

* 신문기사 출처: http://news.chosun.com/site/data/html_dir/2015/07/13/2015071300191.html

 2015.07.13, 박은호 기자, 조선일보

 

 


 

 

 

(1) 기상 예측, 쉽지만은 않다.

 

카오스(Chaos) 이론에 대해서 공부해보신 분들은 아마 접해보셨을 이야기입니다. 기상학자 로렌츠가 간단한 기상모델을 만들어서 컴퓨터로 계산을 해보았다고 합니다. 그러다가 다음날 다시 계산을 해보았는데 그 전날 계산한 값과 매우 큰 차이를 보이길레 모델에 뭐가 잘못되었나 한참을 찾았다고 합니다. 찾다, 찾다 결국 찾아낸 것이 초기 입력값의 소숫점 3째자리(?) 이하의 아주 작은 값을 입력하지 않았더니 예측값이 시간이 지날수록 확연히 달라지더라는 것을 발견하고 깜짝 놀랐다는 이야기 입니다.  

 

 

(위 그림 출처: http://ws.ajou.ac.kr/~nldc/int_xaos.htm   , 아마도 카오스 책 아니면 복잡계 책에서 봤던 그림인데, 책을 다 중고로 팔아버려서 확인할 수는 없고....기억이 잘 안나네요 ^^;)

 

소위 나비효과라고도 많이들 얘기하는데요, 베이징에서 나비가 날개짓하면 뉴욕에서 해일이 발생할 수도 있다는 이야기의 원조가 바로 로렌츠 기상모델 곡선이 되겠습니다.

 

증폭 효과로 인해서 초기의 아주 극히 작은 값에도 민감하게 시간이 지날수록 오차가 커지게 되고, 장기적인 예측은 오차가 벌어질 수밖에 없다는 내용이 되겠습니다. 일기예보, 특히 장기 일기예보는 원래 이렇게 어려운 겁니다. 한국 기상청 너무 욕하지 마시길요. ^^'

 

 

(2) 기상 예측, 그동안 많이 발전하여 왔다.

 

그렇다 하더라도 요즘 아침 출근할 때마다 스마트폰으로, TV뉴스로 일기예보 확인하고 우산 챙기고 다니시죠?  피부로 느끼기에 유용하다고 느끼지 않으시는지요?  지역을 격자로 나누어서 각 지역거점마다 기상 관련 정보를 수집하고, 이를 과거 데이터와 날씨 정보를 활용하여 모델을 만들어서 점점 더 날씨 예측을 정교화해나가고 있습니다.  요즘은 '국지성 기상정보'를 수집/예측해서 돈 주고 파는 사업자까지 나왔습니다. '국지성(기존 보다 더욱 작은 cell로 나누어서) 기상예보'가 가능하고 또 돈이 되니깐 하는 사업이겠지요.

 

 

(3) 기상 예측, 앞으로 더 발전할 여지가 있다.

 

앞으로 날씨 정보를 수집하는 cell을 더욱 작게 하고, 또 3차원 공간으로 축을 하나 더 세워서 cubic 개념으로 정보를 수집하고 예측 모델링을 한다면 (가령, 가정을 해보자면 말입니다. ^^;), 즉, 데이터를 더 촘촘히 수집해서 장기간 축적하고 모델링을 한다면 기상 예측의 정확도도 더욱 높아지겠지요.

 

 

(4) 빅데이터 기술이 큰 역할을 할 것이다.

 

다만, (3)번 처럼 하게 되면 문제가 되는 것이, 데이터 저장을 위한 공간도 기하급수적으로 늘어나고(물론, 저장 비용이 매우 싸지고 있으므로 이건 좀 작은 문제라고 치고...), 더불어서 연산을 위한 IT 비용과 시간도 기하급수적으로 늘어난다는 것이 문제가 되겠습니다.

 

하지만, 요즘 빅데이터의 분산병렬처리 기술을 활용하면 비용효율적으로, 또 매우 빨른 시간 안에 이러한 연산을 처리할 수 있는 환경이 열렸습니다. 예전에는 불가능했던게 이제는 가능하게 된 것이지요.  기상청에서도 아마도 이미 슈퍼컴퓨터를 쓰고 있을 텐데요, 앞으로 더욱 싼 비용으로 더욱 파워풀한 슈퍼컴퓨터를 쓸 수 있게 될겁니다.

 

 

(5) 확률로 제시했더라면 좋았을 것을... 단기예측은 정확하지만 장기로 갈수록 불확실...

 

한국 기상청에서 이번에 미.일.중 기상청 대비 찬홈 태풍 이동경로 예측 정확도가 꼴찌이다 보니 여론의 뭇매를 맞는 것이겠지요. 한국 기상청에서 태풍 찬홈의 이동 경로를 몇 개의 경로를 제시하고 각 예상 경로별로 확률로 제시를 했더라면 더 좋았을 텐데 싶습니다. (1)번 로렌츠 기상모델 곡선에서 얘기했지만, 단기 예측 대비 장기 예측으로 갈 수록 불확실성이 증폭(!)되다 보니 하나님이 아닌 이상은 정확하게 예측하는게 매우 매우 매우 힘들다는 것을 인정하는게 맞다고 보며, 결국 확률로 제시할 수밖에 없고, 시간이 지나면서 계속 새로 들어온 정보를 가지고 예측을 update해주는 수밖에 없다고 생각합니다.

 

그래야, 최악의 시나리오의 가능성에 대해서도 사람들이 생각해볼 여지를 줄 수 있고, 또 대비할 수 있는 생각을 해볼 여지도 줄 수 있는거 아닐까요?  기상청에서 한국 말고 중국쪽으로 멀리 돌아서 태풍이 지나간다고 단정적으로(? 다수 시청자가 이리 받아들이지 않을까요?) 말하는 거랑, 미국이 제시한 코스로도 올 확률이 xx%이다 라고 같이 제시해 주는 거랑은 아마 시청자들이 받아들이는 감이 다를거라고 생각합니다.

 

 

(6) 한.미.일.중 비교를 하려면, 샘플 사이즈를 키워서 비교해달라.

 

마지막으로, 기자분께 한마디 하자면, 한국 기상청이 태풍 찬홈 이동경로 예측에서 미.일.중 대비 꼴찌였다고 했는데요, 한국 기상청의 기상예보 실력을 미.일.중과 비교를 해서 소위 '가설 검증(hypothesis test)'을 해보려면 이번 태풍 찬홈 예보 case 하나만 가지고 한국 기상청을 까기에는 한국 기상청이 좀 억울해 할 것 같습니다. 통계학에서는 보통 샘플 사이즈가 30개 넘으면 중심극한의 정리에 의해 t분포->정규분포로 근사하고, 신뢰수준 xx%, 유의수준 xx% 에서 통계적으로 가설이 유의미한지 아닌지를 검증하지요.

 

기자님께서 최근에 국내에 영향을 끼쳤던 태풍 30개에 대해서 한.미.일.중 기상청 별로 이동 경로를 어떻게 예보를 했었는지, 한.미.일.중 기상청 예보별로 정확도 등수를 매겼을 때 한국 기상청이 다른 나라 기상청보다 우수하다고 할 수 있는지, 평균 수준인지, 아니면 띨띨하다고 할 수 있는지에 대해서 검증을 해보았더라면 한국 기상청이 덜 억울했을 것 같습니다.

 

태풍 찬홈 뒤에 또 다른 태풍이 오고 있다고 하던데요, 한국 기상청이 다음번에는 태풍 경로 예보 잘 맞추시길, 그리고 아무쪼록 농사짖는 분들께 피해가 덜 갔으면 하는 바램으로 이번 포스팅 마칩니다.

 

728x90
반응형
Posted by Rfriend
,

오픈소스 R을 무료로 사용하다 보니 세상이 참 많이 바뀌었구나 실감하게 됩니다. 데이터 처리/분석과 관련된 정말 파워풀한 툴인데 이게 무료라니 믿기지가 않거든요.

 

그러면서 SAS나 SPSS 등의 상용 툴 업체들은 어찌될가 걱정이 되고 궁금하기도 합니다. 국내 직장 내에 SAS나 SPSS 사용자가 주류를 차지하고 있기 때문에, 또 이들이 새로운 언어 R을 배우려고 하기 보다는 기존에 이미 익숙한 SAS나 SPSS를 그대로 사용하려고 하는 관성이 작용할 것이기 때문에, 당분간은 SAS나 SPSS가 시장점유율을 유지할 것으로 보이기는 합니다. 하지만 이게 5년, 10년간 계속될지는 의문입니다. 요즘 빅데이터 바람과 함께 R 바람도 거세거든요. 해외에서는 이미 R 사용자가 굉장히 많은 듯 하고, 국내에서도 주변에 R 사용자들이 보이고 있으니 서서히, 가랑비에 옷 젖듯 국내의 직장 내, 학계 내에서도 변화의 바람이 일지 않을 까 싶습니다. 이미 SAS나 SPSS 가 R과의 인터페이스를 자사 솔루션에 탑재했다는 것이 그 증거라고 볼 수도 있을것 같습니다.

 

MOOC (Mass Open Online Course)라고 해서, 온라인을 통해서 전세계의 사용자가 모여서 무료로 강의를 듣을 수 있는 공개 교육을 아는지요? 강사가 보면 스탠포드, MIT, 존스홉킨스 등 특출납니다. 그런데 이게 무료입니다. (본인 인증 자격증을 따려면 일부 유료 강좌도 존재). 

 

coursera, edx, udacity, Khan Academy, canvas 등이 있으니 한번 검색해서 들어가보시기 바랍니다. 강의 주제가 정말 다양하며, 최신의 학술적성과를 자랑하는 주제가 즐비합니다.

 

[ 화면 출처: www.coursera.org 홈페이지 화면 캡쳐 ]

 

MOOC를 보면서 앞으로는 '굳이 대학교 가야하나?'라는 생각을 하는 날이 오지 않을까 싶기도 합니다. MOOC로 못하는 인적네트워크 쌓기라든지 학교의 졸업장 등의 니즈로 인해 대학교가 아예 없어지지는 않겠지만... 예전과는 위상이 많이 달라질거 같다는 예상은 듭니다.  대학교 이사장들, 총장들, 대학교수들은 MOOC 를 보면서 어떤 생각을 하고 있을지 궁금합니다. 

 

아직은 한글로 된 강좌는 없고 대부분이 영어, 일부 중국어 강좌가 있습니다. 영어라는 언어가 한국인 입장에서는 진입장벽이 될 수도 있겠음니다만, 한글 자막 작업이 꾸준히 진행되고 있어서 이 또한 해결의 기미가 보입니다. 지식의 수명이 점점 짧아지고, 이제는 '평생교육'의 시대인데 MOOC는 이제 오픈소스 프로그램과 함께 세상의 변화를 알리는 선봉장 중의 하나라고 생각합니다.

 

R 툴을 노트북에 무료로 깔아서 한국의 안방에서도 존스 홉킨스 교수의 R 교육을 coursera에서 들을 수 있는 시대, 정말 꿈만 같습니다. R 오픈소스 무료 통계툴(수단), MOOC 무료 온라인 강의(지식)가 세상을 좀더 평등하게 만들어주는데 기여를 하지 않을까 기대를 해봅니다.  툴/수단과 지식을 획득하는데 필요한 비용을 획기적으로 낮추어서 '지식노동자'가 이전보다는 쉽게 나올 수 있는 환경이 갖추어졌기 때문입니다. 

 

 

728x90
반응형
Posted by Rfriend
,