야구 좋아하시나요? 4월 1일날 프로야구가 개막을 했습니다.
퇴근 길에 야구 & 빅데이터 관련한 신문기사 제목이 눈에 띄길레 봤더니 내용이 '이렇게 분석을 해도 되나?' 싶은게 있어서 몇 자 적어봅니다.
오늘 포스팅의 대상으로 삼는 뉴스는 아래의 연합뉴스 2016.04.04일자 기사 입니다.
빅데이터로 본 '프로야구 5강'…한화·삼성·SK·두산·KIA
다음소프트, SNS 언급량과 경제·실력변수 분석해 예측
|
* 원문 링크: http://www.yonhapnews.co.kr/bulletin/2016/04/03/0200000000AKR20160403056900033.HTML
원문은 위의 링크를 참조하시기 바랍니다.
신문기사 보고 나서 생각해봤던 것들을 적어보겠습니다.
1) 상관관계(correlation) vs. 인과관계(causation)
먼저, 상관관계는 인과관계가 아니다는 것부터 시작해보죠. 다음소프트에서는 분석을 할 때 SNS, 경제, 실력변수를 2014년, 2015년 실제 승률과의 상관관계를 검증해서 선정했다고 했네요.
최재원 다음소프트 이사는 "순위 예측에 사용된 SNS·경제·실력 변수는 2014년과 2015년의 실제 승률과 상관관계를 검증해 선정됐다"고 설명했다.
미국닭고기협회(NCC)는 올해 미국프로풋볼리그(NFL) 플레이오프에서 미국인의 대표 간식인 '버팔로윙'(닭날개)이 많이 팔린 도시의 팀이 좋은 성적을 거뒀다는 자료를 소개했다. 올해 플레이오프 10경기에서 상대 팀보다 닭날개 판매 실적이 더 높은 도시의 7개 NFL팀이 승리를 거뒀다는 것이다.
다음소프트는 이같은 '닭날개 가설'을 한국 프로야구에 적용했다. 각 구단의 홈 지역이나 구장, 팀이름이 '치킨'과 함께 언급된 SNS 데이터를 최근 2년간 승률과 비교했다. 결과적으로 치킨 언급량과 승률의 상관관계는 0.3으로, 사회학적으로 '약한 상관관계'가 있는 것으로 나타났다
"상관관계가 있다"고 할 때 대비 "인과관계가 있다"라고 말할 수 있으려면 "시간의 선 -> 후" 관계가 있고, 원인과 결과의 "방향"이 있어야 합니다.
제가 보기에 치킨 언급량은 시간의 선/후가 뒤바뀌고 원인과 결과가 뒤바뀐 자료 같아 보이는데요. 치킨을 많이 먹어서 경기를 이기는게 아니라, 경기를 이기니깐 치킨을 많이 먹는거 아닌가 하구요. 상관관계 0.3이라면 의미가 있다고 할 수 있나요?
아래의 글에서도 보면 분석 결과 "공공의 적 햄버거, 패스트푸드가 비행청소년을 만든다"는 주장인데요, 제가 보기에는 그 반대의 설명, 즉 "가정형편이 어렵고 부모로부터 제대로된 보살핌을 못받은 비행청소년들이 먹을 수 있는 음식이 패스트푸드 위주일 수밖에 없는거 아닌가" 싶기도 합니다. 상관관계를 인과관계로 쉽사리 예단하기가 그리 간단하고 쉽지 않다는 것입니다.
“한국청소년연구소(이사장 박명윤·보건학 박사)가 2000년 11월 조사한 '비행청소년의 식생활에 관한 연구'를 보면 라면, 햄버거, 피자, 탄산음료 등 인스턴트 음식의 섭취량에서 일반청소년과 비행청소년들 사이에 상당한 차이가 있는 것으로 드러났다.
즉 비행청소년들은 일반 청소년들에 비해 이와 같은 음식물을 2배 가량 많이 섭취하고 있었다. 박명윤 이사장은 “대량의 카페인, 당분, 방부제, 향료, 인공 착색료 등이 들어 있는 음식을 '정크 푸드'라고 하는데 특히 어린이들의 경우 이런 인공물질에 대한
신체 저항력이 불완전하므로 지속적으로 그런 음식을 섭취하면 주의력이 흩어지고, 욕구불만이 쌓여 폭력행동으로 나타날 가능성이 있다”고 지적했다.”
- 주간동아 제345호 '공/공/의/적/햄/버/거' 중에서 -
이런 예도 있습니다. 2012년 미국 콜롬비아 대학의 프란츠 H 메저리(Franz H. Messerli) 박사가 의학분야 최고 수준의 저널인 뉴 잉글랜드 의학 저널(New England Journal of Medicine·NEJM)에 전 세계의 주요 국가의 100만명 당 연간 초콜릿 소비량과 노벨상 수상자 수와의 상관관계 분석에 대한 결과의 논문을 발표하였습니다. 그리고 아래처럼 인상적인 산포도를 보여주었습니다.
(* 출처 논문 보러가기 ☞ http://www.biostat.jhsph.edu/courses/bio621/misc/Chocolate%20consumption%20cognitive%20function%20and%20nobel%20laurates%20(NEJM).pdf )
위 그래프는 Franz H. Messerli, M.D., "Chocolate Consumption, Cognitive Function, and Nobel Laureates", 2012, 논문에 실린 산포도 그래프인데요, 결론을 이렇게 냈습니다.
There was a close, significant linear correlation (r = 0.791, P<0.0001) between chocolate consumption per capita and the number of Nobel laureates per 10 million persons in a total of 23 countries (Fig. 1).
초코렛 소비량과 노벨상 수상자 간의 상관계수가 0.79 로서 매우 강한 상관관계가 나왔다고 결론을 내고 있습니다. 그런데 말입니다, 소득수준이라는 제 3의 교란요인(confounding factor)가 있는건 아닐까요?
초코렛 소비량과 노벨상 수상자 수 간에 높은 상관관계가 있는 것은 맞습니다. 하지만 이게 '초코렛 소비량이 많으면 (다른 말로 하자면 '초코렛 소비량을 늘리면') 노벨상 수상자가 많아진다'는 인과관계로 확대해석 하는 것은 주의를 요합니다.
도시별 '경찰관의 수'와 '도둑놈의 수'는 강한 상관관계를 가집니다. 그렇다고 '도둑놈이 많은 이유(원인)이 경찰관이 많아서' 인가요? 중간에 '인구 수'라는 제 3의 교란요인이 숨어있다고 보는게 맞지 않겠습니까?
2) 실험군 vs. 대조군
보통 분석을 할 때 보면 대조군(control group)이라고 해서 비교의 대상, 분석 정확도의 향상 정도를 판단할 수 있는 기준을 둡니다.
"각 구단의 홈 지역이나 구장, 팀이름이 '치킨'과 함께 언급된 SNS 데이터를 최근 2년간 승률과 비교했다"라고 했는데요, 그럼 '각 구간의 홈 지역이나 구장, 팀이름만 나오고 치킨이라는 말이 안들어 갔을 때'의 승률과의 상관관계(대조군)는 어떠했을지 궁금하네요.
대조군 없는 분석은 과학이라기 보다는... 그냥 우연이었을 가능성을 배제할 수 없습니다.
그리고 분석의 성과(performance) 얘기할 때 보통 '눈감고 찍었을 때 보다 xx배 예측/분류 정확도 증가' 이런식으로 나타내곤 하는데요, 혹시 지나가는 사람 아무나 10명 붙잡고 '올해 어느 팀이 우승할 거 같나요?'라고 물어보고나서 야구팀 올해 성적 순위를 매긴 것하고 비교했을 때 예측 정확도가 우월하지 않고 시원치 않다면, 비슷비슷 하다면 굳이 빅데이터 분석한다고 난리를 피울 값어치가 있나 싶기도 합니다. 2년치 SNS 분석? 음....
(옆으로 좀 세보자면, SNS 분석에서 대상으로 삼는 온라인 상의 데이터는 모집단을 대표하는 샘플이라고 말할 수 없습니다. Daum의 댓글들만 보면 새누리당은 다음주 4.13 선거에서 폭망할 것 같지만 댓글 안다는 노인분들은 새누리당 묻지마 지지거등요. 샘플이 모집단을 대표하지 못하기 때문입니다. 분석결과 해석도 분석가 A가 하면 이렇게, 분석가 B가 하면 저렇게 해석할 여지가 많아서 이건 과학이 아니라 예술에 가깝다고 생각합니다. 재현가능성이 무척 낮기 때문에요.)
3) 과거 데이터로 검증, 미래 예측
"순위 예측에 사용된 SNS·경제·실력 변수는 2014년과 2015년의 실제 승률과 상관관계를 검증해 선정됐다"고 다음소프트에서 말했는데요, 모델을 만들었으면 과거 데이터를 가지고 모델에 적용했더니 적중률이 어떠했다고 말해주면 좋았겠다 싶습니다. 변수 상관관계 검증한거랑 모델의 정확도 검증한거랑은 다르잖아요.
과거 이력 데이터로 검증했을 때 통과했다고 칩시다. 문제는 미래를 얼마나 잘 예측하냐일텐데요.
예측 모델이라는 것이 과거 데이터를 가지고 과거의 패턴, 추세 등이 지속된다는 가정 하에 만들어집니다. 그런데 만약 이 가정사항이 흔들리면 어떻게 될까요?
시사저널 2016.04.04일 기사에 보니 아래와 같은 내용이 있네요. 저는 야구는 안보는지라 사실 올해 KBO리그가 어떻게 돌아가는지 하나도 모릅니다. 다만 아래 기사를 보니 과거 데이터로 모델을 만들었을 때 조마조마하겠다는 느낌 아닌 느낌이 옵니다.
야구의 계절이 돌아왔다. 새로운 봄의 시작을 알리는 2016 KBO리그가 4월1일 개막전을 시작으로 각 팀마다 144경기를 치르게 된다. 올해 KBO리그에서는 스타 플레이어들의 해외 진출과 메이저리거 출신 외국인 선수 영입, FA 선수들의 이적으로 선수 구성이 바뀐 팀이 많다. 지난해 상위권 팀이 하위권으로 추락하고, 하위권이던 팀이 상위권에 입성하는 등 예년보다 순위 변화가 클 것으로 예상된다. 개막 첫날부터 시즌 마지막 날까지 결과를 예측할 수 없는 치열한 순위 다툼이 펼쳐질 것으로 기대를 모으고 있다.
* 출처 : http://www.sisapress.com/news/articleView.html?idxno=76538
4) 데이터, 빅데이터, 승률 예측
뭐, 그렇다고 데이터를 가지고 스포츠 승률 예측하는게 불가능하냐 하면 또 그렇지만도 않습니다. 스포츠에서는 이미 데이터 기반의 의사결정이 널리 쓰이고 있습니다.
브래드피트가 나왔던 영화 '머니볼' 보셨나요? 데이터를 가지고 선수 스카우트하는데 있어 "한정된(constraints) 예산으로 시장에서 저평가된 야구 선수를 스카우트해서 팀 승리 기여도를 최대(maximization)화 하여라"는 최적화 문제를 푸는 내용이 나오는 영화입니다.
('머니볼' 영화 속의) '오클랜드 애슬레틱스'의 단장 빌리 빈(브래트 피트)은 턱없이 부족한 예산으로 팀을 준우승으로 이끈 (실화에 바탕을 둔) 야구 영화입니다. 기존의 전통적인 스카웃터들이 사용한 다섯가지 지표가 "타격 파워", "타격 정확도", "주루 스피드", "송구 능력", "수비 능력"이었습니다. 그런데 (머니볼에 나오는) 예일대를 졸업한 젊고 계산에 능한 경제학자(조나 힐)의 분석 결과에 따르면 "출루율"이 승률 기여도에 매우 중요한 걸로 나왔어요. 남들이 무시하는 "출루율"을 가지고 선수들을 평가해보니 오클랜드 애슬레틱스는 "저평가"된 선수들을 남들과 달리 선별/선발할 수 있었다는 얘기가 나옵니다.
야구계에서는 이미 '세이버 메트릭스'라고 해서 데이터로 야구 의사결정을 지원해주는 분석 방법론이 있습니다.
세이버메트릭스(Sabermetrics)는 빌 제임스가 창시한 SABR(The Society for American Baseball Research)라는 모임에서 만들어진, 야구를 통계학적/수학적으로 분석하는 방법론이다. 세이버메트릭스는 빌 제임스가 창시한 이래로 수많은 변화를 겪어왔으며, 이제는 단순한 개인의 취미 차원을 넘어서 야구 전반에서 쓰이고 있을 만큼 널리 퍼져 있다. 창시되었던 1970년대에는 많은 변화를 가져오지 못하였으나, 1980년대를 넘어 1990년대부터는 본격적으로 야구계에 영향을 미치기 시작하였다.
- 출처 : 위키피디아 -
타자의 노화곡선(aging curve)라든지 승리기여지수(WARP: Wins above replacement player) 등의 다양한 통계 지수가 이미 사용 중에 있습니다. 각 팀의 선수별 전투력 (공격력, 수비력)을 계량화하고 팀간 비교 혹은 시뮬레이션을 해보면 승률을 예측할 수 있을 것 같습니다. 다만, 제가 위에 링크한 연합뉴스 기사의 다음소프트의 예측에 사용한 방법하고는 아주 많이 다를 뿐입니다.
네이트실버가 쓴 '신호와 소음' 책에 보면 '3. 야구 : 야구 경기는 왜 모든 '예측'의 모델이 되는가?'라는 챕터가 있습니다. 야구 경기에 예측이 어떻게 활용되고 있는지 좀더 알고 싶은 분은 이 책 참고하시면 좋겠습니다.
예전에 어느 신문기사에서 보니 독일 축구팀이 SAP의 도움을 받아서 선수들의 옷/몸(?)에 센서를 부착해 실시간으로 선수들의 행동데이터를 수집하여 선수들의 체력, 행동량, 동선 등을 실시간 분석하고 코칭에 활용하고 있다...뭐, 이런 내용이 기억이 나는데요, 차라리 빅데이터로 이런 식의 분석을 한다면 도움이 될거 같기도 합니다.
근데 SNS 데이터(인관관계가 있나????)....음....경제(돈 많이 쓴다고 우승할거면 머니볼 영화가 안나왔겠죠...)....음.... 실력(1년 전, 2년 전 성적표....시사저널 내용보니 올해는 많이 바뀌었다는데...)...음....
5) 도박사, 베이지언(Bayesian), 베이즈 정리(Bayes' theorem)
만약에 저보고 2016년 프로야구 5강을 예측해보라고 하면 저는 도박사들이 어느 팀에 돈을 걸고 있는지, 각 팀별로 승률을 어떻게 예측하고 있고, 그래서 배당율은 어떻게 되는지를 알아보겠습니다.
도박사들은 '이전의 경험에 기반한 지식과 새로 들어온 증거를 기반으로 확률을 추론하고 지속 업데이트'하면서 '돈을 따기 위해, 돈을 잃지 않기 위해' 혈안이 된 잘 트레이닝된 베이지언(Bayesian) 들이거든요. ㅋㅋ
베이즈 정리에 대해서는 언제 시간을 내서 한번 포스팅 하겠습니다.
아래는 다음소프트에서 SNS, 경제, 실력을 가지고 스코어를 내서 예측한 2016년 프로야구 5강 예측 결과가 되겠습니다. 가을에 코리안시리즈 끝나고 나서 한번 결과를 살펴보면 재미있을 것 같습니다.
* 출처 : http://www.yonhapnews.co.kr/bulletin/2016/04/03/0200000000AKR20160403056900033.HTML
한화 팬들은 위의 예측 결과를 보고 가슴이 많이 설레고 뛰었을 것 같습니다. 마리화나 한화~ ^^b
'분석으로 세상보기' 카테고리의 다른 글
갤럭시노트7 폭발 사태를 보며 '5 why?'의 중요성을 다시금 생각해보다 (8) | 2016.10.22 |
---|---|
사람의 행동을 바꾸고 싶은가? 평가와 보상체계를 바꿔라 (2) | 2016.05.30 |
Kpop스타5 Top10 A조 예선에서 1~3등은 누가 할까? (아들과 내기) (2) | 2016.03.06 |
연봉을 통해서 본 숫자와 심리에 대한 단상 (4) | 2016.01.17 |
지혜 (지식 + 경험)과 자신감의 관계 : Dunning-Kruger Effect (0) | 2015.09.19 |