혼합모델 군집화(mixture model clustering)의 혼합 모델에는 어떠한 분포도 가능하지만 일반적으로 정규분포(Gaussian normal distribution)을 가장 많이 사용하며, 다음번 포스팅에서는 가우시안 혼합 모델(Gaussian misture model, 줄여서 GMM) 군집화를 다루겠습니다. .
혼합모델 군집화(mixture model clustering)에 들어가기에 앞서, 이번 포스팅에서는 정규분포(Gaussian normal distribution)에 대해서 먼저 몸풀기 차원에서 짚어보고 넘아가겠습니다. 준비운동 안하고 혼합모델 군집화에 바로 투입됐다가는 자칫 머리에 쥐가 나거나 OTL 하게 되는 불상사가 예상되기 때문입니다. ^^;
이번 포스팅은 쉬어 가는 코너, 한번에 다 몰라도 좌절하지 않기 코너, 생각날 때 찾아보고 복기하는 코너로 여기면 좋겠습니다.
기계학습, 다변량 통계분석 책을 보다 보면 수식, 표기법 때문에 많이 어려워했던 기억이 있을 겁니다. 가장 기본이 되고 많이 사용하는 개념, 수식, 표기법을 중심으로 소개해보겠습니다.
1) 모집단(Population) vs. 표본집단(Sample)
알고자 하는 '전체 객체, 성분, 관측치를 포함하는 집단'을 모집단이라고 하며, 보통은 시간, 비용 상의 이슈로 인해서 모수(parameter)가 알려지지 않은(unknown) 경우가 많습니다.
모집단의 특성을 알기 위해 시간과 비용을 감당할 수 있는 범위 내에서 모집단으로 부터 모집단을 잘 대표할 수 있도록 표본(sample)을 추출해서 분석을 하게 됩니다.
모집단과 표본집단을 알았으니, 각 집단의 기대값과 공분산, 상관행렬, 상관계수는 어떻게 표기하는지 비교해서 살펴보겠습니다.
2) 모집단(Population)의 기대값과 공분산, 상관행렬, 상관계수
성분들이 확률변수로 이루어진 p x 1 확률벡터 X에 대한 평균 벡터(mean vector), 공분산 행렬(covariance matrix), 상관행렬(correlation matrix), 상관계수(correlation coefficient) 는 아래와 같습니다.
공분산 행렬(covariance matrix)을 'Σ' 로 표기한다는 점 유념하시기 바랍니다. 다변량 정규분포 확률분포를 표기할 때 'Σ'가 나옵니다. (* 주의 : 모두 summation 하라는 뜻이 아님 -.-").
위의 모집단(population)에 대한 표기법을 아래의 표본집단(sample)에 대한 표기법과 비교를 해가면서 유심히 살펴보시고 기억해놓으면 좋겠습니다.
(강의 듣다보면 혼동해서 잘못쓰는 강사나 교재도 가끔 있음 -_-;)
(3) 표본집단의 기대값과 공분산, 상관행렬, 상관계수
모집단으로부터 n개의 확률표본 X1, X2, ..., Xn에 대해 각 n x p 확률벡터 Xi = (Xi1, Xi2, ..., Xip)' , i = 1, 2, ..., n 의 표본 평균 벡터(sample mean vector), 표본 공분산 행렬(sample covariance matrix), 표본 상관행렬(sample correlation matrix), 표본 상관계수(sample correlation coefficient)는 아래와 같습니다.
표본 상관행렬의 우상(rigth upper)과 좌하(left down)의 값은 상호 대칭으로 같습니다. (가령, r12와 r21은 같은 값을 가짐)
정규분포는 변수의 개수(1개, 2개, p개)에 따라서 '일변량 정규분포 (univariate normal distribution)', '이변량 정규분포 (bivariate normal distribution)', 다변량 정규분포 (multivariate normal distribution)'로 구분할 수 있습니다.
일변량/이변량/다변량 정규분포 확률밀도함수(probability density function)의 표기법과 수식, 그리고 그래프를 살펴보도록 하겠습니다.
(4) 일변량 정규분포 (univariate normal distribution) vs. 다변량 정규분포 (multivariate normal distribution)
일변량 정규분포의 확률변수 X에 대한 확률밀도함수(probability density function) 식은 기억하기가 좀 복잡하고 어려운데요, 자꾸 보다보면 어느샌가 익숙해지고, 더 자주 보다보면 자기도 모르게 기억될 날이 올겁니다. (기억을 했다가도... 인간은 위대한 망각의 동물인지라 두어달만 안보면 다시... ㅋㅋ)
위의 표기에서 일변량 정규분포 대비 다변량 정규분포의 확률밀도함수의 어디가 서로 다른지 유심히 살펴보시기 바랍니다. 특히 다변량 정규분포의 확률밀도함수 표기법이 통계를 전공하지 않았거나, 선형대수 기본을 모르면 매우 생소하고 어렵게만 느껴질 것 같습니다. (왜 저런거냐고 묻는 댓글 질문은 정중히 사양해염... -_-*)
(5) 이변량 정규분포 (bivariate normal distribution)
3차원 이상 넘어가면 사람 머리로 인식하기가 곤란하니, 시각화로 살펴보기에 그나마 가능한 2개의 변수를 가지는 2차원의 '이변량 정규분포(bivariate normal distribution)'의 확률밀도함수(probability density function)에 대해서 알아보겠습니다. 위의 다변량 정규분포의 확률밀도함수 식에서 p = 2 를 대입하면 됩니다.
[ 이변량 정규분포 확률밀도함수 - 식 1 ]
위의 이변량 정규분포의 확률밀도함수를 다시 정리해보면 아래와 같습니다.
[ 이변량 정규분포 확률밀도함수 - 식 2 ]
'이변량 정규분포 확률밀도함수 식 2'를 보면 이건 뭐... 외계어가 따로 없습니다. 도대체 이렇게 복잡하면서도 쓰임새가 어마무시 많은 요물단지 정규분포를 정리한 천재들이 누구인지 궁금하시지요?
위키피디아를 찾아보니, 위대한 수학자 가우스(carl Friedrich Gauss)가 정규분포를 발견했고(그래서 영어로 Gaussian Normal Distribution 이라고 함), 라플라스(Marquis de Laplace)가 그 유명하고 중요하며 시험문제로 반드시 나오는 '중심극한의 정리(Central Limit Theorem)'를 증명하였습니다. 피어슨(Karl Pearson)이 20세기 들어서 '정규분포(Normal Distribution)'이라고 명명하는 것을 확산시키는데 일조했다고 나오네요. 가우스, 라플라스, 피어슨... 역시 천재 거물들 맞군요.
(Normal distribution 이외의 분포는 그럼 비정상(Abnormal) 이라는 소리? -_-?)
(* source : https://en.wikipedia.org/wiki/Normal_distribution)
수식으로만 봐서는 저게 뭔가 싶으실텐데요, R의 base 패키지에 내장되어 있는 persp() 함수를 가지고 위의 '이변량 정규분포 - 식 2'를 사용하여 3D plot 으로 그려보겠습니다.
먼저 "mvtnorm" 패키지의 dmvnorm() 함수로 다변량 정규분포 함수를 정의해서 3차원 그래프를 그리는 방법은 아래와 같습니다.
# Multi-variable Normal Distribution install.packages("mvtnorm") library(mvtnorm)
x <- seq(from = -5, to = 5, by = 0.2) y <- x
gaussian_func <- function(x, y) { dmvnorm(cbind(x, y)) }
persp(x, y, outer(x, y, gaussian_func), theta = 30, phi = 10)
|
이번에는 위 포스팅에서 소개한 다변량 정규분포 공식을 이용해서 직접 gaussian_func() 를 정의해보고, 이 함수를 사용해서 persp() 의 3D plot에 manipulate 패키지를 접목해서 동적(interactive plotting)으로 상하(phi), 좌우(theta) 로 돌려가면서 살펴보겠습니다.
아래 첫번째 그래프의 노란색으로 표시해 놓은 단추를 누르면 interactive plot 의 slider 가 나타납니다. theta(좌~우), phi(상~하)를 조절해가면서 3-D 그래프를 돌려서 보시면 '아, 이변량 정규분포 확률밀도함수가 이런거구나. 느낌 오네~' 하실겁니다.
##--------------------------------------- ## (Gaussian) Mixture Model Clustering ##---------------------------------------
# bivariate nomral probability density function mu1 <- 0 # setting the expected value of x1 mu2 <- 0 # setting the expected value of x2
s11 <- 3 # setting the variance of x1 s12 <- 4 # setting the covariance between x1 and x2 s22 <- 3 # setting the variance of x2
rho12 <- s12/(sqrt(s11)*sqrt(s22)) # setting the correlation coefficient between x1 and x2 rho12
x1 <- seq(-5, 5, length = 50) # generating the vector series x1 x2 <- seq(-5, 5, length = 50) # generating the vector series x2
# multivariate normal density function gaussian_func <- function(x1, x2){ term1 <- 1/(2*pi*sqrt(s11*s22*(1-rho12^2))) term2 <- -1/(2*(1-rho12^2)) term3 <- (x1 - mu1)^2/s11 term4 <- (x2 - mu2)^2/s22 term5 <- 2*rho12*((x1 - mu1)*(x2 - mu2))/(sqrt(s11)*sqrt(s22)) term1*exp(term2*(term3 + term4 - term5)) }
# calculating the density values z_score <- outer(x1, x2, gaussian_func) head(z_score)
##------------ # 3-D normal distribution density plot : persp() of {base} package # with interactive plotting with Manipulate package in RStudio
install.packages("manipulate") library(manipulate)
manipulate(persp(x1, x2, z_score, theta = theta_x, # theta gives the azimuthal viewing direction phi = phi_x, # phi gives the colatitude viewing direction main = "Two dimensional Normal Distribution"), theta_x = slider(10, 90, initial = 35), phi_x = slider(10, 90, initial = 10))
# click the button at yellow circle position
[ theta : 35, phi : 10 ]
[ theta : 60, phi : 10 ]
[ theta : 80, phi : 10 ]
[ theta : 90, phi : 10 ]
[ theta : 35, phi : 30 ]
[ theta : 35, phi: 50 ]
[ theta : 35, phi: 70 ]
[ theta : 35, phi: 90 ]
|
마지막 그림이 phi = 90 으로서, 꼭대기 상단에서 비행기 타고 내려다본 그림인데요, 이걸 2-D 의 등고선 그림(contour plot)으로 그려보면 아래와 같습니다.
# 2-D contour plot contour(x1, x2, z_score, xlab = "x1", ylab = "x2", main = "Bivariate(2 dimensional) Normal Distribution : contour plot")
|
참고로, 일변량 정규분포 그래프는 http://rfriend.tistory.com/102 의 이전 포스팅을 참고하세요.
[Reference]
1. 김재희, 'R 다변량 통계분석', 교우사, 2011
2. Wikipedia : https://en.wikipedia.org/wiki/Normal_distribution
이번 포스팅에서 살펴본 '다변량 정규분포'에 대한 기본기를 바탕으로 해서, 다음번 포스팅에서는 '가우시언 혼합 분포 군집화 (Gaussian Mixture Model Clustering)'에 대해서 알아보겠습니다.
이번 포스팅이 도움이 되었다면 아래의 '공감 ~♡'를 꾸욱 눌러주세요.