지난 포스팅에서는 시간/순서를 고려한 순차 패턴 분석 (sequence pattern analysis)에 대해서 알아보았습니다.

 

이번 포스팅에서는 연관규칙 분석의 대상이 되는 항목의 분류체계 (Taxonomy)와 가상 항목 (Virtual Item)에 대해서 알아보겠습니다. 

 

이번 포스팅에서 다루려는 주제는 1~2시간 짜리 연관규칙 교육 프로그램에서는 시간이 부족한 관계로 잘 안다루는 내용입니다만, 매우 중요한 부분입니다.  실전 프로젝트에서 보면 "써먹을 수 있는 규칙"이 나오느냐, 안나오느냐에 상당히 관련이 있는 부분이구요, 사실 순서상으로 보면 지금 쓰는 이 글이 연관규칙 분석을 할 때 현업(業 전문가, domain expert)과 함께 프로젝트 초반에 분석 시나리오 잡을 때 의사결정을 해야만 하는 매우 중요한 부분입니다.

 

 

 

1) 항목 분류 체계 (Taxonomy)

 

상품 구매 연관규칙을 분석한다고 가정했을 때, 상품 분류 체계를 예로 생각하시면 됩니다.  백화점, 마트, 홈쇼핑, 인터넷쇼핑몰, 슈퍼마켓 등... 유통업체는 아래와 같은 형태의 대/중/소/세/세부속성별로 계층(Hierarchy)을 가진 상품 분류 체계를 가지고 있습니다.

 


 * Reference: "Data Mining Techniques", by Michael J.A.Berry, Gordon S.Linoff 



소분류 -> 중분류 -> 대분류 방향으로 올라갈 수록 일반화(generalization), 추상화 되며, 소분류 -> 세분류 -> 세부속성 방향으로 내려갈 수록 구체적(detail)인 항목이 됩니다.

 

이게 연관규칙 도출에 왜 중요한지에 대해서 예를 들어서 설명해보겠습니다.

 

너무 상위 항목 (대분류, 혹은 중분류)을 가지고 연관규칙을 분석하면 "실행 가능한 수준의 규칙"이 아닌 경우가 많습니다.  한마디로 업무에 적용하기가 애매한 경우입니다.  가령, 대분류를 가지고 분석을 해서 "{냉동식품} → {아동의류} 라는 연관규칙이 나왔다고 해봅시다.  '냉동식품'이나 '아동의류' 담당 매니저, 마케터에게 이 규칙을 가져가면 아마 "so what?", "나보고 뭘 어쩌라고요?" 소리 듣기 십상입니다.

 

반면에, 너무 하위 항목 (가령, 세부속성의 '브랜드')을 가지고 연관규칙 분석을 수행하면 당장 실행가능한 규칙이 나올 여지는 있습니다만, 단점으로는 일단 연산 시간이 무척 많이 걸립니다.  그리고 빈도수가 너무 작은 다수의 '브랜드'들의 경우 비빈방항목 pruning 원칙에 의해 규칙에 안나타날 수 있습니다. 

 

결국 너무 상위 level이어도 안되고, 너무 하위 level이어도 안좋고 해서, 적당한(?) 수준을 찾아서 분석을 수행해야 합니다. 그리고 여기서 '적당한(?)'은 "분석 목적이 무엇인가?", "어디에 써 먹을려고 연관규칙 분석을 하는 것인가?", "최종 사용자는 누구이며 그 사용자가 만족하는 수준은 어느 level인가?" 등의 질문에 답하는 과정에서 결정이 된다고 보면 됩니다.  이런 질문에 답하려면 현업(domain expert)이 꼭 필요하겠지요?  業은 잘 모르는 분석전문가가 현업 참여없이 단독으로 taxonomy 분석 level 정해놓고 '연관규칙이 이렇게 나왔네요'하고 가져가면 그 규칙을 사용할 현업한테서 한 소리 (가령, '이거 왜 하셨어요?', '이걸로는 암것도 못하겠는걸요...') 듣고 분석을 처음부터 다시 수행해야할 수도 있습니다. 

 

사실, 더 큰 문제는 상품분류체계(taxonomy) 관리가 잘 안되는 경우가 매우 많다는 점입니다.  MD 담당자가 새로 바뀌면 기존의 상품분류체계와 align을 안시키고 이상한 상품코드를 새로 추가하는 경우도 있구요, 단종된 상품코드는 그때 그때 정리를 해줘야 하는데요, 그대로 두고 있는 경우도 있습니다. 이거 교통정리하는게 참 고역인데요, 자칫 연관규칙 분석하는 업무량보다 상품분류체계 정비하는게 더 시간을 많이 잡아먹는, 배보다 배꼽이 더 큰 웃긴 일이 생길 수도 있습니다. -_-;

 

또 하나 문제는요, 상품분류체계가 마케텅의 입맛에 딱 안맞을 수 있다는 점입니다. 보통은 MD가 상품분류체계를 기획하고, 정보를 입력하고, 관리를 합니다.  그러다 보니 '마케팅' 부서의 활용 관점은 안들어가 있다고 보면 됩니다.  바로 여기서 가상항목(virtual item)에 대한 필요성이 생깁니다.

 

 

 

2) 가상 항목 (Virtual Item)

 

가상 항목 (virtual item) 이란 원래의 항목분류체계(taxonomy)에는 없는 가상의 항목을 새로 만들어 사용하는 것입니다. 가령, 아래의 예처럼 원래의 항목분류체계에는 'Handbag'과 'Watch'의 카테고리에 각 각 속해있던 상품(item)들을 '브랜드'라는 새로운 관점을 가지고 묶어서 'GUCCI handbag'과 'GUCCI watch'를 'GUCCI Products'라는 새로운 가상의(기존에는 없었던) 항목(virtual item)으로 만들고, 'DKNY handbag'과 'DKNY watch'를 'DKNY products'라는 새로운 가상의 항목(virtual item)으로 만들어서 연관규칙 분석에 사용하게 됩니다.

 

 

 

위의 예에서는 상품 카테고리 간 동일한 브랜드별로 virtual item을 만들어보았습니다. 

 

이 외에도 분석해서 사용하려는 목적에 따라서 다양한 아이디어를 생각해볼 수 있습니다.

가령, 식품을 수입품과 국산품으로 구분하는 virtual item 이라든지, 유아식품 중 아토피 관련 식품이나 유기농 식품 여부 virtual item도 생각해볼 수 있습니다.  상품구매 요일(평일, 공휴일)이나 시즌, 아니면 event 성 (생일, 기념일, 00day 관련 등) 상품에 대한 virtual item도 생각해 볼 수 있겠습니다. 

 

비빈발항목을 묶어서 빈발항목으로 만든 다음에 이에 적당한 naming을 해서 가상항목으로 만들어서 분석을 하는 것도 재치있는 분석요령입니다.  

 

 

 

3) Segmented multiple sets mining

 

마지막으로, 실무 분석할 때 요긴하게 써먹곤 했던 것 하나 더 말씀드리자면, 연관규칙 도출에 영향이 클 것으로 예상되는 특정 기준, 관점이 있다면 이를 가지고 사전에 데이터셋을 나누어서 연관규칙 분석을 하라는 것입니다.

 

가령, 아래의 예처럼 상품 연관구매 규칙을 분석한다고 했을 때, 성(gender)과 연령(age)에 따라서 상품 구매 패턴이 큰 차이를 보일 것이라고 예상을 한다면 성별과 연령대별로 segments를 나누어서 각 segment별로 나누어서 연관구매규칙을 분석하면 된다는 뜻입니다.

 

 

 

물론 지지난번에 포스팅했던 '범주형 및 연속형 데이터의 연관규칙 분석' 방법을 활용해서 연령대, 성별을 이항변수화(binarization)하여 연관규칙 분석을 수행해도 되긴 합니다.  편한 방법을 사용하시면 되겠습니다.

 

다음 포스팅에서는 군집분석(Clustering)에 대해서 알아보도록 하겠습니다.

 

이번 포스팅이 도움이 되었다면 아래의 '공감 ~♡'를 꾸욱 눌러주세요. ^^

 

728x90
반응형
Posted by Rfriend
,