지난 포스팅에서는 시간/순서를 고려한 순차 패턴 분석 (sequence pattern analysis)에 대해서 알아보았습니다.

 

이번 포스팅에서는 연관규칙 분석의 대상이 되는 항목의 분류체계 (Taxonomy)와 가상 항목 (Virtual Item)에 대해서 알아보겠습니다. 

 

이번 포스팅에서 다루려는 주제는 1~2시간 짜리 연관규칙 교육 프로그램에서는 시간이 부족한 관계로 잘 안다루는 내용입니다만, 매우 중요한 부분입니다.  실전 프로젝트에서 보면 "써먹을 수 있는 규칙"이 나오느냐, 안나오느냐에 상당히 관련이 있는 부분이구요, 사실 순서상으로 보면 지금 쓰는 이 글이 연관규칙 분석을 할 때 현업(業 전문가, domain expert)과 함께 프로젝트 초반에 분석 시나리오 잡을 때 의사결정을 해야만 하는 매우 중요한 부분입니다.

 

 

 

1) 항목 분류 체계 (Taxonomy)

 

상품 구매 연관규칙을 분석한다고 가정했을 때, 상품 분류 체계를 예로 생각하시면 됩니다.  백화점, 마트, 홈쇼핑, 인터넷쇼핑몰, 슈퍼마켓 등... 유통업체는 아래와 같은 형태의 대/중/소/세/세부속성별로 계층(Hierarchy)을 가진 상품 분류 체계를 가지고 있습니다.

 


 * Reference: "Data Mining Techniques", by Michael J.A.Berry, Gordon S.Linoff 



소분류 -> 중분류 -> 대분류 방향으로 올라갈 수록 일반화(generalization), 추상화 되며, 소분류 -> 세분류 -> 세부속성 방향으로 내려갈 수록 구체적(detail)인 항목이 됩니다.

 

이게 연관규칙 도출에 왜 중요한지에 대해서 예를 들어서 설명해보겠습니다.

 

너무 상위 항목 (대분류, 혹은 중분류)을 가지고 연관규칙을 분석하면 "실행 가능한 수준의 규칙"이 아닌 경우가 많습니다.  한마디로 업무에 적용하기가 애매한 경우입니다.  가령, 대분류를 가지고 분석을 해서 "{냉동식품} → {아동의류} 라는 연관규칙이 나왔다고 해봅시다.  '냉동식품'이나 '아동의류' 담당 매니저, 마케터에게 이 규칙을 가져가면 아마 "so what?", "나보고 뭘 어쩌라고요?" 소리 듣기 십상입니다.

 

반면에, 너무 하위 항목 (가령, 세부속성의 '브랜드')을 가지고 연관규칙 분석을 수행하면 당장 실행가능한 규칙이 나올 여지는 있습니다만, 단점으로는 일단 연산 시간이 무척 많이 걸립니다.  그리고 빈도수가 너무 작은 다수의 '브랜드'들의 경우 비빈방항목 pruning 원칙에 의해 규칙에 안나타날 수 있습니다. 

 

결국 너무 상위 level이어도 안되고, 너무 하위 level이어도 안좋고 해서, 적당한(?) 수준을 찾아서 분석을 수행해야 합니다. 그리고 여기서 '적당한(?)'은 "분석 목적이 무엇인가?", "어디에 써 먹을려고 연관규칙 분석을 하는 것인가?", "최종 사용자는 누구이며 그 사용자가 만족하는 수준은 어느 level인가?" 등의 질문에 답하는 과정에서 결정이 된다고 보면 됩니다.  이런 질문에 답하려면 현업(domain expert)이 꼭 필요하겠지요?  業은 잘 모르는 분석전문가가 현업 참여없이 단독으로 taxonomy 분석 level 정해놓고 '연관규칙이 이렇게 나왔네요'하고 가져가면 그 규칙을 사용할 현업한테서 한 소리 (가령, '이거 왜 하셨어요?', '이걸로는 암것도 못하겠는걸요...') 듣고 분석을 처음부터 다시 수행해야할 수도 있습니다. 

 

사실, 더 큰 문제는 상품분류체계(taxonomy) 관리가 잘 안되는 경우가 매우 많다는 점입니다.  MD 담당자가 새로 바뀌면 기존의 상품분류체계와 align을 안시키고 이상한 상품코드를 새로 추가하는 경우도 있구요, 단종된 상품코드는 그때 그때 정리를 해줘야 하는데요, 그대로 두고 있는 경우도 있습니다. 이거 교통정리하는게 참 고역인데요, 자칫 연관규칙 분석하는 업무량보다 상품분류체계 정비하는게 더 시간을 많이 잡아먹는, 배보다 배꼽이 더 큰 웃긴 일이 생길 수도 있습니다. -_-;

 

또 하나 문제는요, 상품분류체계가 마케텅의 입맛에 딱 안맞을 수 있다는 점입니다. 보통은 MD가 상품분류체계를 기획하고, 정보를 입력하고, 관리를 합니다.  그러다 보니 '마케팅' 부서의 활용 관점은 안들어가 있다고 보면 됩니다.  바로 여기서 가상항목(virtual item)에 대한 필요성이 생깁니다.

 

 

 

2) 가상 항목 (Virtual Item)

 

가상 항목 (virtual item) 이란 원래의 항목분류체계(taxonomy)에는 없는 가상의 항목을 새로 만들어 사용하는 것입니다. 가령, 아래의 예처럼 원래의 항목분류체계에는 'Handbag'과 'Watch'의 카테고리에 각 각 속해있던 상품(item)들을 '브랜드'라는 새로운 관점을 가지고 묶어서 'GUCCI handbag'과 'GUCCI watch'를 'GUCCI Products'라는 새로운 가상의(기존에는 없었던) 항목(virtual item)으로 만들고, 'DKNY handbag'과 'DKNY watch'를 'DKNY products'라는 새로운 가상의 항목(virtual item)으로 만들어서 연관규칙 분석에 사용하게 됩니다.

 

 

 

위의 예에서는 상품 카테고리 간 동일한 브랜드별로 virtual item을 만들어보았습니다. 

 

이 외에도 분석해서 사용하려는 목적에 따라서 다양한 아이디어를 생각해볼 수 있습니다.

가령, 식품을 수입품과 국산품으로 구분하는 virtual item 이라든지, 유아식품 중 아토피 관련 식품이나 유기농 식품 여부 virtual item도 생각해볼 수 있습니다.  상품구매 요일(평일, 공휴일)이나 시즌, 아니면 event 성 (생일, 기념일, 00day 관련 등) 상품에 대한 virtual item도 생각해 볼 수 있겠습니다. 

 

비빈발항목을 묶어서 빈발항목으로 만든 다음에 이에 적당한 naming을 해서 가상항목으로 만들어서 분석을 하는 것도 재치있는 분석요령입니다.  

 

 

 

3) Segmented multiple sets mining

 

마지막으로, 실무 분석할 때 요긴하게 써먹곤 했던 것 하나 더 말씀드리자면, 연관규칙 도출에 영향이 클 것으로 예상되는 특정 기준, 관점이 있다면 이를 가지고 사전에 데이터셋을 나누어서 연관규칙 분석을 하라는 것입니다.

 

가령, 아래의 예처럼 상품 연관구매 규칙을 분석한다고 했을 때, 성(gender)과 연령(age)에 따라서 상품 구매 패턴이 큰 차이를 보일 것이라고 예상을 한다면 성별과 연령대별로 segments를 나누어서 각 segment별로 나누어서 연관구매규칙을 분석하면 된다는 뜻입니다.

 

 

 

물론 지지난번에 포스팅했던 '범주형 및 연속형 데이터의 연관규칙 분석' 방법을 활용해서 연령대, 성별을 이항변수화(binarization)하여 연관규칙 분석을 수행해도 되긴 합니다.  편한 방법을 사용하시면 되겠습니다.

 

다음 포스팅에서는 군집분석(Clustering)에 대해서 알아보도록 하겠습니다.

 

이번 포스팅이 도움이 되었다면 아래의 '공감 ~♡'를 꾸욱 눌러주세요. ^^

 

Posted by R Friend R_Friend

댓글을 달아 주세요

  1. 최유정 2016.06.08 15:01  댓글주소  수정/삭제  댓글쓰기

    기계학습 책 몇권보는것 보다 포스팅된 글 한번보는게 훨씬 더 많은 도움이됩니다! 특히 실무에서의 팁?은 책에선 알려주지 않는 내용이라 너무 좋아요ㅠㅠ

  2. 2016.07.15 10:06  댓글주소  수정/삭제  댓글쓰기

    비밀댓글입니다

    • R Friend R_Friend 2016.07.16 00:12 신고  댓글주소  수정/삭제

      제가 여행업에 대해 잘 모르다 보니 일반 소비자로서 여행에 대한 상식에 입각해서 답글을 달아봅니다. 아래 답글 보시고서 쓸만한 것이 있으면 사용해보시구요, 혹시 말도 안되는 소리이거나 아니면 업계종사자라면 상식적으로 알고 있고 이미 적용하고 있는 것들이라면 제가 업계종사자가 아니라 잘 몰라서 그런거라고 이해해주시기 바랍니다. ^^'

      (1) 말씀하신 분석하신 방법대로 하니 뻔한 규칙만 나온다고 하셨는데요, 혹시 여행 상품이라는 것이 1년에 한두번밖에 구매 안하고, 특히 고관여 목적성(!) 온라인 방문이 많다보니 필요한 정보만 확인하고 웹을 이탈하는 고객이 많기 때문이 아닌가 싶습니다(가설). 만약 이렇다면 연관규칙이 잘 안나올거 같습니다.

      대신에 장기(3-5년) 여행상품 구매 데이터를 활용해서 순차분석(sequence analysis)를 해보시면 어떨까하고 권해봅니다. 상품 texonomy & virtual item 아이디어 내서 다양하게 시도해보시면 좋겠습니다.

      고객을 Life-stage와 여행상품 구매빈도, 여행상품 특성에 따라서 세분화한 후에 => 세분집단별로 여행 재구매 주기(3~5년 기간 동안의 data로 분석), 여행 순차 패턴 분석해보시면 유의미한 패턴이 나올 수도 있을거 같습니다.


      (2) 고객 identification이 가능하고 contact 정보가 있는 온라인 로그인 고객의 클릭스트림, 모바일앱 사용자의 클릭스트림 데이터를 가지고
      => 클릭 상품명, 페이지 노출 지속 시간(오래 봤을수록 관여도 높다고 가정), 클릭 일시 정보를 저장/가공해서
      => event rule 설정 : if 관심상품등록 or 클릭&지속노출시간xx분 이상 & 클릭후 xx일 이내 미구매 then SMS 메시징 & 여행상품정보 링크 제공 & 프로모션 오퍼 제공

      의 event-based automated marketing을 시스템에 걸어놓고 성과를 살펴보는 것도 유의미할 것 같습니다. 단, 고객이 '내가 이거 관심있는줄 어떻게 알고 연락을 했지?'하고 너무 티나게 하면 깜놀할 수 있으므로 고객의 부정적 반응이 없는지 초반에는 좀 살펴봐야 할거 같습니다.


      (3) 온라인, 모바일은 클릭한 발자취가 고스란히 남으므로, 온라인, 모바일 UX 개선을 위한 분석 거리를 찾아보는 것도 재미있을거 같아요.

      예 : 페이지 메뉴간 클릭스트림 분석을 통해 메뉴 구성/분류가 잘못된것 찾기(클릭을 한번이라도 덜하고 쉽게 찾을수 있게)
      예 : 배치, 색상, 디자인...등 별 AB test


      (4) 분석을 위한 분석, 분석에만 그치고 매출에 영향을 끼치는 ,action 이 없는 분석 지양한다는 취지에서요, outbound campaign test marketing 을 다양하게 시도해보는 것도 의미가 있을것 같습니다. 분석하면 보통 타케팅 정교화에만 목을 매는 경향이 있는데요, 타케팅 말고도 outbound campaign에 영향을 미치는 것으로 오퍼, 채널, 메시지, 타이밍 등 다양합니다. 가설 기반 실험설계, 테스트, 성과평가(!!! 데이터 기반 의사결정/피드백!!!), 개선...등의 다양한 시도를 다수 해보는게 중요하고 꼭 필요합니다.


      (5) 여행 많이 가는 충성고객 선별, 고객 보상 프로그램, 고객 참여 프로그램 설계 :

      예) 로열티프로그램,
      모바일 LBS, 동영상, 사진 활용 여행후기, 내가 추천하는 여행지...
      지인 추천 보상 program...


      6) 현장CRM : 여행상품 판매 매장, 대리점, agent 가 세일즈하는 것을 지원할 수 있는 툴/시스템, 고객정보 제공(통합 profile, 파생변수)에 대해서 고민해보는것도 필요해 보입니다. 1차 고객 end user 말고 대리점, agent도 2차 고객이니깐요.


      7) online buzz crawling 해서 => text mining 해보는 것도 재미있을 것 같습니다.

      예: 여행사별 연관어 년도별 시계열 변화 비교, 감성분석,
      여행관련 핫한 키워드(예: 속초 포캣몬고 사냥 여행)


      8) 고객 이벤트 파악 가능한 제휴사(예: 청첩장 회사 결혼할 고객 파악 가능), 고객 니즈 파악가능한 회사(예: 온라인서점에서 '스페인 여행' 책 구매고객 => 스페인 여행상품 추천)와 제휴마케팅

      9) 여행 앱을 만들어서 고객정보도 획득하고, contact point/channel 도 확보하고, 고객이 여행 contents 를 생산해서 공유할 수 있도록 플랫폼을 제공하고, 여행상품 상담/판매도 하는 것도 생각해볼 수 있겠네요. (이미 하고 있을것도 같습니다만....)

      아래에 구글링해서 찾은 "The Best Travel Apps of 2015" 링클 걸어놓습니다. 잘된 여행 앱을 벤치마킹하면 좋은 추가 아이디어가 있을수도 있으니깐요.
      => http://www.pcmag.com/article2/0,2817,2422244,00.asp

  3. ass 2019.05.01 15:42  댓글주소  수정/삭제  댓글쓰기

    1) 항목 분류 체계 (Taxonomy)의 그림의 출처가 잘못된 것 같습니다. "경영을 위한 데이터마이닝 마케팅과 CRM 활용을 중심으로 2판", 313페이지, <그림 9-10>과 동일하다고 볼 수 있을 것 같습니다. 2) 가상 항목에서 사용하신 그림도 대학 강좌의 강의자료와 유사하나 별도로 언급하지는 않겠습니다.