(데이터분석) 로지스틱 회귀 분석

7월 31, 2016

가설:

피처폰에서 스마트폰으로 이용자수가 변화함에 따라

ID이전 실패로 인해 모바일 게임을 탈퇴한 유저가 많다.

* 정답을 포함한 데이터 없이 모델 세우기

정답을 포함하지 않은 데이터에 대해 억지로 모델을 만들어서 제안한다는 건 학술적으로 완전히 용납되지 않습니다. 그러나 비즈니스에서는 매번 정답을 포함한 데이터를 손에 넣을 수 있다고 장담할 수 없습니다.

가설에서처럼 ID이전 실패로 인해 탈퇴한 유저수가 많은 경우를 생각해봅시다.

따라서 탈퇴자 전체에 대한 'ID 이전 실패로 인한 탈퇴'의 비율이 높을 때는 탈퇴 유저와 이전 유저간에 1월의 이용횟수가 크게 다르지 않을 것입니다.

1월의 이용횟수가 크게 다르지 않다는 건 이용횟수를 가지고는 모델을 만들 수 없다는 뜻입니다.

반대로 말하면 'ID 이전 실패로 인한 탈퇴'가 적다면 이용횟수의 차이가 분명히 드러날 것이기 때문에 모델을 만들 수 있다는 뜻이 됩니다.

따라서 모델이 만들어진다면 ID이전 실패로 인한 탈퇴자수가 그리 많지 않으므로 기존 ID이전 기능의 복잡함이 크게 문제되지 않는 다는 해석이 가능해집니다.

*어떤 모델을 사용할 것인가?

이번 사례는 'ID 이전 유저'와 '탈퇴 유저'의 판별 모델을 구축할 필요가 있다.

판별 모델에는 여러가지가 있는데, 이번에는 가지고 있는 데이터에 정답이 포함되어 있지 않기 때문에 SVM(서포트 벡터 머신)이나 뉴럴 네트워크 등과 같이 정확도는 높지만 계산이 오래 걸리는 모델을 굳이 쓸 필요는 없습니다.

그래서 단순한 방법으로 재빨리 결과를 뽑기 좋은 '로지스틱 회귀 분석'을 사용합니다.

로지스틱 회귀분석이란? 예를들어, 목적변수가 '구매하기/구매하지 않기'와 같이 두 가지가 값을 가질 때 사용하는 회귀모델로서, 신속하게 데이터의 경향을 파악하기에 적합합니다.

로지스틱 회귀분석을 설명하기 위해 'ID 이전유저'를 1, '탈퇴유저'를 0이라고 정한 데이터를 생각해봅시다.

무엇보다 선형회귀분석은 0/1과 같은 두 가지 값을 가지는 데이터에는 적절하지 않습니다. 예측값이 0보다 작거나 1보다 커지기도 합니다. 이처럼 0/1과 같은 데이터에 대해서는 그 값 자체가 아니라, 1의 비율로 다루는 것이 적절합니다. 그리하여 앞의 데이터를 가지고 0의 횟수와 1의 횟수를 그래프로 그려 확인해보자.

그래프를 확인해보면, 이용횟수가 적을 떄는 1의 데이터가 거의 보이지 않고, 이용횟수가 많아질수록 1의 데이터가 커지며 최종적으로는 0의 데이터가 없어지는 모습을 볼 수 있습니다.이것을 비율로 표현하고, 이 비율데이터를 로지스틱 곡선이라 불리는 곡선을 끼워 맞추는 것이 바로 로지스틱 회귀 분석입니다.

로지스틱 곡선은 S자 모양의 곡선으로, 어떤 값까지는 거의0이며, 그 값을 넘어서면서부터 급격히 증가해서 1에 가까워지고, 1에 가까워질수록 서서히 증가하는 모습을 그리는 곡선입니다.

그림을 보면 선형회귀분석과 달리 0미만의 값이나 1이상의 값이 등장하지 않는 것을 볼 수 있습니다. 또한 이 곡선에 있어서 'ID이전 유저'의 비율이 절반(0.5)이 되는 이용횟수를 역치로 삼고, 그것보다 크면 'ID 이전유저', 작으면 '탈퇴 유저'로 판별할 수 있습니다.

이 블로그 검색

세상의 모든 Software 지식을 정리