(R) 크로스 집계
2개 변수의 인과관계를 교차해서 집계하는 분석기법을 크로스 집계라고 한다.
유저속성이 30대여성인 경우와 20대 남성인 경우에 행동패턴이 어떻게 바뀌는지 알고자 할 경우, 그 두가지 속성(성별과 연령대)의 행동결과에 대한 관계가 집계되기 때문에 이를 2중 크로스 집계라고 한다.
두 가지 이상의 유저속성을 이용해서 복합적인 항목과 결과의 인과관계를 도출하는 것을 다중(n중) 크로스 집계라고 한다.
-->dau.user.info테이블에서 log_month와 gender 항목에 대해 크로스 집계를 실시한 결과이다.
2013년 8월과 9월에 전체적인 수치는 떨어졌지만, 남녀 간의 구성비율은 거의 변화가 없으므로 성별과 게임이용율 하락에는 연관관계가 크지 않다.
모든 연령대에서 대체로 비슷한 비율로 이용자수가 하락하였으므로, 특별히 특정 연령대가 하락에 영향을 끼쳤다고 볼 수 없다.
n중 크로스집계를 위해 reshape2라이브러리를 이용한다.
여기서 그중에서는 dcast라는 함수를 이용한다.
dcast(AAA,XX~YY+ZZ,value.var="CCC",length)
위와 같이 입력하면 AAA라는 데이터에서 세로축에는 XX를 놓고 가로축에는 YY와 ZZ의 모든 가능한 조합을 놓아 크로스집계를 실시한다.
'크로스 집계안의 값은 CCC의 숫자를 세어서 넣으라'는 것이 value.var="CCC", length에 해당한다.
*시계열의 트렌드 그래프 그리기
유저속성이 30대여성인 경우와 20대 남성인 경우에 행동패턴이 어떻게 바뀌는지 알고자 할 경우, 그 두가지 속성(성별과 연령대)의 행동결과에 대한 관계가 집계되기 때문에 이를 2중 크로스 집계라고 한다.
두 가지 이상의 유저속성을 이용해서 복합적인 항목과 결과의 인과관계를 도출하는 것을 다중(n중) 크로스 집계라고 한다.
-->dau.user.info테이블에서 log_month와 gender 항목에 대해 크로스 집계를 실시한 결과이다.
2013년 8월과 9월에 전체적인 수치는 떨어졌지만, 남녀 간의 구성비율은 거의 변화가 없으므로 성별과 게임이용율 하락에는 연관관계가 크지 않다.
모든 연령대에서 대체로 비슷한 비율로 이용자수가 하락하였으므로, 특별히 특정 연령대가 하락에 영향을 끼쳤다고 볼 수 없다.
*n중 크로스 집계
n중 크로스집계를 위해 reshape2라이브러리를 이용한다.
여기서 그중에서는 dcast라는 함수를 이용한다.
dcast(AAA,XX~YY+ZZ,value.var="CCC",length)
위와 같이 입력하면 AAA라는 데이터에서 세로축에는 XX를 놓고 가로축에는 YY와 ZZ의 모든 가능한 조합을 놓아 크로스집계를 실시한다.
'크로스 집계안의 값은 CCC의 숫자를 세어서 넣으라'는 것이 value.var="CCC", length에 해당한다.
*시계열의 트렌드 그래프 그리기
댓글
댓글 쓰기