패캠 데이터 분석 14기/Tableau

[패캠] Tableau: 태블로 핵심 개념

Sheryl Yun 2024. 7. 11. 16:56

측정값

우리의 관심을 받는 대상 그 자체

 

  • 우리 학급 학생들의 를 분석할 거야
  • 우리나라 여행지에 대한 SNS 언급량을 살펴볼 거야
  • 우리 회사 매출액을 검토할 거야

 

차원

덩어리인 측정값을 어떻게 썰어서 볼 것인가

SQL에서 GROUP BY에 해당하는 것

 

  • 우리 학급 학생들의 남자와 여자(성별)를 기준으로 를 분석할 거야.
  • 우리나라 여행지에 대해 17개 광역지자체의 분류에 따라 SNS 언급량을 살펴볼 거야.
  • 우리 회사 매출액월별로 검토할 거야.

 

 

이분법 주의: 차원은 불연속형, 측정값은 연속형? (X)

 

태블로의 필드는

차원과 측정값으로 나누어지고,

 

각 차원과 측정값은 또 다시

불연속형과 연속형으로 나뉘어질 수 있다.

 

즉, 차원 = 불연속형, 측정값 = 연속형 아님!



태블로는 항상 집계(Aggregate)해서 보여준다

 

측정값(예: sales)을 우측 상단 선반에 올리면

항상 덩어리(기본 값: 합계)로 나온다.

 

막대 그래프도 1개만 뜬다.

(sales의 컬럼 값은 여러 임에도 불구하고)

 

 

=> 이는 태블로가 값을 항상 덩어리로 ‘집계’해서 보여줘서 그렇다.

 

 

 

 

집계

여러 데이터를 한 데 모아 연산하는 것을 말한다.

 

 

default 집계 방식이 합계이고,

그 외에 평균, 최소값, 최대값, 중위수 등 다양한 방식이 가능하다.

 

 

 

태블로가 이렇게 측정값을

하나의 ‘덩어리’로 본다는 건

 

덩어리를 썰어서 볼 ‘기준’이 필요하다는 말이 된다.

 

 

이 기준이 바로 차원이다.

 

 

결국 태블로는 데이터를 어떻게 ‘썰어서 볼 것인가’에 대한 답이다.

 

 

Tableau is all about Slicing

 

 


 

 

VLOD (View, Level of Detail)

 

VLOD는 항상 차원에 의해서만 결정된다.

(측정값은 VLOD에 영향을 주지 못함)

 

 

측정값 덩어리를 나누는 것이 차원이고,

이 차원에 의해서

보여지는 디테일의 수준(= VLOD)이 결정된다.

 

 

 

예시: 4단계 무 썰기

 

 


 

태블로의 4가지 계산식

 

종류

  1. ROW_LEVEL 계산
  2. AGGREGATION(집계) 계산
  3. 테이블 계산
  4. LOD 표현식

 

 

계산된 필드 만들기

개념

  • 데이터에서 이미 있는 필드들을 서로 ‘연산’해서 새로운 필드를 만드는 것
  • 만들어진 필드는 데이터 패널에 추가 + 시트에 드래그 가능

 

만드는 법 3가지

  • 데이터 패널 우측 상단 아래 세모 클릭 → ‘계산된 필드 만들기’ (가장 추천)
  • 맨 위 ‘분석’ 메뉴 클릭 → 중간 아래 쯤에 ‘계산된 필드 만들기’
  • 데이터 패널 빈 곳 우클릭 → ‘계산된 필드 만들기’

 

 

ROW_LEVEL vs. AGGREGATION

  • ROW_LEVEL 계산의 문제점
    • 덧셈일 땐 상관 없으나 나눗셈일 때 문제 발생
      • 작성 예시: 계산된 필드 만들기 → 'profit + sales'
  • AGGREGATION 계산
    • 계산이 이루어지는 순서가 ROW_LEVEL과 다름 (엑셀 시트 상에서)
      • 작성 예시: 계산된 필드 만들기 → 'SUM(profit) + SUM(sales)'

 

 

결론

ROW_LEVEL 계산은 데이터 한 행 한 행씩 작업을 수행하여
나눗셈의 경우 올바른 계산이 되지 않음

⇒ 태블로에게 부하를 더 많이 걸리게 하고, 실제 결과 값도 틀린 값이 나옴
(더 작은 수에서 더 큰 수를 나눴는데 결과 값이 1보다 크게 나옴
AGGREGATION 계산은 데이터를 먼저 집계(예: SUM)한 뒤 더하여
나눗셈
의 경우도 올바르게 계산됨

⇒ 태블로의 연산에 부하가 덜 걸리고, 실제로도 올바른 값을 얻을 수 있음

 

 


 

테이블 계산

  • 중요한 점
    • 테이블 계산은 반드시 ‘집계 계산' 후에 일어난다.
  • 만드는 법
    • 집계 계산으로 만든 필드 우클릭 → 퀵 테이블 계산 → 누계, 순위 등 선택
      • 누르면 새로운 필드가 집계 필드 오른쪽에 만들어짐 (드래그해서 놓지 않아도 자동 생성)
      집계된 값을 기반으로 이루어지는 것이 테이블 계산

 

  • 원리
    • 이미 밸류가 다 나와 있어야 ‘누적’을 구할 수 있고,
    • 이미 밸류가 다 나와 있어야 ‘순위’을 구할 수 있으며,
    • 이미 밸류가 다 나와 있어야 ‘구성 비율’을 따질 수 있기 때문에

 


 

LOD 표현식

  • 언제 쓰나?
    • 데이터를 변경하지 않고 특정 항목을 기준으로 집계 값을 보고 싶을 때
    • 예시는 FIXED 문법 사용
  • 문법
    • 예: Product Category 기준으로 Sales 합계를 보고 싶을 때
    • 순서: 계산된 필드 만들기 → { FIXED [Product Category] : SUM([Sales]) } 작성
      • LOD 표현식 문법 중 하나인 FIXED 문법 사용