패캠 데이터 분석 14기/Tableau

[패캠] Tableau: 태블로 필수 기능

Sheryl Yun 2024. 7. 16. 20:32

데이터 준비

 

A. 유니온

여러 개의 데이터 테이블을 '세로로'('위아래로') 붙이는 결합 작업 

 

동작 방법

1) 수동

데이터 연결창에서 특정 데이터를 하나 올리고

그 아래에 추가할 데이터를 드래그

주황색으로 '유니온'이라고 떴을 때 드롭

 

 

2) '유니온 변환' 사용

데이터 하나 올리고

우클릭 - '유니온 변환' - '와일드카드' 탭에서 '20**' 식으로 적어주면

'20~'으로 시작하는 모든 파일(예: 2017, 2018, 2019, 2020)을

태블로가 자동으로 불러옴

 

 

* 사전에 필요한 설정

필요한 데이터들을 규칙성 있게 이름 지정하고, 같은 폴더에 넣어두기

 

 

 

추가 내용

'유니온 변환'에서

'와일드카드' 탭 선택하기 전에 '특정(수동)'이라는 탭이 있음

 

 

같은 내용의 컬럼 값인데

담당자 변경 등으로

파일마다 컬럼명이 다른 경우 확인 시 사용

 

 

동작 방법:

'특정(수동)' 탭에 결합할 엑셀 파일들을 넣고 '확인'을 클릭

 

 

결과:

컬럼명이 모두 같으면 태블로가 자동으로 전부 유니온, 

컬럼명이 불일치하면 불일치하는 컬럼의 값이 null로 표시됨

 

 

 

해결:

불일치하는 컬럼들(예: Order Date, Order Year, 연도)을

데이터 미리보기 상에서

Ctrl을 활용해서 모두 클릭한 뒤,

그 중 하나의 컬럼에서 우클릭 - '불일치 필드 병합' 선택

 

 

결과:

세 이름이 모두 병합되어 하나의 컬럼명이 되고 (예: ' Order Date Order Year 연도')

같은 개념의 데이터들도 모두 하나로 통합됨

 

 

* 이름이 다 이어붙여져서 이상해진 컬럼명은

우클릭 - '이름 바꾸기'로 변경

 

 

추가 팁: 컬럼 숨기기
데이터 미리보기 창에서
분석이나 시각화에 쓰지 않을 컬럼들은
우클릭 - '숨기기' 가능

 

 


 

B. 결합 

  • 데이터를 '옆으로' 붙이는 작업 ('위아래로' 붙이는 것은 유니온)
  • 조인, 관계, 블렌딩 3가지

 

a. 조인: 물리적 결합

2개 이상의 데이터를 불러오고 나서

('연결'의 '추가'로 다른 데이터 추가)

 

 

데이터 준비창에서

한 데이터의 시트를 오른쪽에 올리고 더블클릭하면 창이 뜸

해당 창에서 다른 데이터의 시트를 옆에 드래그하면

빨간색 느낌표가 뜨면서 조인 창이 뜸

 

 

서로 컬럼명은 다르지만 같이 조인해줄(= 개념이 같은) 컬럼들을

'조인절'로 각각 직접 선택

('새 조인절 추가'를 클릭하여 여러 개 추가 가능)

 

 

** 컬럼명이 같을 때는 태블로가 알아서 조인 진행

 

 

 


 

b. 관계: 느슨한 결합

 

조인의 문제점:

두 테이블을 '물리적으로 완전히 딱 붙이는' 과정에서

데이터 값의 중복 발생 가능

 

 

예: sales와 sales target을 비교하는데

조인 과정에서 sales target 중 5억 5천 데이터가 여러 개 생김

이 값이 모두 누적되어 그래프를 그리면

sales target이 원래의 5억 5천이 아닌 27억 얼마로 떠서 

실제 sales와 매우 큰 차이가 나 버리는 결과 초래

 

 

(그래프 그리는 법: sales와 product category로 막대 그래프 만들고 나서

sales 축에 sales target을 올리고 이중축 선택)

 

 

 

해결: 조인이 아닌 '관계'로 두 데이터 결합

 

 

방법:

결합할 데이터를 기존에 올린 데이터 옆으로 드래그하면

선이 생김 (태블로에서 '누들'이라고 부름)

 

 

이렇게 데이터를 결합하면

데이터가 '완전히' 연결되지 않고 약간 느슨하게 결합되어

같은 컬럼명으로 연결이 되었으면서도 각각의 독립성을 유지

 

 

=> 조인처럼 중복되는 데이터가 발생하지 않고

그래프가 올바르게 그려짐

 

 

관계는 거의 태블로에만 있는 개념이고 도입된 지 얼마 안 됨

조인으로 결합한 데이터가 시각화가 잘 안 될 때 관계를 사용하면
태블로가 좀 더 지혜롭게 두 테이블을 결합

= 느슨한 형태의 결합, 느슨한 형태의 조인

 

 


 

 

c. 블렌딩: 화면에서의 ad-hoc 결합

조인, 관계보다 더 유연한 결합

 

 

 

조인, 관계와의 차이

 

1. 추가 데이터를 '연결 - 추가'로 불러오지 않고 각각 같은 화면에서 따로 불러옴

 

2. 이후 각각의 데이터로 워크시트 작업을 따로 함

(데이터는 둘 다 하나의 태블로에서 열려 있는 상태)

 

 

 

동작 방법

첫 번째 데이터 시트를 선택

 

** 첫 번째를 어떤 데이터 시트로 선택하는지가 중요

화면을 먼저 만들기 시작한 데이터 셋이 메인 데이터 셋

 

 

이후 같은 컬럼명이 있는 다른 데이터의

데이터 패널 왼쪽에 주황색 선이 생김 

(= 메인이 아니라 secondary 데이터셋이라는 뜻)

 

 

그리고 secondary 데이터셋에서

메인 데이터셋과 동일한 컬럼명(필드) 옆에 체인 모양이 생김

 

 

 

만약 블렌딩을 할 건데 두 데이터 간에 동일한 컬럼명이 없으면

조인의 경우처럼 직접 따로 잡아줘야

 

 

(강의에서는 블렌딩의 '기능'만 보고 넘어가기 위해

동일한 컬럼명이 '있는' 경우로 진행)

 

 


 

3가지 결합을 각각 언제 써야 할까?

태블로의 추천:

무조건 조인을 써야 하는 경우가 아니라면

관계 방식 사용

 

 

블렌딩의 강점은

서로 다른 종류의 데이터 셋을 결합해서 분석할 때

 

 

(예: 하나는 엑셀 파일, 하나는 데이터베이스 파일인데

각 파일을 태블로에서 따로 불러와서 작업을 하다가 

둘을 결합해서 분석해야 할 때)

 

 

즉, 서로 다른 종류의 데이터 원본 소스끼리 결합할 때는

블렌딩을 검토