데이터 분석/통계

[통계 공부] 다변량 분석이란?, 다변량 분석이 필요한 이유

Sheryl Yun 2024. 6. 11. 20:18

다변량 분석이란?

다변량 데이터 시각화란,

여러 변수(차원)들을 한 화면에 시각화하는 것을 말한다.

 

태블로 Superstore 데이터 예시

 

 

 

위 그래프는 제품대분류(x축)에 따른 이익(y축)을

지역별(예: 강원, 충청)로 나타낸 다변량 분석이다.

 

 

데이터 속에 담긴 정보를 제대로 그려내기 위해서는
평평한 2차원(종이, 화면)의 속박을 벗어나야 한다.

우리가 이해하고자 하는 모든 흥미로운 것들은
필연적으로 여러 개의 변수들로 구성되어 있기 때문이다.

- Edward Tufte

 

 

하나의 숫자가 모든 걸 말해줄 거라 기대하지 않듯이,
하나의 차트가 모든 걸 보여줄 거라 기대하지 말자.
- 존 튜키

 

 

 

 

다변량 분석이 필요한 이유

 

원래 이차원 공간에 놓인 하나의 창 속에 담긴 차트는

하나의 사실, 한가지 측면(단면/Facet)에 대해서만 말해야 한다.

 

 

너무 많은 범주(차원/Dimension)를 하나의 창에 표현하면

보는 사람이 인지적 과부하가 올 수 있기 때문이다. 

 

 

하지만, 데이터는 복잡다단한 현실의 반영이다.

 

 

하나의 창 안에 두 개의 차원(X, Y)을 사용하여 표현하기에는 

너무 많은 변수가 있으므로

다변량 분석은 복잡한 현실을 추상화하는 과정에서

데이터의 한 단면만을 보여주지 않고

여러 차원을 보여주기 위한 시도라고 할 수 있겠다.

 

 

 

참고 자료

HC COMMUNITY - 다변량 데이터 시각화 : 여러 변수(차원)들을 한 화면에 시각화하는 방법들