다변량 분석이란?
다변량 데이터 시각화란,
여러 변수(차원)들을 한 화면에 시각화하는 것을 말한다.
위 그래프는 제품대분류(x축)에 따른 이익(y축)을
지역별(예: 강원, 충청)로 나타낸 다변량 분석이다.
데이터 속에 담긴 정보를 제대로 그려내기 위해서는
평평한 2차원(종이, 화면)의 속박을 벗어나야 한다.
우리가 이해하고자 하는 모든 흥미로운 것들은
필연적으로 여러 개의 변수들로 구성되어 있기 때문이다.
- Edward Tufte
하나의 숫자가 모든 걸 말해줄 거라 기대하지 않듯이,
하나의 차트가 모든 걸 보여줄 거라 기대하지 말자.
- 존 튜키
다변량 분석이 필요한 이유
원래 이차원 공간에 놓인 하나의 창 속에 담긴 차트는
하나의 사실, 한가지 측면(단면/Facet)에 대해서만 말해야 한다.
너무 많은 범주(차원/Dimension)를 하나의 창에 표현하면
보는 사람이 인지적 과부하가 올 수 있기 때문이다.
하지만, 데이터는 복잡다단한 현실의 반영이다.
하나의 창 안에 두 개의 차원(X, Y)을 사용하여 표현하기에는
너무 많은 변수가 있으므로
다변량 분석은 복잡한 현실을 추상화하는 과정에서
데이터의 한 단면만을 보여주지 않고
여러 차원을 보여주기 위한 시도라고 할 수 있겠다.
참고 자료
'데이터 분석 > 통계' 카테고리의 다른 글
[통계 공부] 평균, 중앙값, 최빈값의 개념과 예시 (1) | 2024.07.15 |
---|---|
[통계 공부] 히스토그램, 도수분포표, 분산의 유의점 (0) | 2024.07.13 |
[통계 공부] Heartcount 강의: 히스토그램, boxplot, percentile (1) (0) | 2024.06.16 |
[통계 공부] R-Squared란? (0) | 2024.06.12 |
[통계 공부] 통계학이란? (0) | 2024.06.07 |