참고 자료
중심 경향(Central Tendency)
주어진 데이터의 대표값을 무엇으로 할 것인지
- 평균(Mean)
- 중앙값(Median)
- 최빈값(Mode)
데이터의 분포 정도(Dispersion)
데이터가 얼마나 퍼져 있는지
- 범위(Range)
- 분산(Variance)
- 표준편차(Standard Deviation)
- Percentile
데이터의 퍼진 모양(Shape of Distribution)
데이터가 어느 쪽으로 치우쳐 있는지
왜도(Skewness)
- 왼쪽으로 꼬리가 길면 음의 왜도, 오른쪽으로 꼬리가 길면 양의 왜도
평균(Average)이 등장한 배경
19세기 초기 통계학
- 대상이 보유한 이상적인 속성이 '평균'이라고 간주 (= 'Idealized Mean')
- 평균을 벗어난 '차이(= 분산)'은 제거해야 할 오류
예: 이상적인 메뚜기와 물방개를 지정하고 (= 평균)
거기에서 벗어나는 변이들은 오류라고 생각
19세기 말 ~ 20세기 초
다윈:
개별 개체들 사이에 존재하는 다양한 차이가 누적되면서
의미 있는 변화가 일어남을 발견
☞ 평균의 개념에서 벗어나 개별 개체의 다양한 차이(분산, 관계)에 주목하기 시작
요약
초기 통계학
- 평균(Average) 중시: 집단을 요약, 이상적인 값 중시
- 예: 인구통계 - 국민의 평균 나이, 남성/여성의 비율 등
후반 통계학
- '이상적인 값'보다 개체들에 존재하는 개별적인 차이점 중시
- 수리통계 등장: 분산, 변수 간의 관계, 추론, 확률, 유의성에 관심
최빈값이 사용된 최초의 사례
전쟁에서 성을 공격할 때
성벽을 타고 오르는 사다리를 성벽의 높이만큼 만들어야 하는 상황
☞ 병사들이 측정해온 성벽의 벽돌 갯수를 기록
이러한 상황에서, 다음 3가지 중 어떤 값을 대표값으로 할까?
평균(Mean)
전체 기록 값을 다 더하고 기록 수만큼 나눈 값 = 15
- 극단적인 이상값이 있으면 예측률 급감
- 정수로 딱 떨어지지 않을 가능성(15.5, 16.7 등) → 벽돌 갯수로 쓰기 애매
중앙값(Median)
전체 기록 값 중 가장 가운데에 있는 값 = 14
- 주어진 상황에서 대표값으로 쓰기에 설득력이 많이 떨어짐
최빈값(Mode)
기록 값 중 가장 많이 나온 값(가장 빈번한 값) = 13
병사들이 가장 많이 추론한 값으로,
최빈값에 맞게 사다리를 만들면 실제 성벽의 높이와 비슷할 가능성이 높다고 판단
결론
대표값은 주어진 맥락이 결정
=> 평균이 항상 대표값이 될 수 없는 이유
'데이터 분석 > 통계' 카테고리의 다른 글
[통계 공부] 평균, 중앙값, 최빈값의 개념과 예시 (1) | 2024.07.15 |
---|---|
[통계 공부] 히스토그램, 도수분포표, 분산의 유의점 (0) | 2024.07.13 |
[통계 공부] R-Squared란? (0) | 2024.06.12 |
[통계 공부] 다변량 분석이란?, 다변량 분석이 필요한 이유 (0) | 2024.06.11 |
[통계 공부] 통계학이란? (0) | 2024.06.07 |