데이터 분석/통계

[통계 공부] Heartcount 강의: 히스토그램, boxplot, percentile (1)

Sheryl Yun 2024. 6. 16. 15:30

참고 자료

 

[무료 강의] EDA 101 (2): 데이터의 모양 묘사하기 (히스토그램, boxplot, percentile)

데이터를 시각적으로 탐색하는 EDA를 본격적으로 해볼까요? 데이터가 어떻게 분포되어 있는지 여러 형태의 시각화 방법으로 알아 보세요.

community.heartcount.io

 

중심 경향(Central Tendency)

 

주어진 데이터의 대표값을 무엇으로 할 것인지

  • 평균(Mean)
  • 중앙값(Median)
  • 최빈값(Mode)

 

데이터의 분포 정도(Dispersion)

데이터가 얼마나 퍼져 있는지

  • 범위(Range)
  • 분산(Variance)
  • 표준편차(Standard Deviation)
  • Percentile

 

데이터의 퍼진 모양(Shape of Distribution)

데이터가 어느 쪽으로 치우쳐 있는지

 

왜도(Skewness)

  • 왼쪽으로 꼬리가 길면 음의 왜도, 오른쪽으로 꼬리가 길면 양의 왜도

 

 


평균(Average)이 등장한 배경

19세기 초기 통계학

  • 대상이 보유한 이상적인 속성이 '평균'이라고 간주 (= 'Idealized Mean')
  • 평균을 벗어난 '차이(= 분산)'은 제거해야 할 오류
예: 이상적인 메뚜기와 물방개를 지정하고 (= 평균)
     거기에서 벗어나는 변이들은 오류라고 생각

 

 

19세기 말 ~ 20세기 초

다윈:

개별 개체들 사이에 존재하는 다양한 차이가 누적되면서

의미 있는 변화가 일어남을 발견

 

☞ 평균의 개념에서 벗어나 개별 개체의 다양한 차이(분산, 관계)에 주목하기 시작

 

 

요약

초기 통계학

  • 평균(Average) 중시: 집단을 요약, 이상적인 값 중시
  • 예: 인구통계 - 국민의 평균 나이, 남성/여성의 비율 등

 

후반 통계학

  • '이상적인 값'보다 개체들에 존재하는 개별적인 차이점 중시
  • 수리통계 등장: 분산, 변수 간의 관계, 추론, 확률, 유의성에 관심

 

 

최빈값이 사용된 최초의 사례

전쟁에서 성을 공격할 때

성벽을 타고 오르는 사다리를 성벽의 높이만큼 만들어야 하는 상황

 

  병사들이 측정해온 성벽의 벽돌 갯수를 기록

 

 

 

 

이러한 상황에서, 다음 3가지 중 어떤 값을 대표값으로 할까?

 

평균(Mean)

전체 기록 값을 다 더하고 기록 수만큼 나눈 값 = 15

 

- 극단적인 이상값이 있으면 예측률 급감

- 정수로 딱 떨어지지 않을 가능성(15.5, 16.7 등) → 벽돌 갯수로 쓰기 애매

 

 

중앙값(Median)

전체 기록 값 중 가장 가운데에 있는 값 = 14

 

- 주어진 상황에서 대표값으로 쓰기에 설득력이 많이 떨어짐

 

 

최빈값(Mode)

기록 값 중 가장 많이 나온 값(가장 빈번한 값)  = 13

 

병사들이 가장 많이 추론한 값으로,

최빈값에 맞게 사다리를 만들면 실제 성벽의 높이와 비슷할 가능성이 높다고 판단

 

 


 

결론

대표값은 주어진 맥락이 결정

=> 평균이 항상 대표값이 될 수 없는 이유