[통계 공부] Heartcount 강의: 히스토그램, boxplot, percentile (1)

데이터 분석/통계

[통계 공부] Heartcount 강의: 히스토그램, boxplot, percentile (1)

Sheryl Yun 2024. 6. 16. 15:30

참고 자료

[무료 강의] EDA 101 (2): 데이터의 모양 묘사하기 (히스토그램, boxplot, percentile)

데이터를 시각적으로 탐색하는 EDA를 본격적으로 해볼까요? 데이터가 어떻게 분포되어 있는지 여러 형태의 시각화 방법으로 알아 보세요.

community.heartcount.io

중심 경향(Central Tendency)

주어진 데이터의 대표값을 무엇으로 할 것인지

평균(Mean)
중앙값(Median)
최빈값(Mode)

데이터의 분포 정도(Dispersion)

데이터가 얼마나 퍼져 있는지

범위(Range)
분산(Variance)
표준편차(Standard Deviation)
Percentile

데이터의 퍼진 모양(Shape of Distribution)

데이터가 어느 쪽으로 치우쳐 있는지

왜도(Skewness)

왼쪽으로 꼬리가 길면 음의 왜도, 오른쪽으로 꼬리가 길면 양의 왜도

평균(Average)이 등장한 배경

19세기 초기 통계학

대상이 보유한 이상적인 속성이 '평균'이라고 간주 (= 'Idealized Mean')
평균을 벗어난 '차이(= 분산)'은 제거해야 할 오류

예: 이상적인 메뚜기와 물방개를 지정하고 (= 평균)
거기에서 벗어나는 변이들은 오류라고 생각

19세기 말 ~ 20세기 초

다윈:

개별 개체들 사이에 존재하는 다양한 차이가 누적되면서

의미 있는 변화가 일어남을 발견

☞ 평균의 개념에서 벗어나 개별 개체의 다양한 차이(분산, 관계)에 주목하기 시작

요약

초기 통계학

평균(Average) 중시: 집단을 요약, 이상적인 값 중시
예: 인구통계 - 국민의 평균 나이, 남성/여성의 비율 등

후반 통계학

'이상적인 값'보다 개체들에 존재하는 개별적인 차이점 중시
수리통계 등장: 분산, 변수 간의 관계, 추론, 확률, 유의성에 관심

최빈값이 사용된 최초의 사례

전쟁에서 성을 공격할 때

성벽을 타고 오르는 사다리를 성벽의 높이만큼 만들어야 하는 상황

☞ 병사들이 측정해온 성벽의 벽돌 갯수를 기록

이러한 상황에서, 다음 3가지 중 어떤 값을 대표값으로 할까?

평균(Mean)

전체 기록 값을 다 더하고 기록 수만큼 나눈 값 = 15

- 극단적인 이상값이 있으면 예측률 급감

- 정수로 딱 떨어지지 않을 가능성(15.5, 16.7 등) → 벽돌 갯수로 쓰기 애매

중앙값(Median)

전체 기록 값 중 가장 가운데에 있는 값 = 14

- 주어진 상황에서 대표값으로 쓰기에 설득력이 많이 떨어짐

최빈값(Mode)

기록 값 중 가장 많이 나온 값(가장 빈번한 값) = 13

병사들이 가장 많이 추론한 값으로,

최빈값에 맞게 사다리를 만들면 실제 성벽의 높이와 비슷할 가능성이 높다고 판단

결론

대표값은 주어진 맥락이 결정

=> 평균이 항상 대표값이 될 수 없는 이유

'데이터 분석 > 통계' 카테고리의 다른 글

[통계 공부] 평균, 중앙값, 최빈값의 개념과 예시 (1)	2024.07.15
[통계 공부] 히스토그램, 도수분포표, 분산의 유의점 (0)	2024.07.13
[통계 공부] R-Squared란? (0)	2024.06.12
[통계 공부] 다변량 분석이란?, 다변량 분석이 필요한 이유 (0)	2024.06.11
[통계 공부] 통계학이란? (0)	2024.06.07

현재글[통계 공부] Heartcount 강의: 히스토그램, boxplot, percentile (1)

SheryLog

매일 '힘들었지만 그래도 하길 잘 했다' 로 채워나가기

회고, 영어회화, 데이터분석 부트캠프, 데이터분석부트캠프, 유튜브Clairedo, 데이터넥스트레벨챌린지, 데벨챌, 쉐도잉, 생활영어, 패스트캠퍼스데이터분석부트캠프, 패스트캠퍼스 데이터분석 부트캠프, 패스트캠퍼스 부트캠프, 패스트캠퍼스부트캠프, 데이터분석, 프렌즈, 패스트캠퍼스, 해커랭크, 국비지원, 프렌즈시즌3, SQL,

Today :
Yesterday :

SheryLog