패캠 데이터 분석 14기/통계

[패캠 5일차] 기초 통계 완전 정복: EDA, 통계 용어

Sheryl Yun 2024. 4. 29. 19:02

개요

데이터 분석에 앞서 필요한 기초 선행 지식 학습

기초 통계 개념, 수치 해석 방법

엑셀을 활용한 실습 및 활용

 

통계학이란?

산술적 방법을 기반으로 다량의 데이터를 관찰, 정리, 분석하는 방법을 연구

 

데이터를 관찰, 정리, 분석하는 이유

불확실성 속에서 유의미한 정보를 찾아내기 위해

 

부분으로 전체를 추론

예: 전국민 여론조사 - 전체 국민을 대상으로 하지 않고 일부를 표본으로 뽑음

 

표본은 쏠려 있지 않고 대표성을 가질 수 있어야

 

통계 자료가 왜곡되어 있는지 판단하는 능력 필요

 

통계로 할 수 있는 것

- 과거의 추세 파악을 통한 미래의 추세 예측

- 그래프가 평균적인 트렌드에서 벗어났을 때를 발견하고 원인 파악을 위함

 

통계 방법론

OKR (Objective Key Result)

 

Objective  = 목표

목표만으로는 너무 추상적

목표를 구체화한 것이 Key Result

 

추상적인 목표를 달성하기 위해서 핵심 지표를 설정하면

목표가 자연스레 이루어질 것이라고 간주

 

구체적인 지표를 어떻게 설정하고

그 지표를 어떻게 목표한 수치에 이르도록 할 것인지 고민

 

KPI(Key Performance Index)

 

=> 지표를 설정할 때 지표가 왜 합리적인지,

더 좋은 지표는 없는지,

어느 정도의 수치를 목표로 삼아야 할 지 등에 대한 고민은

모두 데이터를 바탕으로 이루어져야

 

 

Growth Marketing (퍼포먼스 마케팅)

 

데이터 분석 단계와 탐색적 데이터 분석 (EDA)

데이터 분석 5단계

1. 데이터 분석 기획

비즈니스 이해 및 목표 설정

- 비즈니스적으로 어떤 것을 이루고자 하는지

 

프로젝트 정의

- 어떤 데이터를 바탕으로 어떤 것을 측정하거나 예측할 지

 

2. 데이터 수집 및 정제

데이터 수집

- 분석에 필요한 데이터를 어떻게 수집할 것인지

데이터 전처리와 검증

- 수집된 데이터의 정합성, 무결성 등을 검증

 

3. 데이터 분석 모델링

탐색적 데이터 분석 (EDA)

- 통계량 확인, 시각화를 통한 데이터의 특성 파악

 

모델링

- 예측을 위한 수학적, 통계적 모델링

 

4. 평가 및 결론 도출

모델링을 통해 생성된 결과를 활용하여 결론 도출

 

성능에 대한 평가

- 도메인/비즈니스적 요구에 따라 성능 기준 달라짐,

상황에 따라 도중에 과정을 수정해가며 성능을 개선

 

5. 분석 결과의 활용

시스템 구현 후 주기적인 업데이트

 

비즈니스 인사이트

- 의사 결정에 도움, 시각화 (대시보드 등)

 

모델을 활용하여 최종적으로 서비스에 적용

 

탐색적 데이터 분석 (EDA)

EDA: Exploratory Data Analysis

 

- 기초 통계 개념으로 데이터를 전반적으로 파악

- 데이터의 형질에 대한 도메인 개념 축적

- 전처리의 방향 제시

 

데이터 전처리

데이터 분석에 적절하도록 데이터를 가공 및 변환하는 단계

 

엑셀로 데이터 실습하기

kaggle에서 titanic 데이터(끝에 ‘~from disaster’)의 train.csv 다운로드

 

 

** 엑셀 전체 열의 너비 한번에 맞추는 법

Ctrl + A 1번 = 전체 테이블 범위 선택

Ctrl + A 2번 = 테이블을 포함한 전체 시트 범위 선택

Ctrl + A를 2번 누르고 마지막 열(L)과 옆의 비어 있는 시트(M)의 열 제목 사이를 더블클릭

 

=> 이렇게 해놓고 데이터를 먼저 쭉 훑어보기

 

 

** .csv 파일보다 .xlsx 파일이 어떤 도구 사용 후 더 잘 저장됨

 

[ .xlsx 파일로 저장하는 법 ]

다른 이름으로 저장 - ‘엑셀 통합 문서’ 선택으로 저장

 

 

기술통계법으로 분석하기

Technology의 기술이 아니라

‘기술하다’할 때의 기술(descriptive)

 

** 기술통계법 분석 시 유의점

남성, 여성 등의 숫자가 아닌 값들은 분석하기 어려움

 

테이블 중 숫자 값인 컬럼들을 먼저 모아서 분석:

생존 여부, p-class, 나이, 인원(형제자매/배우자, 부모/자식), 요금 (총 6가지)

 

 

엑셀로 기술통계법 사용하기

데이터분석 - 기술통계법 - 열 범위 지정

- 데이터 방향 ‘열’ 선택 - 첫째 행 이름표 사용 체크

- 새로운 워크시트 선택 (+ 제목 작성)

- 4가지 항목(요약 통계량, 평균에 대한 신뢰 수준, K번째 큰 값, K번째 작은값) 모두 체크

 

 

만들어진 기술통계표 열 분석하기

Survived 생존율

생존율이 평균 0.38이라는 의미 (0이 62개, 1이 38개 ⇒ 생존율 38%)

 

표준 오차와 평균 오차는 다른 개념

 

Pclass 최빈값 3 

(= 3등급 칸 승객 수가 가장 많았음)

 

범위 = 최대값 - 최소값

 

기술통계표 만들 때 K번째 큰 값, K번째 작은값의 의미

=> 입력 칸에 10을 넣으면 10번째 큰 값을 볼 수 있음

 

데이터 탐색: EDA 예시

분석 실무를 할 때 EDA에 꽤 많은 시간을 들임

 

용어 정리

 

feature engineering

결측치를 알맞은 값으로 채워넣는 과정

 

첨도, 왜도

분포가 한쪽으로 확 쏠렸거나 얼마나 뾰족한지

 

변동 계수

얼마나 크게 영향 받을 수 있는지

 

차트를 통한 데이터 탐색 사례

분포를 확인할 때 함께 확인해야 하는 수치들

 

분포의 중심 - 평균, 중위값, 최빈값 등

퍼짐 정도 - 분산, 표준편차, 사분위수, 변동계수

분포의 모양(비대칭성) - 왜도, 첨도

 

데이터를 숫자로 보는 것보다 

차트로 시각화해서 보는 것이

데이터에 대한 직관을 올려주는 데 도움이 됨

 

상관 관계를 통한 데이터 탐색 사례

캐글의 IRIS 데이터 분석하기

 

아이리스 꽃 3종류의 데이터를 각각 시각화해서

하나의 차트에 합쳐 놓은 뒤

서로 간의 상관 관계를 분석

 

 

** 상관 관계가 있는 것을 찾아내는 만큼

상관 관계가 없는 것을 찾아내는 일도 중요

 

예: 얼핏 봤을 때는 서로 상관 관계가 높을 줄 알았는데

실제로 데이터 분석을 해보니 상관 관계가 없거나 약하더라 등

 

 

결측치와 이상치 데이터 탐색 사례

이상치를 파악할 때는 박스 플랏을 가장 많이 사용

 

pclass에 따른 타이타닉 요금 분포를 박스 플랏으로 시각화해보기

 

상자 수염 도표에서

가운데 네모난 상자 부분을 box plot이라고 함

 

박스를 가로로 가르고 있는 선은 중위값

예) 100명 중 50등의 사람이 가진 수치

 

 

IQR이란?

1사분위수와 3사분위수 사이의 간격

IQR을 바탕으로 1.5배 이상 벗어난 값을 이상치(Outlier)라고 함

 

데이터 탐색과 통계의 필요성

기술 통계

요약된 정보를 담고 있는 통계량을 시각화하여 데이터를 탐색하는 것

목표: 데이터의 특성에 대해 알아보는 것

 

 

추론 통계

추출한 표본의 통계량을 관찰하여 모집단의 특성을 추론

p-value 등을 활용하여 추론의 신뢰도 확보

 


 

통계 공부는 수치(데이터)로부터 올바른 정보를 추출해내기 위한 수단!

 

 

기술 통계법

-  통계량 확인 (평균, 분산, 표준편차, 왜도, 첨도 등)

 

데이터 시각화

- 차트를 통해 직관적으로 데이터 특성 확인

 

상관 관계 분석

- 각 변수 간의 상관 관계 파악

 

결측치, 이상치 탐지

- 관측되지 않는 값(결측치), 추세에서 벗어난 값(이상치) 확인

 

 

데이터 탐색 과정의 목적

어떤 변수가 결론에 많은 영향을 미치는지 파악

 

- 유의미한 변수 탐색

- 변수 간의 독립성 확보

- 의미 없는 데이터 제거 ⇒ 효율성 높이고 차원 축소

 

 

변수의 분포에 따라 사용 가능한 통계적 방법론이 다름

예: 정규성 검정을 통해 정규 분포를 따르는지 여부 판단

 

 

t-검정을 통해 결론 도출

 

차트로 엑셀 데이터 탐색하기

히스토그램 그리기

캐글의 타이타닉 데이터 활용 (https://www.kaggle.com/competitions/titanic/data)

 

피벗 테이블을 활용하여 데이터 특성 파악하기

 

 

데이터 분석 팁:

데이터의 각 칼럼별로 내가 궁금한 점에 대해 작성해보고 (예: 궁금증1)

해당 궁금증을 풀기 위한 피벗 테이블 작성

 

 

++ 피벗 테이블을 만든 후에 궁금한 값들을 필터링하면서

데이터 수치 비교를 더 뚜렷하게 만들거나 

보고 싶은 값만 볼 수 있음

 

산점도 그리기

캐글의 IRIS 데이터 활용 (https://www.kaggle.com/datasets/uciml/iris)

 

IRIS 데이터도 엑셀 통합 문서(.xlsx)로 저장 후 시작

엑셀에서 산점도 그리기는 조금 번거로움 (다 따로따로 해 줘야)

 

방법

비어있는 곳에 커서 두고

삽입 - 분산형 차트(점 찍혀 있는) 1번째 것 선택

(그래프 영역에 아무것도 그려져 있지 않아야)

 

 

박스 플랏 그리기

이상치를 확인하기 위한 작업

값이 크다고 해서 무조건 이상치인 것은 아님

 

 

왕초보 기초 통계 (고등학교 통계부터 기술 통계까지)

기본 용어

변량

자료의 수치 (= 데이터의 값)

 

계급

변량을 일정한 간격으로 나눈 구간

=> 각각의 변량을 개별 값으로 보기보다는 어느 정도 묶어서 봐야 의미가 있어서

 

변량의 최소, 최대를 고려하여 정함

=> 너무 잘게 나누거나 넓게 나누지 말고

각 구간에 의미 있는 숫자의 데이터가 들어갈 만큼 적당한 간격으로 잡기

 

도수

각 계급에 속하는 변량의 개수 ('계급'을 바탕으로 함)

 

상대 도수
각 계급에 속하는 변량의 비율
예: 100개 중 하나의 계급에 16개의 도수가 속하면 상대 도수는 0.16(= 16%)

 

도수분포표

주어진 자료를 계급에 따라 나누고

각 계급에 속하는 도수와 상대 도수 등을 나타냄

 

장점

구간별 분포를 한눈에 알아보기 좋음

 

단점

각 계급에 분포된 변량의 정확한 모양새를 알기 어려움

예: 170 ~ 175 계급의 도수가 16이면 해당 계급에 속한 변량 갯수가 16개라는 건 알 수 있지만

계급 범위 중 170에 16개의 대부분의 데이터가 몰려있는지,

170부터 175 사이에 데이터가 고루 분포해 있는지는 알 수 없음

 

히스토그램

피벗 차트와 비슷한 형태 (막대 그래프)

도수분포표를 시각화해서 보는 가장 기본적인 방법

 

 

대표 용어

평균 (mean)

평균은 대부분 산술 평균 사용 (그 외에는 기하 평균, 조화 평균 등이 있음)

산술 평균 - 변량의 합을 변량의 수로 나눈 값

df['value'].mean()

 

평균은 이상치 등의 극단 값에 영향을 많이 받기 때문에

단순히 평균이 그 집단의 대표값이라고 바로 간주해버리면 안 됨

 

분산 (variance)

변량이 중심인 평균으로부터 얼마나 떨어져 있는 지 (얼마나 퍼져 있는지)

각 편차를 제곱해서 모두 더한 값

편차
각 데이터 값(변량)에서 평균을 뺀 값 (= 평균과의 차이)

 

표준편차 (standard deviation)

분산의 제곱근 (분산에 루트를 씌운 값)

관찰 값들이 얼마나 흩어져 있는지하나의 수치로 나타내는 통계량

관측된 변량들의 스케일을 표준화

 

정규분포 (normal distribution)

평균과 표준편차에 대해 특정 확률밀도함수를 가지는 분포

 

정규분포는 왜 중요할까?

많은 분야의 연속형 데이터(예: 자연 현상)들이

종 모양의 형태를 띤다는 것을 확인

 

실험 오차를 분석하면서 사용하기 시작

 

Q. 왜 서로 다른 다양한 상황임에도 불구하고 비슷한 (정규) 분포가 나타날까?

대부분의 데이터 분포는 정규 분포에 수렴하기 때문

 

중심극한정리 (central limit theorem)

독립적인 확률변수들의 평균은

항상 정규분포에 가까워진다(수렴한다)

 

⇒ 어차피 다 비슷비슷한 모양인데

이걸 한번에 하나의 틀에 동일한 기준을 가지고 표준화해서 비교하자

 

표준정규분포 

평균이 0, 표준편차가 1인 정규분포

 

표준화

다양한 형태의 정규 분포를 표준정규분포로 변환하는 것

 

모두 다르게 생긴 다양한 정규분포들을 표준정규분포 공식에 넘긴 다음,

이미 계산되어 있는 표준정규분포 값을 바탕으로 확률을 구함

⇒ 다양한 데이터를 균일한 기준으로 비교하고자 함

 

기술통계와 추론통계

기술통계 (Descriptive Statistics)

데이터의 간결한 요약 정보

예: 피벗 테이블을 활용한 요약통계표

 

수치적인 통계량을 시각화

 

목적: 데이터의 특징 파악

EDA 단계에서 주로 사용

 

추론통계 (Inferential Statistics)

목적: 모집단에 대한 추론

모집단으로부터 추출한 샘플(= 표본) 사용

 

전체 모집단을 조사하기 힘들 때 사용

 

p-value 등을 통해 모집단에 대한 가설을 검정

 

대표값과 기초통계량

대표값

자료의 특성을 나타낼 수 있는 대표성을 띠는 값

 

기초통계량

중심경향성 -중심에 얼마나 몰려 있는지

퍼짐 정도 - 자료가 얼마나 흩어져 있거나 모여 있는지

왜도 - 분포의 좌우 비대칭 정도

첨도 - 분포의 뾰족한 정도

 

기초통계량 종류

중심경향성

중심으로 모이는 경향

대표적: 최빈값, 중앙값, 평균값 등

 

최빈값 (Mode)

데이터 상에서 가장 빈번하게 나타나는 값

범주형 자료의 대표값으로 많이 쓰임

 

이유: 범주형 자료의 경우 순서형이 아닌 경우가 있어서

분포를 전체적으로 확인하기보다 가장 많이 등장하는 값(= 최빈값)을 먼저 확인하는 편

예: MBTI ⇒ 일렬로 나열할 수 있는 데이터가 아님 (범주형 자료, 명목형 데이터)

 

중앙값 (Median)

자료를 크기 순으로 정렬했을 때 가장 가운데에 위치하는 값

 

이상치에 크게 영향을 받지 않아서

순서형 자료의 대표값으로 적합

 

연속형 데이터의 경우 값이 이상치로 튀는 경우가 있는데

중앙값은 이상치가 있어도 영향을 덜 받음 (= 강건함)

 

산술 평균 (Arithmetic Mean, Mean)

자료의 값을 모두 더해서 자료의 갯수로 나눈 값

이상치에 영향을 크게 받으며 연속형 자료에 많이 사용

 

가중 평균 (Weighted Mean)

자료의 중요도에 따라 가중치를 부여한 평균

 

평균은 모든 자료가 동등한 가치를 가진다고 간주해서 단순히 더해서 갯수로 나누지만

가중 평균은 값의 중요도를 고려한 평균 (공식이 좀 다름)

 

기하 평균 (Geometric Mean)

이전 시점의 비율(예: 성장률)을 모아두고 그에 대한 평균을 구할 때 유용

예: CAGR(평균 성장률, Annual Growth Rate), 주가 상승률

CAGR - 회사의 매년 성장률(전년 대비 ~% 성장률 등)을 구할 때 기하 평균을 사용

 

 

회귀분석, 공분산, 상관계수

회귀분석 (Regression Analysis)

통계에서 매우 중요한 개념

 

회귀분석을 공부하는 이유

보통 결과에 하나의 변수만 영향을 주지 않음

 

결과 = 종속변수 (예: 매출)

종속변수를 설명하기 위한 변수 = 독립변수 (예: 매출에 영향을 줄 법한 광고, 이벤트 진행, 계절성 등)

 

회귀분석이란?

변수를 조합해서 어떤 식이나 모양을 만든 것

변수 간의 모형을 구한 뒤 적합도를 측정하는 분석

대표적으로 선형 회귀 모형이 있음

 

장점

둘 이상의 변수 간의 관계를 보여줌

대부분의 경우 하나의 결과를 설명하는 요인이 매우 많은데

종속변수에 영향을 미치는 각 독립변수의 영향력 판단 가능

 

주의점

회귀분석이 인과 관계를 항상 설명해주지는 못함

=> 무엇이 종속변수(매출)에 영향을 미쳤는지 정확하게는 알 수 없음

 

공분산

2개의 확률변수의 선형 관계를 나타내는 값

(회귀분석이 선형이 아니고 동그랗거나 기울어져 있는 등 여러 형태가 있을 수 있지만

여기까지는 선형 형태의 모형에 대해서만 얘기 중)

 

공분산의 부호

- : 음의 상관 관계 (좌상단에서 우하단으로 내려가는 모양)

0 : 상관 관계 없음 (점 분포가 동그란 경우)

+: 양의 상관 관계 (왼쪽 하단에서 오른쪽 상단으로 올라가는 기본 모양)

 

표본공분산

표본분산 등을 구할 때처럼 분모의 n에서 1을 빼줌

 

공분산 주의점

상관 관계가 없는 것과 두 변수가 독립인 것은 약간 다름

 

두 변수가 아무 관계 없는 독립 변수이면 공분산은 0

근데 공분산이 0이라고 해서 두 변수가 독립일 거라는 보장은 없음

 

실무에선 공분산이 0이 나올 확률은 많지 않다

(그냥 둘이 별로 관련 없나 보다 정도로 생각하고 넘어가는 경우가 대부분)

 

상관 계수

대표적으로 피어슨 상관 계수가 있음

상관 계수 값이 0.5 ~ 0.7 이상이면 강한 양의 상관 관계,

-0.2 ~ 0.2 정도이면 상관 관계가 약하거나 없음,

-0.5 ~ -0.7 정도이면 음의 상관 관계를 가졌다고 해석