통계 3

[통계 공부] Heartcount 강의: 히스토그램, boxplot, percentile (1)

참고 자료 [무료 강의] EDA 101 (2): 데이터의 모양 묘사하기 (히스토그램, boxplot, percentile)데이터를 시각적으로 탐색하는 EDA를 본격적으로 해볼까요? 데이터가 어떻게 분포되어 있는지 여러 형태의 시각화 방법으로 알아 보세요.community.heartcount.io 중심 경향(Central Tendency) 주어진 데이터의 대표값을 무엇으로 할 것인지평균(Mean)중앙값(Median)최빈값(Mode) 데이터의 분포 정도(Dispersion)데이터가 얼마나 퍼져 있는지범위(Range)분산(Variance)표준편차(Standard Deviation)Percentile 데이터의 퍼진 모양(Shape of Distribution)데이터가 어느 쪽으로 치우쳐 있는지 왜도(Skewne..

[통계 공부] 다변량 분석이란?, 다변량 분석이 필요한 이유

다변량 분석이란?다변량 데이터 시각화란,여러 변수(차원)들을 한 화면에 시각화하는 것을 말한다.    위 그래프는 제품대분류(x축)에 따른 이익(y축)을지역별(예: 강원, 충청)로 나타낸 다변량 분석이다.   데이터 속에 담긴 정보를 제대로 그려내기 위해서는 평평한 2차원(종이, 화면)의 속박을 벗어나야 한다.우리가 이해하고자 하는 모든 흥미로운 것들은 필연적으로 여러 개의 변수들로 구성되어 있기 때문이다.- Edward Tufte   하나의 숫자가 모든 걸 말해줄 거라 기대하지 않듯이,하나의 차트가 모든 걸 보여줄 거라 기대하지 말자.- 존 튜키    다변량 분석이 필요한 이유 원래 이차원 공간에 놓인 하나의 창 속에 담긴 차트는 하나의 사실, 한가지 측면(단면/Facet)에 대해서만 말해야 한다.  ..

[통계 공부] 통계학이란?

통계학의 정의어느 집단에 대한 경향이나 특징을 알기 위해 관측, 조사, 실험한 결과를숫자나 문자(= 자료, 데이터)로 정리하는 학문 통계학의 목적숫자나 문자로 표현된 집단의 경향이나 성질을 객관적으로 나타내기 위함  PPDAC 사이클Problem: 문제 발견가설 세우기예: 이 동전은 앞면이 나오기 쉬울 것이다. Plan: 조사 계획가설을 확인하기 위한 계획예: 동전을 100번 던져보면 어떨까? Data: 데이터 수집가설 확인 및 데이터 생성예: 동전을 100번 던져보고 - 매회 앞면인지 뒷면인지 기록 Analysis: 분석데이터를 활용하여 앞면과 뒷면의 각 횟수를 나타낸 새로운 표 만들기 (가공)표 상의 수치를 확인하고 그래프 그려보기 (시각화) Conclusion: 결론1차적 결론: 가설은 참 (앞면이..