데이터분석 32

[패캠 11일차] 파이썬: 예외처리, 함수, 클래스, 크롤링 기본

예외처리(try/except)유저는 자유롭다..!숫자 입력하라고 했는데 문자 입력하는 유저 꼭 있음 코드에는 오류가 날 수 있는데오류로 인해 프로그램이 종료되는 것은 막아야 함=> 예외처리 필요 형태 try:   실행할 내용 (오류가 날 수 있는 코드를 try에 넣음)except:    try에서 에러 발생 시 실행할 내용finally:    try에서 오류가 발생하던 안 하던 무조건 실행할 내용  공공데이터에서 같은 열에 문자와 숫자가 섞여 있는 경우가 많음 함수함수: def ⇒ define, definition 정의한다뭔가를 내 손으로 직접 ‘정의’ 반복적인 코드들을 재사용하고 싶을 때하나의 함수로 만든다 (코드 블록을 묶는 작업) 100줄을 그냥 작성하는 것보다20줄짜리 5개 함수를 보는 것이오류를..

[패캠 10일차] 파이썬: comprehension, 함수, 예외처리

n개의 정수 입력받기1번째 방법: num = int(input('몇 개의 정수를 입력하시겠습니까?'))user_input_list = []for i in range(num): user_input = int(input(f'숫자를 입력하세요 - ({i + 1}번째 숫자)')) user_input_list.append(user_input)2번째 방법:한 줄로 해결 - more pythonic!num_list = list(map(int, input().split()))  break, continue, pass 차이점break실행되는 순간 반복문이나 조건문을 멈춤i = 8while i > 0: i -= 1 if i % 2 == 0: break # 실행되는 순간 while문 자체가 멈춰버림..

[패캠 9일차] 파이썬: 자료형, 함수, 제어문&반복문

파이썬 소개파이썬으로 가능한 것들웹 프로그래밍데이터 분석머신러닝/딥러닝데이터베이스 프로그래밍파이썬의 특징인터프리터 언어명령어를 한 줄씩 바로 컴파일해서 명령어마다 결과 보기 가능 vs. 컴파일 언어여러 줄의 명령어를 한번에 컴파일이후 실행 파일로 실행 인덴트(들여쓰기)에 민감 변수변수명 규칙숫자가 맨 앞에 올 수 없음언더바(_) 외 특수문자 불가 (파이썬 - 스네이크 케이스)공백 불가대소문자 구분 변수의 종류 (자료형)숫자형a = 1 (int)b = 0.1 (float) 문자형c = “Hello World” (str) 리스트(list)여러 개를 묶음 + 대괄호d = [1, 2, “Hello World”, b] 튜플(tuple)여러 개를 묶음 +  소괄호e = (1, 2, 3, ‘a’) 딕셔너리(dicti..

[패캠 8일차] 기초 통계: 상관계수, 중심극한정리

공분산개념2개의 확률 변수의 선형 관계를 나타내는 값 ‘선형 관계’ 라는 말이 중요- 분산 그래프는 선형이 아니라 기울어져 있거나 원형일 수도 있지만 공분산의 그래프는 선형 부호+: 양의 상관 관계-: 음의 상관 관계0 : 상관 관계 없음주의점상관 관계가 없는 것(= 공분산이 0인 것)과 두 변수가 독립인 것은 다름 두 변수가 독립 변수일 때 (= 서로 상관 관계가 없을 때) 공분산은 0하지만 공분산이 0이라고 해서 두 변수가 반드시 독립 변수이지는 않음 실무에서 공분산이 0이 나올 확률은 많지 않다공분산이 0이 나오면 둘이 별로 관련이 없나 보다 정도로 생각 상관 계수공분산에서는 ‘부호’에 관심부호가 +냐 -냐 0이냐 그러나 0을 기준으로 얼마나 큰지 작은지는 상관 계수로 확인 피어슨 상관 계수공식에 ..

[패캠 7일차] 기초 통계 완전 정복: 시계열 데이터

지난 시간 복습 p-value (probability-value)나오면 안 되는 경우가 나올 확률 (= 유의 확률)p 값이 작다 = 분산이 다르다는 뜻이므로 이분산 가정 귀무 가설유의미한 차이가 없다 (p ≥ 유의수준) 대립 가설유의미한 차이가 있다 (p  상관 분석 = 그래프의 방향이 올라가는지 내려가는지회귀 분석 = x가 떨어지면 y가 얼마나 떨어지는지까지 판단 (상관 분석에서 한 단계 더 나아감) 오차 제곱들의 합계 ⇒ 최소 제곱법 (이 합들이 가장 작은 것 = 현상을 가장 잘 설명해준다) 가슴으로 받아들이자 (수학, 통계)앞서 훌륭하신 분들이 p-value 계산해두었고우리는 그냥 이런 게 있구나 정도로 받아들이면 됨  단순 선형 회귀 분석 ⇒ 어찌 보면 이름 그대로 단순매출액 하나에 영향을 주는 ..

[패캠 6일차] 기초 통계 완전 정복: t-test, f 검정, 회귀분석, 귀무가설

데이터분석전문가 시험 (준전문가 상위 자격증) 후기머신러닝데이터셋 전처리1-1 2024-01-13 17:44:56 (연월일 시)월, 일을 따로 빼라NSM = 자정으로부터 지난 시간 을 분으로 바꿔서 새로운 열을 만들어라17 * 60 + 44(분)1-2 ind11, ind22 열을 새로 만드는데 ind11은 NSM이 11의 배수이면서 22의 배수가 아닌 거1-3 ind22 = 22의 배수인 거⇒ 엑셀로 하면 1분 30초인데 R을 쓰니 40분 사용데이터를 EDA해라기초 통계량, 데이터의 타입(문자, 숫자, 벡터), 결측치 여부 확인, 이상치 여부를 숫자 열만 확인 ⇒ 박스 플롯머신러닝 모델링3-1 이 데이터를 잘 나눌 수 있을 거라고 기대되는 2가지 분류 방법을 선택하고 왜 선택했는지 작성3-2 그 중에서 ..

[패캠 5일차] 기초 통계 완전 정복: EDA, 통계 용어

개요데이터 분석에 앞서 필요한 기초 선행 지식 학습기초 통계 개념, 수치 해석 방법엑셀을 활용한 실습 및 활용 통계학이란?산술적 방법을 기반으로 다량의 데이터를 관찰, 정리, 분석하는 방법을 연구 데이터를 관찰, 정리, 분석하는 이유⇒ 불확실성 속에서 유의미한 정보를 찾아내기 위해 부분으로 전체를 추론예: 전국민 여론조사 - 전체 국민을 대상으로 하지 않고 일부를 표본으로 뽑음 표본은 쏠려 있지 않고 대표성을 가질 수 있어야 통계 자료가 왜곡되어 있는지 판단하는 능력 필요 통계로 할 수 있는 것- 과거의 추세 파악을 통한 미래의 추세 예측- 그래프가 평균적인 트렌드에서 벗어났을 때를 발견하고 원인 파악을 위함 통계 방법론OKR (Objective Key Result) Objective  = 목표목표만으로..

[패캠 4일차] 엑셀 심화 - 이동훈 강사님

개요요즘은 스페셜리스트보다 제너럴리스트 선호=> 한 가지를 깊이 파기보다 여러 분야를 두루 섭렵한 사람 분야들을 종합해서 합리적 판단을 내려야 할 때가 옴 요즘은 이 여러 분야 중에 데이터 분석이 꼭 포함되어 있음=> 자기 분야 + 데이터 분석 능력을 가진 시티즌 데이터 사이언티스트 되기 Chapter_4 탐색적 데이터 분석 (EDA)기존의 통계학이 정보의 추출 과정에서 가설 검정 등에 치우쳐서자료가 가지고 있는 본연의 의미를 찾는 데 어려움 생김=> 어려운 기법보다 주어진 자료에서 어떤 정보를 뽑아낼 것인지에 집중 EDA는 우리가 존재한다는 건 물론이고 존재하지 않는다고 믿는 것들도 발견하려는 태도이다.— 존 튜키  데이터의 겉모습 뿐만 아니라 내면도 보려고 하는 것 EDA만으로도 해낼 수 있는 게 굉..

[패캠 3일차] 엑셀 함수와 기능, 시각화 - 이동훈 강사님

엑셀 함수COUNT(범위)특정 범위에서 숫자 데이터가 있는 셀의 갯수 반환 COUNTA(범위)A는 All의 의미특정 범위에서 데이터가 있는 셀(= 비어 있지 않은 셀)의 갯수 반환 COUNTBLANK(범위)특정 범위에서 비어 있는 셀의 갯수 반환 COUNTIF(범위, 조건)특정 범위에서 조건을 만족하는 셀의 갯수 반환 예:COUNTIF(C5:C12, “A”) ⇒ 데이터가 “A”인 셀의 갯수 반환COUNTIF(C5:C12, “≥5”) ⇒ 숫자 데이터가 5보다 크거나 같은 셀의 갯수 반환** 일반적으로 함수 안에 부등식을 사용할 때는 그냥 사용COUNTIF 함수의 조건일 때는 문자열로 작성 COUNTIFS(범위1, 조건1, 범위2, 조건2, …)조건이 1개일 때도 가능해서 그냥 언제나 COUNTIFS 함수를..

[패캠 2일차] 엑셀 기초 - 이동훈 강사님

Chapter_1: 데이터 분석 개요4차 산업혁명 시대소프트 스킬 (머리로 일을 할 수 있는 능력)하드 스킬 (손으로 일을 다룰 수 있는 능력) 빅데이터, 인공지능, 사물 인터넷, 자율주행, 로봇공학, 나노 기술, 3D 프린팅 등 디지털 트윈= 오프라인 세계와 똑같은 세계를 온라인 상에 구현, 두 세계를 자유롭게 넘나듦=> 온라인 세계를 오프라인 세계로 전환시켜 우리 삶의 질을 향상시킴 이 시대에서 가장 중요한 핵심 가치는 ‘데이터’데이터를 잘 다룰 수 있는 소프트 스킬 = 데이터 리터러시 리터러시: 글을 읽고 쓸 줄 아는 능력데이터를 단순히 읽고, 쓸 수 있는 것만이 아닌데이터를 구조적이고 상황적인 다양한 관점에서 이해하고 활용할 수 있는 역량 => 데이터의 숫자가 나타내는 의미가 무엇인지, 각 숫자의..