데이터분석 32

[패캠] Tableau: 결합축, 도넛 차트, 지도

이중 축 vs. 결합 축 1. 추가할 측정값을 놓는 위치 이중 축은 추가할 측정값을행 선반의 기존 측정값 옆에 올림 결합 축은 추가할 측정값을기존 측정값의 차트 '축'에 올림 (세로 '=' 모양)  2. 마크 카드 갯수 이중 축은 마크카드가 2개 생김 (전체까지 총 3개)결합 축은 마크카드가 전체 1개뿐 (이중 축처럼) 마크카드가 여러 개 있을 때의 장점:각 측정값의 스타일이나 서식을 따로 줄 수 있음  결합축은 '하나의 집에 두 명의 세입자가 사는 것'두 측정값이 하나의 축을 공유하는 것  축 1개, 마크카드 1개=> 이중축보다는 자유도가 떨어짐  결합 축의 장점:이중 축은 필드 2개까지만 가능결합 축은 필드를 무한히 넣을 수 있음(=> 라인 차트라면 차트 상의 라인이 5~6개 넣을 수도 있음)   결..

[패캠] Tableau: 참조선

참조선 시도별 sales와 profit을 함께 보고 싶을 때,이중축으로 막대 2개를 겹쳐서 만들어도 되지만막대를 sales 하나만 그리고 profit은 단순 선으로 보여줄 수도 있다. 이때 쓰이는 선이 분석 패널의 참조선  참조선은 테이블, 패널, 셀 단위로 줄 수 있으며테이블은 차트 전체,패널은 대분류/중분류 중 중분류 단계,셀은 막대 하나 하나에 적용된다.  참조선을 넣은 뒤 편집 - '라인'의 값에서참조선으로 보여주고 싶은 필드와해당 필드의 집계 기준(합계, 평균 등)을 선택할 수 있다.  이때 선택 가능한 필드가 되려면 반드시 차트 안에 '정보'가 있어야 한다.  ** 차트의 모양을 바꾸지 않고 필드 정보만 넣는 방법:profit 필드를 마크 카드의 '세부 정보'에 드래그     참조선 편집 팝업..

[패캠] Tableau: 조인/관계/블렌딩, 필터, TOP N, 태블로 Order of Operation

유니온 데이터를 '세로로' 결합 2017년, 2018년, 2019년, 2020년을 아래로 이어붙이는 것 실전에서 조인보다 많이 안 씀   데이터를 가로로 결합하는 과정은 조인, 관계, 블렌딩  조인 가장 강력한 형태의 물리적 결합  물리적 결합 = 둘이 하나가 되는 것  두 테이블이 합쳐져서 하나의 테이블이 되는 것(제3의 테이블 생성)  전제 조건:키 필드(PK, FK) 사전 정의결합 방향(LEFT, RIGHT, FULL OUTER) 사전 정의  관계유연한 결합 두 테이블이 한 몸이 되지 않음  각 테이블이 각각 따로 존재하고데이터 준비 과정에서 사전에 했던 약속에 따라 결합  전제:키 필드 사전 정의,결합 방향은 사전에 정의하지 않음     필터차원 필터와 측정값 필터는 거창한 것이 아님  차원 필드..

[패캠] Tableau: 필터, 이중축/결합축, 분석 패널

태블로에서 필터는 매우 중요한 개념 태블로의 Order of Operation(작동 순서)   아래 도표는 위 내용을 Calculation(계산)과 Filter(필터)로 세분화해서 나눈 것이다.      각각의 필터에 대해 알아보기 1. 추출 필터추출이란?데이터 원본과 태블로 워크북 사이의 라이브 연결을 끊고작업 내용을 스캔해서 내 PC에 저장하는 과정  추출 필터란,추출로 저장하는 과정에서 필터를 거는 것   추출 필터를 쓰는 경우: 추출은 태블로가 데이터를 '스캔'하는 것 데이터가 몇천 건, 1만 건 정도 작은 크기이면 상관 없지만몇 만 건, 몇 천만 건 정도의 큰 데이터는 태블로가 스캔하는 데 오래 걸림=> 추출 필터를 통해 필요한 부분만 걸러냄  또는 '데이터 크기와 상관 없이',분석을 시작하기 ..

[패캠] Tableau: index 함수, 대시보드로 최종 결과물 만들기

지난 시간 정리기본 차트 (Ch 3)bar 차트: 집계, 마크 카드, 서식, 그룹line 차트: 연속형/불연속형pie 차트(원 차트): 표현방식, 트리맵, 퀵 테이블 계산(구성 비율), 테이블 옆으로 계산  분포 차트 (Ch 4)스캐터 플롯(산포도): 추세선, 상수 라인박스 플롯: 이상치(outlier)히스토그램: 구간 차원테이블(표): 하이라이트 테이블  앞으로 배울 내용데이터 결합유니온조인, 관계(조인과 비슷),블렌딩(조인과 비슷, 태블로에서만 쓰는 개념 - universal 하지 않음) 태블로 필수 기능필터이중축지도  '평균 할인율'의 개념상품의 평균 할인율을 계산할 때 A +  B + C / 3 = 33%이렇게 단순 평균을 내는 것이 아니라상품의 가격이나 분류, 중요도에 따른 가중 평균을 내야 정..

[패캠] Tableau: 태블로 소개 및 활용

태블로 잘 하는 법:다른 사람들의 결과물 '따라 하기'  태블로 퍼블릭 사이트에자신의 결과물 올려서 포트폴리오처럼 만들 수 있음  내 태블로 퍼블릭 사이트 링크:(사진은 실제 내가 아닌 미드저니 AI로 만든 '건축 드로잉을 하는 여성') Yena Yun - Profile | Tableau PublicYena Yun's Tableau Public profile. View interactive data visualizations published by this author.public.tableau.com   데이터는 숫자인데 이를 그대로 보여줄 수 없음⇒ ‘시각화’로 한눈에 보기 쉽게 하는 것  좋은 시각화:얘기하고 싶은 내용이 한눈에 들어오는 시각화   표준편차가 무엇인가?상관 관계는 무엇인가?  ‘표준..

[패캠] Tableau: 태블로 필수 기능

데이터 준비 A. 유니온여러 개의 데이터 테이블을 '세로로'('위아래로') 붙이는 결합 작업  동작 방법1) 수동 데이터 연결창에서 특정 데이터를 하나 올리고그 아래에 추가할 데이터를 드래그주황색으로 '유니온'이라고 떴을 때 드롭  2) '유니온 변환' 사용데이터 하나 올리고우클릭 - '유니온 변환' - '와일드카드' 탭에서 '20**' 식으로 적어주면'20~'으로 시작하는 모든 파일(예: 2017, 2018, 2019, 2020)을태블로가 자동으로 불러옴  * 사전에 필요한 설정필요한 데이터들을 규칙성 있게 이름 지정하고, 같은 폴더에 넣어두기   추가 내용'유니온 변환'에서'와일드카드' 탭 선택하기 전에 '특정(수동)'이라는 탭이 있음  같은 내용의 컬럼 값인데 담당자 변경 등으로파일마다 컬럼명이 다..

[패캠] Tableau: 태블로 핵심 개념

측정값우리의 관심을 받는 대상 그 자체 우리 학급 학생들의 키를 분석할 거야우리나라 여행지에 대한 SNS 언급량을 살펴볼 거야우리 회사 매출액을 검토할 거야 차원덩어리인 측정값을 어떻게 썰어서 볼 것인가SQL에서 GROUP BY에 해당하는 것 우리 학급 학생들의 남자와 여자(성별)를 기준으로 키를 분석할 거야.우리나라 여행지에 대해 17개 광역지자체의 분류에 따라 SNS 언급량을 살펴볼 거야.우리 회사 매출액을 월별로 검토할 거야.  이분법 주의: 차원은 불연속형, 측정값은 연속형? (X) 태블로의 필드는차원과 측정값으로 나누어지고, 각 차원과 측정값은 또 다시불연속형과 연속형으로 나뉘어질 수 있다. 즉, 차원 = 불연속형, 측정값 = 연속형 아님!태블로는 항상 집계(Aggregate)해서 보여준다 측정..

Chat GPT를 활용한 기본 EDA 및 인사이트 도출 코드 (pandas)

GPT 수업 중 기본 EDA를 GPT에게 맡기는 내용이 있었다. 최근 2020년도 브런치에서 데이터 분석을 '노동집약적'이라고 표현했는데, 2024년 GPT의 결과물을 보니 그러한 요소는 앞으로 GPT가 충분히 대체할 수 있을 것 같다는 생각이 들었다. 이제 사람은 앞뒤 문제 정의와 인사이트 도출에만 힘쓰면 될 것 같다.   Q: 다음 데이터를 활용해서 pandas로 기본 EDA 진행하는 코드를 작성해줘.(+ 따로 정리 없이 표를 그대로 긁은 데이터 첨부)InvoiceNo StockCode Description Quantity InvoiceDate UnitPrice CustomerID Country 0 536365 85123A WHITE HANGING HEART T-LIGHT HOLDER 6 2010-1..

[패캠] SQL: 실무 문제 풀이 (유저 세그먼트별 + 매출 분석)

Q. 전체 유저의 Demographic을 알고 싶어요. 성/연령별로 유저 수를 알려주세요. 어느 세그먼트가 가장 숫자가 많나요? -- 참고로 기타 성별은 하나로, 연령은 5세 단위로 적당히 묶어주시고, 유저 수가 높은 순서대로 보여주세요. -- gender가 비어있는(null) 경우 Others에 하나로 묶어주기SELECT CASE WHEN gender IS NULL THEN 'Others' ELSE gender END AS gender, COUNT(*)FROM fastcampus.tbl_customerGROUP BY 1;-- IS NULL로 확인하는 위 방법은 잘 안 먹힘 (공공데이터 등 데이터가 더티할 때 종종 있는 일)-- 해결: LENGTH 함수 활용-- 'gender ..