데이터 분석/파이썬 2

Chat GPT를 활용한 기본 EDA 및 인사이트 도출 코드 (pandas)

GPT 수업 중 기본 EDA를 GPT에게 맡기는 내용이 있었다. 최근 2020년도 브런치에서 데이터 분석을 '노동집약적'이라고 표현했는데, 2024년 GPT의 결과물을 보니 그러한 요소는 앞으로 GPT가 충분히 대체할 수 있을 것 같다는 생각이 들었다. 이제 사람은 앞뒤 문제 정의와 인사이트 도출에만 힘쓰면 될 것 같다.   Q: 다음 데이터를 활용해서 pandas로 기본 EDA 진행하는 코드를 작성해줘.(+ 따로 정리 없이 표를 그대로 긁은 데이터 첨부)InvoiceNo StockCode Description Quantity InvoiceDate UnitPrice CustomerID Country 0 536365 85123A WHITE HANGING HEART T-LIGHT HOLDER 6 2010-1..

[한글 깨짐 현상] 한글 인코딩 방식 utf-8, cp949, euc-kr 차이

크롤링을 할 때나 pandas를 사용해서 csv 파일을 읽어올 때 한글 깨짐 현상이 발생할 때가 있다. 이때 파일 저장 코드 2번째 항에 인코딩(encoding) 옵션을 명시해주면 깨짐 현상이 해결되기도 한다. 인코딩(encoding)의 개념과 utf-8, cp949, euc-kr 인코딩 방식에 대해 알아보자. 인코딩(encoding)이란?인간이 사용하는 텍스트를 기계(컴퓨터)가 이해하는 언어(= 숫자, '0101000001011..')로 표현하는 것 예: 대문자 A = 65, 소문자 a = 97인간이 사용하는 텍스트('A')를 숫자(65)로 바꿔야 기계가 알아듣는다 ASCII 테이블미국에서 만든 최초의 문자열 인코딩 방법   utf-8, cp949, euc-kr의 차이 euc-krextended uni..