본문 바로가기

공부한 것들..19

Pandas 데이터 합치기 코드 프레소 [파이썬으로 배우는 데이터 분석: Pandas] 강의 내용 정리 # 데이터 합치기..?실생활에서도 여러 데이터를 하나로 합쳐 분석을 해야하는 경우가 빈번히 발생한다. 데이터를 합칠 때 데이터의 형식 또는, 데이터에 담긴 내용이 일치하는 경우도 있겠지만 데이터 생성에 표준이 자세히 정해지지 않았다면 일치하는 경우는 드물다. 따라서 내가 원하는 형식으로 데이터를 합쳐 가공하기 위해서는 그 방법을 정확히 숙지해야한다.  Pandas 라이브러리에서는 데이터를 합치기 위한 방법으로 pandas.concat()을 제공한다. 이는 2개 이상의 Series 또는, DataFrame 객체들을 하나로 합친다. # API Reference# pandas.concatAPI Reference:: pandas.con.. 2024. 9. 14.
Pandas 데이터 그룹화 코드 프레소 [파이썬으로 배우는 데이터 분석: Pandas]  강의 내용 정리 # 데이터 그룹화..?강의 자료에서 데이터 그룹화의 예시에 아주 적합한 시각 자료가 있어 이를 활용하여 데이터 그룹화에 대해 설명하도록 하겠다.  위의 데이터에는 노선 번호별 승하차에 대한 정보가 담겨있다. 이 데이터를 그대로 사용하면 전체 데이터를 정확히 분석하기에 어려움이 있다. 따라서 이를 노선별로 그룹화하는 과정이 필요하다 위의 그림은 노선별로 mean()을 적용하여 노선별로 승하차 평균이라는 결과 집계를 얻을 수 있다. 데이터 그룹화 연산은 아래 과정을 거친다. 전체 데이터를 그룹별로 나눈다.(split) 각 그룹별로 집계함수를 적용(apply) 그룹별로 집계결과를 하나로 합친다.(combine) Pandas 라이브러.. 2024. 9. 14.
Pandas 집계함수 코드 프레소 [파이썬으로 배우는 데이터 분석 : Pandas] 강의 내용 정리# 집계함수..?Pandas에서도 Numpy와 마찬가지로 다양한 집계함수를 제공한다. 데이터가 저장된 자료구조가 DataFrame인지, Ndarray인지를 잘 파악하여 적절한 집계함수를 적용해야한다.집계함수에 대한 설명은 이전 Numpy 집계함수에 대해 정리한 포스팅 링크를 남겨두겠다.2024.09.12 - [공부한 것들../Numpy] - Numpy 집계 함수 Numpy 집계 함수# 집계함수..? 집계 함수(Aggregate Function)는 데이터를 종합하여 특정 연산을 적용하는 함수를 일컫는 말이다. Numpy의 집계함수는 아래와 같이 정리할 수 있다.  sum() :합min() : 최소값max() : 최대값cubottl.. 2024. 9. 14.
Pandas 인덱싱(Indexing) & 슬라이싱(Slicing) 코드 프레소 [파이썬으로 배우는 데이터 분석 : Pandas] 강의 내용 정리# 인덱싱 & 슬라이싱..?DataFrame에서 인덱싱은 column명을 이용하여 열 데이터 조회가 가능하다. indexing을 위한 함수는 아래와 같다. loc[] : 인덱스 명 기반 데이터 조회 iloc[]:  인덱스 번호 기반 데이터 조회DataFrame의 데이터에 접근할 때 슬라이싱 기법을 이용하면 여러 데이터를 쉽게 조회 가능하다. 슬라이싱 기법은 다음의 특징을 가지고 있다. 기본적으로 행 데이터를 기준으로 조회한다.슬라이싱 범위는 start, end, step으로 명시한다. start: 조회의 시작 위치 (optional)end: 조회의  종료 위치, end-1까지 조회 (optional)step: 조회 간격 (opt.. 2024. 9. 14.
Pandas 결측치 이해 및 결측치 처리 코드 프레소 [파이썬으로 배우는 데이터 분석 : Pandas] 강의 내용 정리  # 결측치란 ..?결측치는 누락된 값을 의미하며 Null, None, Na, NaN등으로 표기된다. 결측치 발생의 원인으로는 아래와 같다. 수집의 오류기록의 오류미응답..etc데이터에서 결측치는 언제든 생성될 수 있는 것이고 이를 데이터의 손실 없이 잘 처리하는 방법을 아는 것이 중요하다.데이터에 존재하는결측치를 처리하는 방법을 정리하면 아래와 같다.List-wise deletion  (리스트 전체 삭제): 결측값이 하나 이상 포함된 데이터를 모두 제거Pairwise deletion   (단일 값 삭제) :  결측치 단일값 삭제Simple Imputation (단순 대체법)  :해당 변수의 나머지 값들의 대표값(mean, m.. 2024. 9. 14.
Pandas 데이터 파일 읽기 코드 프레소 [파이썬으로 배우는 Pandas] 강의 내용 정리 # 데이터 파일 읽기..?Pandas 라이브러리에서는 다양한 포맷의 파일에 대한 Reader/Writer 함수를 제공한다.API Reference : Pandas IO tools 이 중 대표적으로 read_csv()와 read_excel() 2개의 함수에 대해 알아보겠다.  # csv 파일이란..?CSV(Comma Seperated Values) 파일은 말 그대로 쉼표(comma)를 기준으로 데이터를 구분하여 저장된 파일을 의미한다. 예시 코드의 실습 데이터 셋(titanic.csv)을 살펴보면 아래와 같다.https://www.kaggle.com/datasets/yasserh/titanic-dataset Titanic DatasetTitan.. 2024. 9. 14.