본문 바로가기

분류 전체보기42

Pandas 결측치 이해 및 결측치 처리 코드 프레소 [파이썬으로 배우는 데이터 분석 : Pandas] 강의 내용 정리  # 결측치란 ..?결측치는 누락된 값을 의미하며 Null, None, Na, NaN등으로 표기된다. 결측치 발생의 원인으로는 아래와 같다. 수집의 오류기록의 오류미응답..etc데이터에서 결측치는 언제든 생성될 수 있는 것이고 이를 데이터의 손실 없이 잘 처리하는 방법을 아는 것이 중요하다.데이터에 존재하는결측치를 처리하는 방법을 정리하면 아래와 같다.List-wise deletion  (리스트 전체 삭제): 결측값이 하나 이상 포함된 데이터를 모두 제거Pairwise deletion   (단일 값 삭제) :  결측치 단일값 삭제Simple Imputation (단순 대체법)  :해당 변수의 나머지 값들의 대표값(mean, m.. 2024. 9. 14.
Pandas 데이터 파일 읽기 코드 프레소 [파이썬으로 배우는 Pandas] 강의 내용 정리 # 데이터 파일 읽기..?Pandas 라이브러리에서는 다양한 포맷의 파일에 대한 Reader/Writer 함수를 제공한다.API Reference : Pandas IO tools 이 중 대표적으로 read_csv()와 read_excel() 2개의 함수에 대해 알아보겠다.  # csv 파일이란..?CSV(Comma Seperated Values) 파일은 말 그대로 쉼표(comma)를 기준으로 데이터를 구분하여 저장된 파일을 의미한다. 예시 코드의 실습 데이터 셋(titanic.csv)을 살펴보면 아래와 같다.https://www.kaggle.com/datasets/yasserh/titanic-dataset Titanic DatasetTitan.. 2024. 9. 14.
Pandas DataFrame 데이터 추가 및 삭제 코드 프레소 [파이썬으로 배우는 Pandas] 강의 내용 정리 # DataFrame 데이터 추가 및 삭제..?이전 포스팅에서 예시코드 중에 score_df['etc'] =0 을 통해 score_df에 존재하지 않는 column 인덱스인 'etc'에 0을 부여하였는데 그 결과 모든 요소가 0인 Series가 DataFrame에 추가된 것을 확인할 수 있었다. 이처럼, 데이터 추가의 방법은 아래와 같다.  [열 데이터 추가 방법] . 연산자와 인덱싱을 통해 새로운 Series를 추가하는 방식으로 접근할 수 있다. [행 데이터 추가 방법]df.loc()프로퍼티를 활용해  행 데이터에 접근하여 추가할 수 있다. 데이터를 삭제하는 방법은 df.drop()함수를 활용하여 DataFrame의 데이터를 삭제할 수 있다.. 2024. 9. 13.
Pandas 데이터 조회 및 변경 코드 프레소 [파이썬으로 배우는 Pandas] 강의 내용 정리# Pandas DataFrame 데이터 조회 방법..?이전 포스팅에서 Pandas의 DataFrame의 특징을 정리해보았는데 특징 중 하나는 2차원에 데이터를 저장한다는 것이다. 따라서, Pandas의 DataFrame의 데이터 조회는 행 데이터 조회와 열 데이터 조회로 나뉜다. [열 데이터 조회 방법]인덱싱.연산자 사용[행 데이터 조회 방법]df.loc 프로퍼티를 활용해 찾고자 하는 데이터의 인덱스를 입력 # 예시코드# DataFrame 열 데이터 조회 방법import pandas as pd # 실습 데이터 생성score = { 'name' : ['Jessi', 'Emma', 'Alex', 'Jessi', 'Tom'], 'a.. 2024. 9. 13.
Pandas 수치형 데이터 & 범주형 데이터 활용 코드 프레소 [Python으로 배우는 Pandas] 강의 내용 정리# 수치형 데이터 & 범주형 데이터..?수치형 데이터는 관측된 값이 수치로 측정되는 데이터이다. "연속형" 데이터라고도 한다.값의 평균, 중앙값, 표준편차 등과 같은 접근이 의미가 있는 데이터이다.(ex :: 키, 몸무계, 시험점수, 자동차 판매 건수 ..etc) 범주형 데이터는 데이터가 범주 또는, 항목으로 표현되는 것으로 숫자로 표현되기도 하나, 수치적인 의미가 없다.(ex:: 성별, 국적, 거주지역, 메달 순위, 설문조사 결과 ..etc) 범주형 데이터에 접근시 범주의 종류나 빈도수로 접근할 수 있다.(ex:: 요일별 커피 판매수 )  #예시 코드# 수치형 데이터 확인 및 데이터 정보 출력 import pandas as pd # 실습.. 2024. 9. 13.
Pandas 자료구조:: Series & DataFrame 코드 프레소 [파이썬으로 배우는 Pandas ] 강의 내용  정리 # Pandas...?Pandas는 데이터 분석을 위한 도구로 사용된다. Python 라이브러리이며, 2차원의 데이터로부터 의미를 도출하는 전과정에 필수적이다. Pandas의 자료구조로는 위의 그림과 같이 Series와 DataFrame이 있다. Series의 특징은 아래와 같다. 1차원의 배열구조이다.인덱스를 통한 데이터 조회 및 접근이 가능하다.동일한 데이터 타입의 값을 저장한다.  DataFrame의 특징을 정리하면 아래와 같다.행과 열을 가진 2차원이다.데이터와 행/열에 대한 인덱스가 저장된다.각 컬럼은 서로 다른 데이터 타입으로 구성될 수 있다.1개의 column은 Series객체로 구성된다. DataFrame은 다양한 형태의 d.. 2024. 9. 13.