본문 바로가기

전체 글42

Google Colab 로컬 GPU 연결 Windows ::Jupyter Notebook 사용 이전에 google colab에서 google drive와 mount하여 코드를 실행해보았다. 학습을 돌려보는 동안 느낀 점은 google colab에서 무료로 제공하는 gpu의 경우 데스크 탑에 연결되어있는 gpu보다 성능이 낮은 것 같아 Jupyter Notebook을 활용하여 로컬 런타임으로 gpu를 연결하고자 한다.  # Jupyter Notebook 설치나의 경우 anaconda를 설치하는 과정에서 저절로 python과 함께 설치되었다. https://www.anaconda.com/download Download Anaconda Distribution | AnacondaDownload Anaconda's open-source Distribution today. Discover the easies.. 2024. 10. 7.
Google Colab에서 Google Drive 연동 # Google Colab에서 Google Drive 연동밑바닥부터 시작하는 딥러닝 3장을 보면 MNIST 데이터 셋을 불러오는 과정에서 밑바닥부터 시작하는 딥러닝 github의 소스코드를 사용하는 부분이 존재한다. 여기서 MNIST 데이터 셋을 tensorflow나 keras로 불러올 수 있지만 책의 내용과 같게 코드를 작성하고 실행결과를 살펴보고 싶었다.과정을 정리하면 아래와 같다. # 밑바닥부터 시작하는 딥러닝 github에서 소스코드 Google Drive에 업로드 아래 링크는 밑바닥부터 시작하는 딥러닝 gihub링크이다.https://github.com/WegraLee/deep-learning-from-scratch GitHub - WegraLee/deep-learning-from-scratch.. 2024. 10. 3.
Pandas 데이터 합치기 코드 프레소 [파이썬으로 배우는 데이터 분석: Pandas] 강의 내용 정리 # 데이터 합치기..?실생활에서도 여러 데이터를 하나로 합쳐 분석을 해야하는 경우가 빈번히 발생한다. 데이터를 합칠 때 데이터의 형식 또는, 데이터에 담긴 내용이 일치하는 경우도 있겠지만 데이터 생성에 표준이 자세히 정해지지 않았다면 일치하는 경우는 드물다. 따라서 내가 원하는 형식으로 데이터를 합쳐 가공하기 위해서는 그 방법을 정확히 숙지해야한다.  Pandas 라이브러리에서는 데이터를 합치기 위한 방법으로 pandas.concat()을 제공한다. 이는 2개 이상의 Series 또는, DataFrame 객체들을 하나로 합친다. # API Reference# pandas.concatAPI Reference:: pandas.con.. 2024. 9. 14.
Pandas 데이터 그룹화 코드 프레소 [파이썬으로 배우는 데이터 분석: Pandas]  강의 내용 정리 # 데이터 그룹화..?강의 자료에서 데이터 그룹화의 예시에 아주 적합한 시각 자료가 있어 이를 활용하여 데이터 그룹화에 대해 설명하도록 하겠다.  위의 데이터에는 노선 번호별 승하차에 대한 정보가 담겨있다. 이 데이터를 그대로 사용하면 전체 데이터를 정확히 분석하기에 어려움이 있다. 따라서 이를 노선별로 그룹화하는 과정이 필요하다 위의 그림은 노선별로 mean()을 적용하여 노선별로 승하차 평균이라는 결과 집계를 얻을 수 있다. 데이터 그룹화 연산은 아래 과정을 거친다. 전체 데이터를 그룹별로 나눈다.(split) 각 그룹별로 집계함수를 적용(apply) 그룹별로 집계결과를 하나로 합친다.(combine) Pandas 라이브러.. 2024. 9. 14.
Pandas 집계함수 코드 프레소 [파이썬으로 배우는 데이터 분석 : Pandas] 강의 내용 정리# 집계함수..?Pandas에서도 Numpy와 마찬가지로 다양한 집계함수를 제공한다. 데이터가 저장된 자료구조가 DataFrame인지, Ndarray인지를 잘 파악하여 적절한 집계함수를 적용해야한다.집계함수에 대한 설명은 이전 Numpy 집계함수에 대해 정리한 포스팅 링크를 남겨두겠다.2024.09.12 - [공부한 것들../Numpy] - Numpy 집계 함수 Numpy 집계 함수# 집계함수..? 집계 함수(Aggregate Function)는 데이터를 종합하여 특정 연산을 적용하는 함수를 일컫는 말이다. Numpy의 집계함수는 아래와 같이 정리할 수 있다.  sum() :합min() : 최소값max() : 최대값cubottl.. 2024. 9. 14.
Pandas 인덱싱(Indexing) & 슬라이싱(Slicing) 코드 프레소 [파이썬으로 배우는 데이터 분석 : Pandas] 강의 내용 정리# 인덱싱 & 슬라이싱..?DataFrame에서 인덱싱은 column명을 이용하여 열 데이터 조회가 가능하다. indexing을 위한 함수는 아래와 같다. loc[] : 인덱스 명 기반 데이터 조회 iloc[]:  인덱스 번호 기반 데이터 조회DataFrame의 데이터에 접근할 때 슬라이싱 기법을 이용하면 여러 데이터를 쉽게 조회 가능하다. 슬라이싱 기법은 다음의 특징을 가지고 있다. 기본적으로 행 데이터를 기준으로 조회한다.슬라이싱 범위는 start, end, step으로 명시한다. start: 조회의 시작 위치 (optional)end: 조회의  종료 위치, end-1까지 조회 (optional)step: 조회 간격 (opt.. 2024. 9. 14.
Pandas 결측치 이해 및 결측치 처리 코드 프레소 [파이썬으로 배우는 데이터 분석 : Pandas] 강의 내용 정리  # 결측치란 ..?결측치는 누락된 값을 의미하며 Null, None, Na, NaN등으로 표기된다. 결측치 발생의 원인으로는 아래와 같다. 수집의 오류기록의 오류미응답..etc데이터에서 결측치는 언제든 생성될 수 있는 것이고 이를 데이터의 손실 없이 잘 처리하는 방법을 아는 것이 중요하다.데이터에 존재하는결측치를 처리하는 방법을 정리하면 아래와 같다.List-wise deletion  (리스트 전체 삭제): 결측값이 하나 이상 포함된 데이터를 모두 제거Pairwise deletion   (단일 값 삭제) :  결측치 단일값 삭제Simple Imputation (단순 대체법)  :해당 변수의 나머지 값들의 대표값(mean, m.. 2024. 9. 14.
Pandas 데이터 파일 읽기 코드 프레소 [파이썬으로 배우는 Pandas] 강의 내용 정리 # 데이터 파일 읽기..?Pandas 라이브러리에서는 다양한 포맷의 파일에 대한 Reader/Writer 함수를 제공한다.API Reference : Pandas IO tools 이 중 대표적으로 read_csv()와 read_excel() 2개의 함수에 대해 알아보겠다.  # csv 파일이란..?CSV(Comma Seperated Values) 파일은 말 그대로 쉼표(comma)를 기준으로 데이터를 구분하여 저장된 파일을 의미한다. 예시 코드의 실습 데이터 셋(titanic.csv)을 살펴보면 아래와 같다.https://www.kaggle.com/datasets/yasserh/titanic-dataset Titanic DatasetTitan.. 2024. 9. 14.
Pandas DataFrame 데이터 추가 및 삭제 코드 프레소 [파이썬으로 배우는 Pandas] 강의 내용 정리 # DataFrame 데이터 추가 및 삭제..?이전 포스팅에서 예시코드 중에 score_df['etc'] =0 을 통해 score_df에 존재하지 않는 column 인덱스인 'etc'에 0을 부여하였는데 그 결과 모든 요소가 0인 Series가 DataFrame에 추가된 것을 확인할 수 있었다. 이처럼, 데이터 추가의 방법은 아래와 같다.  [열 데이터 추가 방법] . 연산자와 인덱싱을 통해 새로운 Series를 추가하는 방식으로 접근할 수 있다. [행 데이터 추가 방법]df.loc()프로퍼티를 활용해  행 데이터에 접근하여 추가할 수 있다. 데이터를 삭제하는 방법은 df.drop()함수를 활용하여 DataFrame의 데이터를 삭제할 수 있다.. 2024. 9. 13.
Pandas 데이터 조회 및 변경 코드 프레소 [파이썬으로 배우는 Pandas] 강의 내용 정리# Pandas DataFrame 데이터 조회 방법..?이전 포스팅에서 Pandas의 DataFrame의 특징을 정리해보았는데 특징 중 하나는 2차원에 데이터를 저장한다는 것이다. 따라서, Pandas의 DataFrame의 데이터 조회는 행 데이터 조회와 열 데이터 조회로 나뉜다. [열 데이터 조회 방법]인덱싱.연산자 사용[행 데이터 조회 방법]df.loc 프로퍼티를 활용해 찾고자 하는 데이터의 인덱스를 입력 # 예시코드# DataFrame 열 데이터 조회 방법import pandas as pd # 실습 데이터 생성score = { 'name' : ['Jessi', 'Emma', 'Alex', 'Jessi', 'Tom'], 'a.. 2024. 9. 13.
Pandas 수치형 데이터 & 범주형 데이터 활용 코드 프레소 [Python으로 배우는 Pandas] 강의 내용 정리# 수치형 데이터 & 범주형 데이터..?수치형 데이터는 관측된 값이 수치로 측정되는 데이터이다. "연속형" 데이터라고도 한다.값의 평균, 중앙값, 표준편차 등과 같은 접근이 의미가 있는 데이터이다.(ex :: 키, 몸무계, 시험점수, 자동차 판매 건수 ..etc) 범주형 데이터는 데이터가 범주 또는, 항목으로 표현되는 것으로 숫자로 표현되기도 하나, 수치적인 의미가 없다.(ex:: 성별, 국적, 거주지역, 메달 순위, 설문조사 결과 ..etc) 범주형 데이터에 접근시 범주의 종류나 빈도수로 접근할 수 있다.(ex:: 요일별 커피 판매수 )  #예시 코드# 수치형 데이터 확인 및 데이터 정보 출력 import pandas as pd # 실습.. 2024. 9. 13.
Pandas 자료구조:: Series & DataFrame 코드 프레소 [파이썬으로 배우는 Pandas ] 강의 내용  정리 # Pandas...?Pandas는 데이터 분석을 위한 도구로 사용된다. Python 라이브러리이며, 2차원의 데이터로부터 의미를 도출하는 전과정에 필수적이다. Pandas의 자료구조로는 위의 그림과 같이 Series와 DataFrame이 있다. Series의 특징은 아래와 같다. 1차원의 배열구조이다.인덱스를 통한 데이터 조회 및 접근이 가능하다.동일한 데이터 타입의 값을 저장한다.  DataFrame의 특징을 정리하면 아래와 같다.행과 열을 가진 2차원이다.데이터와 행/열에 대한 인덱스가 저장된다.각 컬럼은 서로 다른 데이터 타입으로 구성될 수 있다.1개의 column은 Series객체로 구성된다. DataFrame은 다양한 형태의 d.. 2024. 9. 13.