본문 바로가기

데이터 교육/파이썬

(18)
[파이썬] 실습 1: 스타워즈 - 데이터 정비(결측치 처리하기) "순서: 데이터 탐색 - 데이터 정비 - 데이터 시각화" [ 데이터 정비: 결측치(Null값) 처리하기] 01. 결측치를 처리해야 하는 이유 앞서 스타워즈 데이터를 훑어보았을 때, 총 데이터 개수 957개 중 결측치가 105로 전체 데이터의 10% 이상의 결측치 즉, 값이 비어있는 것을 확인했다. 따라서 이 값들을 처리하는 단계를 가질 것이다. 02. NULL이 존재하는 컬럼 확인하기 (A) 어떤 컬럼에 0이 들어가 있는지를 확인하기: 함수 any(axis=0) 코드셀 sw.isnull().any(axis=0) True 값이 나온 컬럼에 Null값이 존재하는 것을 확인할 수 있다. (B) 컬럼별로 몇 개의 Null값이 있는 지 확인하기: .sum( ) 코드셀 sw.isnull().sum() >> hair..
[파이썬] 실습 1: 스타워즈 - 데이터 탐색 "순서: 데이터 탐색 - 데이터 정비 - 데이터 시각화" 지금까지 배운 파이썬 기초를 활용하여, 스타워즈 데이터* 전처리를 해보자. * 스타워즈 API : 스타워즈 에 등장하는 캐릭터의 특징을 설명하는 데이터 [ 데이터 탐색: 스타워즈 데이터 훑어보기 ] 01. 라이브러리 기본 패키지 실행하기 데이터를 분석하는데 필요한 라이브러리 도구 모음을 불러온다. > math, numpy: 연산, 행렬, 배열 등을 실행하고 처리하는 라이브러리 > pandas: 테이블(표)형식의 데이터를 다루는 라이브러리 > seaborn, matplotlib.pyplot : 데이터를 시각화해주 라이브러리 02. 구글 드라이브와 mount하기 구글 드라이브에 업로드한 데이터를 구글 Colab에서 사용하기 위해, Mount를 수행한다..
[파이썬] 원형차트 그리기: pie 문제: 영화 관람객 수를 원형차트로 작성하시오 1. 데이터 입력하기 01) 라이브러리 호출하기 표와 시각화 툴의 라이브러리를 출력한다 > pandas: 테이블(표)형식의 데이터를 다루는 라이브러리 > matplotlib.pyplot : 데이터를 시각화해주는 라이브러리 코드 입력 import matplotlib.pyplot as plt import pandas as pd 02) 필요한 데이터 입력하기 그래프로 표현할 값(영화 제목 & 누적 관객수)을 각각 리스트 형태로 변수에 입력하고, 데이터 프레임(df)을 출력하여 표의 형태로 데이터를 확인한다. 코드 입력 movie_title = ['Slamdunk', 'John Wick4', 'Elemental', 'The Marvles'] audience = [4..
[파이썬] 산점도(scatterplot), 선도표(lineplot) 그리기 산점도 그리기: scatterplot 문제: 'iris 데이터 셋'을 이용하여 sepal_length, sepal_width 별 산점도를 작성하시오 1. 데이터 정리하기 01) 라이브러리 호출하기 표와 시각화 툴의 라이브러리를 출력한다 > pandas: 테이블(표)형식의 데이터를 다루는 라이브러리 > seaborn, matplotlib.pyplot : 데이터를 시각화해주 라이브러리 코드 입력 import matplotlib.pyplot as plt import seaborn as sns sns.set(rc={'figure.figsize':(10, 5)}) import pandas as pd 02) loaded_dataset 불러오기 iris라는 데이터셋을 df라는 변수에 입력해주고, df.head 함수를..
[파이썬] 막대그래프 그리기: countplot 문제 1: (loaded.dataset) titanic 데이터 셋의 성별 인원수를 시각화 하시오. 0. barplot과 countplot의 차이 - barplot: 제공된 숫자를 가지고 그대로 시각화한다. - countplot: row데이터에서, 해당하는 숫자를 개수를 계산하여(count) 시각화한다. 1. 라이브러리 호출하기 표와 시각화 툴의 라이브러리를 출력한다 > pandas: 테이블(표)형식의 데이터를 다루는 라이브러리 > seaborn, matplotlib.pyplot : 데이터를 시각화해주 라이브러리 import matplotlib.pyplot as plt import seaborn as sns sns.set(rc={'figure.figsize':(10, 5)}) import pandas as..
[파이썬] 데이터 샘플: loaded_dataset loaded.dataset이란? 현업에서 실질적으로 많이 쓰이는 데이터들의 예시이다. csv파일 형태로 seaborn에서 저장되어 있고, 이를 활용해 데이터 시각화 연습을 해볼 수 있다. car_crashes 에 관한 데이터셋 * 데이터셋의 종류가 설명되어 있는 사이트 GitHub - mwaskom/seaborn-data: Data repository for seaborn examples Data repository for seaborn examples. Contribute to mwaskom/seaborn-data development by creating an account on GitHub. github.com 특징 1. seaborn.load_dataset이라는 명령어를 통해 사용한다. >> lo..
[파이썬] 막대 그래프 그리기: barplot 문제: 2023년 영화별 관람자 수를 막대그래프로 표현하시오 1. 라이브러리 출력 표와 시각화 툴의 라이브러리를 출력한다 > pandas: 테이블(표)형식의 데이터를 다루는 라이브러리 > seaborn: 데이터를 시각화해주 라이브러리 코드 입력 import seaborn as sns import pandas as pd 2. 데이터 입력 그래프로 표현할 값(영화 제목과 관객수를)을 각각 리스트 형태로 입력하고, 데이터 프레임(df)을 출력하면 표의 형태로 데이터를 확인할 수 있다. 코드 입력 movie_title = ['슬램덩크', '존윅4', '범죄도시3', '엘리멘탈', '더 마블스'] audience = [4775479, 1924768, 10682813, 7237592, 688915] data = {..
[파이썬] 여러 데이터를 한 차트에 그리기: matplotib 문제: data1(x : 1, 2, 3; y : 1, 2, 3) 과 data2(x : 1, 2, 3; y : 1, 4, 7) 을 그래프로 출력하시오. 0. 라이브러리 호출하기 import matplotlib.pyplot as plt 1. 리스트 형태로 데이터 입력하기 x1 = [1, 2, 3] y1 = [1, 2, 3] x2 = [1, 2, 3] y2 = [1, 4, 7] 2. 그래프 두 번 그리기 plt.plot(x1, y1, color = 'blue') plt.plot(x2, y2, color = 'red') 3. 결과 : 차트 하나에 빨간 선과 파란 선 두 가지 그래프가 그려진다 4. 범례 (라벨) 붙이기 plt.plot(x1, y1, color = 'blue', label = 'data1') pl..