본문 바로가기

데이터 교육/파이썬

[파이썬] 실습 1: 스타워즈 - 데이터 탐색

"순서: 데이터 탐색 - 데이터 정비 - 데이터 시각화"

 

지금까지 배운 파이썬 기초를 활용하여, 스타워즈 데이터* 전처리를 해보자.

* 스타워즈 API : 스타워즈 에 등장하는 캐릭터의 특징을 설명하는 데이터


[ 데이터 탐색: 스타워즈 데이터 훑어보기 ]

 

01. 라이브러리 기본 패키지 실행하기

데이터를 분석하는데 필요한 라이브러리 도구 모음을 불러온다.

 

> math, numpy: 연산, 행렬, 배열 등을 실행하고 처리하는 라이브러리

> pandas: 테이블(표)형식의 데이터를 다루는 라이브러리

> seaborn, matplotlib.pyplot : 데이터를 시각화해주 라이브러리

 

 

02. 구글 드라이브와 mount하기

구글 드라이브 업로드한 데이터를 구글 Colab에서 사용하기 위해, Mount를 수행한다.

 

 

 

03. 연동된 구글 드라이브에서 starwars 데이터 가져오기

: 좌측의 폴더에서 starwars.cvs 파일을 찾아 우클릭 → 경로 복사 → 코드문에 입력

코드문 sw = pd.read_csw ( ' 경로복사 ' )

 

 

(1) 화면 좌측의 폴더에서 starwars.cvs 파일을 찾기 

 

 

(2) 불러오기 원하는 파일을 우클릭하여 '경로 복사' 하기

 

 

 (3) 코드문에 입력하기

코드문 sw = pd.read_csw ( '  경로복사 ' )

sw는 스타워즈의 약어이다

 

 

(4) 데이터 확인하기

데이터가 어떤 종류로, 어떤 형식으로 있는지 확인해본다

코드문 sw.head(5) 
해석 앞의 5개 데이터 확인하기

 

 

* 컬럼정보

범주형 변수 : 빈도(frequency) 계산 가능 * 연속형 변수 : 평균, 표준편차, min/max등 수치 계산 가능
name, hair_color, skin_color, eye_color,
sex, gender, homeworld, species
height, mass, birth_year

 

 


 

 

04. 데이터 내용 간단히 정리해서 출력하기

(1) 총 데이터 개수 구하기

가로(sw.shape[0])와 세로(sw.shape[1])를 곱해서 총 개수를 구할 수 있다

코드문 print( '총 데이터 개수:' , sw.shape[0] * sw.shape[1] )

 

 

 

(2) 결측치 구하기

isnull()을 사용하면, 개별 결측치가 True값으로 출력 된다.

코드문 sw.isnull( )

 

 

 

sum을 한 번 해주면, 각 컬럼별 결측치가 나오고

코드문 sw.isnull().sum()

 

 

sum을 두 번 해주면, 총 결측치가 나온다

코드문 sw.isnull().sum().sum()

 

 

 

즉 정리하면 아래와 같이 된다.

코드문 print(' 총 결측치 수:', sw.isnull().sum().sum() )

 

 

 

(3) 등장인물 수 구하기

unique 함수에 n을 더해서, 특정 컬럼(name)에 unique한 값이 몇 개 있는지 구한다

코드문 sw['name'].nunique()

 

 

 

 


출처: 패스트 캠퍼스 - 한 번에 끝내는 데이터 분석 초격차 패 키지 Online: Python