"순서: 데이터 탐색 - 데이터 정비 - 데이터 시각화"
지금까지 배운 파이썬 기초를 활용하여, 스타워즈 데이터* 전처리를 해보자.
* 스타워즈 API : 스타워즈 에 등장하는 캐릭터의 특징을 설명하는 데이터
[ 데이터 탐색: 스타워즈 데이터 훑어보기 ]
01. 라이브러리 기본 패키지 실행하기
데이터를 분석하는데 필요한 라이브러리 도구 모음을 불러온다.
> math, numpy: 연산, 행렬, 배열 등을 실행하고 처리하는 라이브러리
> pandas: 테이블(표)형식의 데이터를 다루는 라이브러리
> seaborn, matplotlib.pyplot : 데이터를 시각화해주 라이브러리
02. 구글 드라이브와 mount하기
구글 드라이브에 업로드한 데이터를 구글 Colab에서 사용하기 위해, Mount를 수행한다.
03. 연동된 구글 드라이브에서 starwars 데이터 가져오기
: 좌측의 폴더에서 starwars.cvs 파일을 찾아 우클릭 → 경로 복사 → 코드문에 입력
코드문 | sw = pd.read_csw ( ' 경로복사 ' ) |
(1) 화면 좌측의 폴더에서 starwars.cvs 파일을 찾기
(2) 불러오기 원하는 파일을 우클릭하여 '경로 복사' 하기
(3) 코드문에 입력하기
코드문 | sw = pd.read_csw ( ' 경로복사 ' ) |
(4) 데이터 확인하기
데이터가 어떤 종류로, 어떤 형식으로 있는지 확인해본다
코드문 | sw.head(5) |
해석 | 앞의 5개 데이터 확인하기 |
* 컬럼정보
범주형 변수 : 빈도(frequency) 계산 가능 | * 연속형 변수 : 평균, 표준편차, min/max등 수치 계산 가능 |
name, hair_color, skin_color, eye_color, sex, gender, homeworld, species |
height, mass, birth_year |
04. 데이터 내용 간단히 정리해서 출력하기
(1) 총 데이터 개수 구하기
가로(sw.shape[0])와 세로(sw.shape[1])를 곱해서 총 개수를 구할 수 있다
코드문 | print( '총 데이터 개수:' , sw.shape[0] * sw.shape[1] ) |
(2) 결측치 구하기
isnull()을 사용하면, 개별 결측치가 True값으로 출력 된다.
코드문 | sw.isnull( ) |
sum을 한 번 해주면, 각 컬럼별 결측치가 나오고
코드문 | sw.isnull().sum() |
sum을 두 번 해주면, 총 결측치가 나온다
코드문 | sw.isnull().sum().sum() |
즉 정리하면 아래와 같이 된다.
코드문 | print(' 총 결측치 수:', sw.isnull().sum().sum() ) |
(3) 등장인물 수 구하기
unique 함수에 n을 더해서, 특정 컬럼(name)에 unique한 값이 몇 개 있는지 구한다
코드문 | sw['name'].nunique() |
출처: 패스트 캠퍼스 - 한 번에 끝내는 데이터 분석 초격차 패 키지 Online: Python
'데이터 교육 > 파이썬' 카테고리의 다른 글
[파이썬] 실습 1: 스타워즈 - 데이터 정비(결측치 처리하기) (0) | 2023.12.26 |
---|---|
[파이썬] 원형차트 그리기: pie (0) | 2023.12.05 |
[파이썬] 산점도(scatterplot), 선도표(lineplot) 그리기 (0) | 2023.12.05 |
[파이썬] 막대그래프 그리기: countplot (0) | 2023.12.04 |
[파이썬] 데이터 샘플: loaded_dataset (1) | 2023.11.27 |