[엑셀] 실습 3: 따릉이 데이터 분석
출처: 패스트 캠퍼스 - 한 번에 끝내는 데이터 분석 초격차 패키지 Online: Excel
목표: 서울시 지역구의 따릉이 대여소 별로, 대여율 분포도 시각화하기 (대여가 많이 발생하는 부분 표시하기) |
1. 데이터 정리 및 분류하기
필요한 데이터: 대여소 정보, 대여소 코드, 지역구, 대여소 명, 위도, 경도, 이용자 수 |
1) 대여소 정보 (필터 사용) 데이터
01) 데이터 정리하기
- 중복된 데이터 값 제거
- 불필요한 데이터 제거 (데여소 코드가 없어서 분류가 어려운 데이터를 제거한다.)
- 오름차순 정렬
02) 데이터 가공하기
- 대여소 코드와 대여소 명으로 데이터 나누기 : LEFT, FIND함수
=LEFT( $B3 , FIND(".", $B3 ) -1 ) : 점(.)을 기준으로 왼쪽값 가져오기
- VALUE함수를 사용해 숫자형식(오른쪽 정렬)으로 만들기
2) 자치구 데이터
01) 데이터 정리하기
- VLOOKUP함수를 이용해 대여소 코드별 자치구 불러오기
- 불필요한 데이터 (N/A) 제거
3) 대여소 명, 위도, 경도 데이터
- VLOOKUP함수를 이용해 필요한 데이터(대여소 이름, 위도, 경도 데이터) 불러오기
- 불필요한 값 제거 (위도, 경도 데이터의 0값)
4) 이용자 수 데이터
- 2021년 1월 (202101) 이용자 수 구하기: SUMIFS함수
=SUMIFS(더할 값들의 범위, 더할 조건 범위1, 조건1, 더할 조건 범위2, 조건2) |
→ 함수식
= SUMIFS(대여 건수, 범위1: 대여 일자 범위, 조건1: 2021년 1월, 범위2: 대여소 코드 범위, 조건2: 해당 대여소 코드)
= SUMIFS(대여 건수, 대여 일자 범위, 202101, 대여소 코드 범위, 해당 대여소 코드)
[엑셀] SUMIF(S) 함수
출처: 패스트 캠퍼스 - 한 번에 끝내는 데이터 분석 초격차 패키지 Online: Excel 1. SUMIF 함수란? 특정 조건에 맞는 데이터들의 합계를 계산하는 함수 =SUMIF(더할 조건의 범위, 조건, 더할 값들의 범위
marking.tistory.com
*SUMIFS함수 참조
2. 시각화 하기
1) 거품형 그래프 그리기
a. 빈 거품형 그래프 삽입
b. 데이터 삽입: 빈 분산형 그래프 우클릭 > 데이터 선택 > 추가
x값 | 경도 데이터 |
y값 | 위도 데이터 |
계열 거품 크기 | 2021,1월 이용자수 데이터 |
2) 그래프 가시성 좋게 정리 정리
- 데이터 계열 서식 > 거품 크기 배율을 15%로 조정
: 지역별 세세한 차이를 구별할 수 있다
- 채우기 계열: 색상 조정, 투명도 조정(50%)
: 진한 곳이 대여가 많은 곳임을 알 수 있다
- 크기, 윤곽선, 눈금선 등 그래프를 보기 좋게 정리하고
서울시 지도를 그래프 뒤에 입힌다
3) 특정 지역 강조
그래프에 강남구에 해당하는 데이터를 추가하고 색을 변경한다