본문 바로가기

데이터 교육/엑셀

[엑셀] 실습 4: 개인 대출 데이터 분석

출처: 패스트 캠퍼스 - 한 번에 끝내는 데이터 분석 초격차 패키지 Online: Excel


 

목표: 대출을 받은 사람과 받지 못한 사람의 여러 데이터들(소득이나 신용카드 사용량 등)이
어떤 관계를 가지고 있는지 분석하고 시각화하기

 

1. 데이터 전처리

1) 피벗 테이블을 삽입하여 데이터 그룹화 하기: Age

 

- 전체로 나열되어 있는 나이 데이터를 연령대(10대별)별로 '그룹'(마우스 우클릭) 하기

 

 

- 시작과 끝에 체크박스✅를 해제하고, 원하는 시작값(20)과 끝값(70), 단위값(10)을 입력한다

 

 

- 다른 데이터(경력연수, 수입, 가족수, 교육년수)도 해석하기 편한 단위별로 그룹화를 해준다

 

 


 

2. 박스플랏과 산점도 그리기

1) 두집단간의 수입 비교: 상자수염 그래프

0 (NO) 대출 받지 않은 사람
1 (YES) 대출 받은 사람

- 박스플롯의 위치를 통해 NO 집단의 소득이 더 낮은 것을 확인할 수 있다.

cf. 피벗테이블에 있는 데이터로 그래프를 만들 수 없기때문에, 데이터를 옆으로 따로 빼서 처리해야한다.

cf. 스크롤 하기에 너무 많은 데이터는 [맨 위값 드래그 → 커서로 맨 아래값으로 이동 shift를 누른 상태로 맨 아래값 드래그] 

 

 


 

2) 신용카드 사용량과 수입에 따른 대출 분석: 분산형 그래프

 

- 피벗테이블을 통해 필요한 데이터를 추출하고, 그래프에 넣을 수 있도록 데이터 값을 따로 정리한다

ㄴ 왜냐하면 피벗 테이블에 있는 데이터를 넣을 수 없기 때문

 

 

- NO집단의 데이터를 삽입하여 분산형 그래프를 그린다.

x값 수입
y값 신용카드 사용량

 

 

- 같은 분산형 그래프에 YES집단 데이터 추가하기

 

 

 

* 결과 분석

- 그래프 결과를 보면, X축의 10만달러 이하는 거의 파란색(대출 받지 않은 분포)이다.

= 수입이 10만달러 이하인 사람들은 대출을 받은 수가 현저히 적다.

 

- Y축도 마찬가지이다. 

= 신용카드 사용량이 낮은 사람들은 대출을 받은 수가 현저히 적다.

 

즉, 수입과 신용카드 사용량이 낮은 사람들은 대출을 거의 받지 못한 것을 알 수 있다.