Tableau를 사용한 지 너무 오래된 것 같아, 복습 겸 강좌를 듣고 있습니다.
네이버 커넥트 재단 boostcourse 중 '데이터 시각화를 위한 태블로 (강승일)'을 참고하고 있습니다.
평소 파이썬으로 EDA에 활용하는 시각화들을 태블로에서 간단히 구현하는 방법을 정리해보려고 합니다.
이번 포스팅은 Basic EDA with Tableau 시리즈의 마지막 내용인 수치형 변수 간 관계 확인을 위한 시각화입니다.
사실 수치형 변수 간 관계를 파악하려고 할 때, 대부분 시각화보다는 상관계수를 많이 확인하시는 것 같습니다.
하지만 상관계수는 두 변수의 '선형' 상관성에 대한 값이기 때문에, 2차 함수 관계 등의 아주 단순한 비선형 관계성도 파악하기 어렵습니다.
수치형 변수간 시각화는 의사결정을 위한 명확한 수치적 기준은 없지만, 다양한 관계 파악이 가능하기 때문에 EDA에서 중요한 역할을 한다고 생각합니다.
1. 산점도
산점도는 수치형 변수 간 관계를 확인하는데 가장 기초적이면서도 효율적인 시각화입니다.
시각화에 사용한 기능 정리 ⬇️
- 변수 선택 : unit_no, Sale Price
- 축 편집 - 범위 조절
태블로에서는 기본적으로 mini ~ max를 전부 표현해주기 때문에 이상치가 있을 경우 분포를 확인하기 어렵습니다.
따라서 축 편집을 추가했습니다.
산점도는 변수 간 관계를 가장 직관적으로 파악할 수 있고, 적절한 함수 관계도 유추할 수 있습니다.
또한, 수치형으로 생각했던 변수가 순서형 혹은 명목형에 가까운 경우도 바로 확인할 수 있고,
모델 적합 이후에 변수와 residual을 이용해 산점도를 그리면 (residual plot) 추가적인 독립변수의 존재 가능성 등을 유추할 수도 있습니다.
2. 히트맵
시각화에 사용한 기능 정리 ⬇️
- unit_no, Sale Price - 계산된 필드 만들기 - (IF THEN ELSE END
- 변수 선택 : bin_unit_no, bin_sale_price
- 색상 : Count(데이터)
히트맵은 범주형 변수 간 관계 파악을 위한 시각화로 소개했었습니다.
사실 수치형 변수들을 히트맵으로 바로 표현할 수는 없고, binning을 통해 범주화하여 시각화를 그릴 수 있습니다.
사실 히트맵으로 알 수 있는 정보는 대부분 산점도에서도 확인할 수 있는 것 같습니다.
다만, binning으로 특정 값보다 작거나 큰 값들을 하나의 구간으로 매핑시킬 수 있기 때문에, 이상치가 존재하는 경우 번거로움이 상대적으로 적다는 장점이 있는 것 같습니다.
이로써 Basic EDA with Tableau 시리즈를 마무리하게 되었습니다.
사실 EDA는 시각화 이외에도 다양한 정보를 확인해야 하고, 시간 변수가 있을 경우 시간 변수와의 관계, 지리적 정보가 있을 경우 위도/경도와의 관계 등 파악해야할 정보가 많습니다.
또, 태블로에서 아주 쉽게 표현되는 계층적 변수에 대한 시각화 등 소개하지 못 한 여러 기능이 많습니다.
일단 여기에서 시리즈를 마무리하고, 다음 포스팅부터는 여러가지 데이터 소스를 활용해 실제로 분석 대시보드를 작성해보는 방식으로 추가적인 기능들을 다뤄보도록 하겠습니다!
'공부 > Tableau' 카테고리의 다른 글
2024 KOBIS 박스오피스 데이터 분석 대시보드 (0) | 2025.01.21 |
---|---|
Basic EDA with Tableau - 변수간 관계 확인 (범주형-수치형) (0) | 2025.01.14 |
Basic EDA with Tableau - 변수간 관계 확인 (범주형-범주형) (0) | 2025.01.14 |
Basic EDA with Tableau - 변수 분포 확인 (수치형) (0) | 2025.01.10 |
Basic EDA with Tableau - 변수 분포 확인 (범주형) (0) | 2025.01.08 |