Tableau를 사용한 지 너무 오래된 것 같아, 복습 겸 강좌를 듣고 있습니다.
네이버 커넥트 재단 boostcourse 중 '데이터 시각화를 위한 태블로 (강승일)'을 참고하고 있습니다.
평소 파이썬으로 EDA에 활용하는 시각화들을 태블로에서 간단히 구현하는 방법을 정리해보려고 합니다.
범주형 변수의 경우 값이 잘 못 들어가거나 관측치가 부족한 고유값을 쉽게 확인할 수 있습니다.
하지만 수치형 변수의 경우 연속적인 범위에 분포했기 때문에 값을 눈으로 봐서는 쉽게 구분하기 어렵습니다.
데이터 타입이나 변수의 특징에 따라 변수값의 가능한 범위도 고려해야 하고, 데이터의 분포를 고려해 이상치 여부를 판단해야 하는 경우도 발생합니다.
이번 포스팅에는 위의 문제들을 해결할 수 있도록 단일 수치형 변수의 기본적인 시각화 방법에 대해 소개합니다.
1. 히스토그램
시각화에 사용한 기능 정리 ⬇️
- 변수명 선택 : Sale Price
- 히스토그램
- 레이블 : Count(데이터)
- 구간차원 - 필터 - 원하는 개수 선택
히스토그램은 수치형 변수의 분포를 파악할 수 있는 가장 강력한 시각화라고 생각합니다.
히스토그램을 처음 그렸을 때, 이상치로 보이는 몇 개의 값 때문에 너무 멀리 그려졌습니다.
대부분 값들이 분포하고 있는 초반부의 분포를 제대로 파악하기 어려워서 필터링으로 앞부분만 다시 그려보았습니다.
보통 변수 간 관계가 있을 경우 (수치형 변수에 영향을 미치는 다른 요인이 있는 경우) 히스토그램을 그렸을 때 두 개 이상의 분포가 합쳐진 것 처럼 봉우리가 두 개 이상으로 나타나게 됩니다.
이런 부분을 확인할 수도 있고, 이상치에 대한 대략적인 파악도 가능하고, binning의 간격에 따라 세부적으로도 그려볼 수 있기 때문에 여러모로 활용도가 좋다고 생각합니다.
2. 박스 플랏
시각화에 사용한 기능 정리 ⬇️
- 변수 선택 : Sale Price
- 집계 제거 (메뉴 - 차원)
- 분석 - 박스 플랏 or 우클릭 - 요약
박스플랏만 보는 경우엔 중앙값을 크게 벗어난 값들을 확인하기 어렵기 때문에 해당 변수의 간트차트를 함께 그렸습니다.
요약 통계량(사분위수 등)을 확인하기 위해 간트차트에 우클릭하여 '요약'을 선택할 수도 있고, 분석 - 박스플랏을 선택할 수도 있습니다. 여기에서는 두 가지 모두 선택해보았습니다.
박스플랏은 데이터의 정상 범위 (이상치 여부)를 파악하기에 좋았습니다. 히스토그램은 분포를 파악할 수는 있지만 사분위수 구간 등의 요약 통계의 위치를 확인하기는 어렵습니다. 히스토그램으로 변수의 전반적인 분포를 파악하고, 박스플랏으로 이상치에 대한 판단을 하는 흐름으로 분석하면 좋을 것 같습니다.
이번 포스팅에서는 태블로로 할 수 있는 기본적인 수치형 변수 시각화 방법 2가지를 알아봤습니다.
사실 제가 태블로를 많이 활용해보지 못했기 때문에 이보다 더 많은 시각화와 기능을 사용할 수 있을 수 있습니다.
하지만 이 두 가지 시각화만으로도 단일 수치형 변수에 대한 핵심적인 인사이트를 파악할 수 있을 것 같습니다.
다음 포스팅부터는 두가지 이상의 변수들에서 관계를 파악할 수 있는 태블로 기능을 알아보도록 하겠습니다.
'공부 > Tableau' 카테고리의 다른 글
Basic EDA with Tableau - 변수간 관계 확인 (수치형-수치형) (0) | 2025.01.14 |
---|---|
Basic EDA with Tableau - 변수간 관계 확인 (범주형-수치형) (0) | 2025.01.14 |
Basic EDA with Tableau - 변수간 관계 확인 (범주형-범주형) (0) | 2025.01.14 |
Basic EDA with Tableau - 변수 분포 확인 (범주형) (0) | 2025.01.08 |
Basic EDA with Tableau - 태블로 시작하기 (0) | 2025.01.08 |