Tableau를 사용한 지 너무 오래된 것 같아, 복습 겸 강좌를 듣고 있습니다.
네이버 커넥트 재단 boostcourse 중 '데이터 시각화를 위한 태블로 (강승일)'을 참고하고 있습니다.
평소 파이썬으로 EDA에 활용하는 시각화들을 태블로에서 간단히 구현하는 방법을 정리해보려고 합니다.
이번 시간에는 두 가지 범주형 변수 간 관계를 확인하기 위한 시각화 방법에 대해 포스팅하도록 하겠습니다.
사실 범주형 변수 간 관계를 파악해야 하는 경우는 많이 없었던 것 같습니다.
하지만, 머신러닝의 분류(Classification) 문제에서 target이 범주형인 경우 (이진분류 등) 독립변수와 종속변수 간 관계 파악을 위해 사용될 수 있습니다.
1. 히트맵
히트맵은 범주형 변수들의 고유값의 수가 많지 않을 때 한눈에 확인하기 좋은 시각화입니다.
시각화에 사용한 기능 정리 ⬇️
- 변수 선택 : unit_no, Sale Price
- 축 편집 - 범위 조절
지역별로 부동산의 condition이 많이 차이났다면, 히트맵으로 그렸을 때 그 차이를 확인하기 좋았을 것 같습니다.
다만 이 데이터에서는 특정 범주에 대부분의 관측치가 몰려있어서 관계 파악에 어려움이 있었습니다.
변수들의 고유값이 많을 때 이외에도 범주별 관측치 수 차이가 많이 나는 경우 인사이트를 얻기에 어려움이 있는 것 같습니다.
2. 누적막대그래프
시각화에 사용한 기능 정리 ⬇️
- 변수 선택 : City Name, Count(데이터)
- 색상 : Quality Code
- Count(데이터) 우클릭 - 퀵 테이블 계산 - 구성비율
- Count(데이터) 우클릭 - 계산 대상 - Quality Code
빈도수 그래프를 그릴 경우 2번까지, 비율 그래프를 그릴 경우 4번까지.
빈도수로 누적막대그래프를 그릴 경우 변수간 관계와 함께 빈도수를 명확히 파악할 수 있었습니다.
비율로 누적막대그래프를 그릴 경우 빈도수가 작은 범주들도 비율을 명확히 파악할 수 있었습니다.
다만 두 가지를 동시에 고려하기는 어려웠습니다. 하지만 1. 단일 변수에 대한 분포 EDA에서 빈도수가 일정 수준 이하인 범주를 drop 했을 때 비율 누적막대그래프 자체가 의미 있는 인사이트가 될 것 같습니다.
다음 포스팅에서는 범주형과 수치형 변수 간 관계 파악을 위한 시각화에 대해 소개하도록 하겠습니다.
'공부 > Tableau' 카테고리의 다른 글
Basic EDA with Tableau - 변수간 관계 확인 (수치형-수치형) (0) | 2025.01.14 |
---|---|
Basic EDA with Tableau - 변수간 관계 확인 (범주형-수치형) (0) | 2025.01.14 |
Basic EDA with Tableau - 변수 분포 확인 (수치형) (0) | 2025.01.10 |
Basic EDA with Tableau - 변수 분포 확인 (범주형) (0) | 2025.01.08 |
Basic EDA with Tableau - 태블로 시작하기 (0) | 2025.01.08 |