Tableau를 사용한 지 너무 오래된 것 같아, 복습 겸 강좌를 듣고 있습니다.
네이버 커넥트 재단 boostcourse 중 '데이터 시각화를 위한 태블로 (강승일)'을 참고하고 있습니다.
평소 파이썬으로 EDA에 활용하는 시각화들을 태블로에서 간단히 구현하는 방법을 정리해보려고 합니다.
저는 EDA를 할 때 기본적으로 5가지를 확인합니다. (일반적인 지도학습 기준)
- 변수 분포 확인 (범주형)
- 변수 분포 확인 (수치형)
- 변수 간 관계 확인 (범주형-범주형)
- 변수 간 관계 확인 (수치형-수치형)
- 변수 간 관계 확인 (범주형-수치형)
특히, 독립변수에 따른 종속 변수의 분포는 필수로 확인하는 편입니다.
따라서 위 내용을 태블로로 확인하는 방법에 대해 총 5개 정도 포스팅을 진행할 계획입니다.
이번 시간에는 첫 단계로 범주형 변수의 분포를 확인하는 시각화에 대해 다뤄보겠습니다.
1. 막대 그래프
막대 그래프는 범주형 변수의 분포를 파악하는 가장 기본적인 방법인 것 같습니다. 태블로에서도 차원(범주형 변수)를 1개 선택하면 기본적으로 막대 그래프를 가장 먼저 추천해줍니다.
시각화에 사용한 기능 정리 ⬇️
- 변수명 선택 : City Name, Count(데이터)
- City Name 집합 변수 생성 (City Name 우클릭 - 집합 - 조건 - 필드 기준 - Count(데이터) >= 3000)
- 레이블 : Count(데이터) (서식 - 숫자(K))
- 분석 - 상수 라인 - 3000
막대 그래프는 각 변수값들의 빈도수 차이를 한 눈에 확인하기에 좋았습니다.
또한, 분석 메뉴를 통해 평균이나 사분위수, 상수 line을 그릴 수 있어서 좋았습니다.
색상에 빈도수를 설정하면 빈도수가 많은 데이터부터 그라데이션으로 색상을 표시할 수도 있습니다.
보통 범주형 변수의 고유값이 여러개이면, 빈도수가 상대적으로 너무 부족한 값이 있는 경우가 많습니다.
그런 값을 확인하고 필터링하는 기준을 파악하기에 가장 적합한 형태인 것 같습니다.
2. 파이차트 (도넛차트)
파이차트도 범주형 변수의 분포를 파악하기에 굉장히 좋은 시각화입니다. 특히, 비율을 비교할 때 좋습니다.
시각화에 사용한 기능 정리 ⬇️
- 변수명 선택 : City Name & Count(데이터)
- 색상 : City Name
- 각도 : Count(데이터)
- 레이블 : City Name, Count(데이터)
- 열 추가 & 이중 축 (내부 구멍)
- 크기 조절 & 색상 조절
- 레이블 Count(데이터)
전체 빈도수를 표현하기 위해 도넛 차트로 표현했습니다.
고유값별로 전체 데이터 중 차지하는 비율을 파악하기에 좋았고, 비율을 비교하기에도 좋았습니다.
색상을 선택할 때, 그라데이션이 있는 색상표를 선택해서 비율이 높은것부터 차례대로 표현할 수도 있습니다.
도넛 차트의 중간에 전체 빈도수, 변수명 등 다양한 설명을 추가할 수 있고, 각 고유값별로 빈도수도 레이블을 설정하면 좋을 것 같습니다. 다만 레이블이 겹쳐서 비율이 적은 고유값들은 레이블이나 수치가 표현되지 못하는 단점이 있습니다.
3. 트리맵
고유값의 개수가 여러개인 경우에는 트리맵으로 표현하는 것도 좋은 방법인 것 같습니다.
시각화에 사용한 기능 정리 ⬇️
- 변수명 선택 : City Name & Count(데이터)
- 색상 : Count(데이터)
- 레이블 : City Name, Count(데이터), Count(데이터)의 비율%
트리맵도 고유값들의 비율을 직관적으로 표현할 수 있는 점이 좋았습니다.
특히, 고유값의 개수가 많은 경우에는 소수 빈도수인 고유값을 표현하기에 파이차트보다 유리하다고 생각됩니다.
다만, 파이차트와 마찬가지로 소수 빈도인 고유값들의 영역이 너무 작아서 레이블을 표시하기 어려웠고, 면적으로 나타나기 때문에 PARKER와 LITTLETON이 수치상으로 3배 차이나는데 이런 점이 정확히 표현되지는 않는 느낌이 듭니다.
이번 포스팅에서는 범주형 변수의 분포를 확인할 수 있는 3가지 시각화에 대해 소개했습니다.
다음 포스팅에는 수치형 변수 시각화에 대해 다뤄보도록 하겠습니다!
'공부 > Tableau' 카테고리의 다른 글
Basic EDA with Tableau - 변수간 관계 확인 (수치형-수치형) (0) | 2025.01.14 |
---|---|
Basic EDA with Tableau - 변수간 관계 확인 (범주형-수치형) (0) | 2025.01.14 |
Basic EDA with Tableau - 변수간 관계 확인 (범주형-범주형) (0) | 2025.01.14 |
Basic EDA with Tableau - 변수 분포 확인 (수치형) (0) | 2025.01.10 |
Basic EDA with Tableau - 태블로 시작하기 (0) | 2025.01.08 |