본문 바로가기

공부7

2024 KOBIS 박스오피스 데이터 분석 대시보드 태블로에서는 시트를 모아서 대시보드를 제작할 수 있습니다.대시보드를 통해 전달하고자 하는 내용을 한눈에 들어오도록 정리할 수 있고, 클릭, 마우스오버 등을 통해 동적으로 데이터를 살펴볼 수 있기 때문에 아주 편리합니다.이번 포스팅에서는 실제 데이터를 활용해 동적 대시보드를 제작한 내용을 소개하도록 하겠습니다.데이터 소스는 문화 빅데이터 플랫폼 - 'KOBIS 박스오피스 영화정보(한국문화정보원)' 입니다.데이터는 21년 1월부터 24년 11월까지 다운로드할 수 있지만, 21년 6월 ~ 23년 10월까지는 데이터에 결측이 너무 많아서 2024년 데이터만 활용했습니다. (데이터가 온전했다면 전년 대비 성장률 등의 정보도 확인할 수 있었을 것 같은데 아쉽습니다.) 데이터 전처리먼저, 한 달 단위로 데이터 파일이.. 2025. 1. 21.
Basic EDA with Tableau - 변수간 관계 확인 (수치형-수치형) Tableau를 사용한 지 너무 오래된 것 같아, 복습 겸 강좌를 듣고 있습니다.네이버 커넥트 재단 boostcourse 중 '데이터 시각화를 위한 태블로 (강승일)'을 참고하고 있습니다.평소 파이썬으로 EDA에 활용하는 시각화들을 태블로에서 간단히 구현하는 방법을 정리해보려고 합니다. 이번 포스팅은 Basic EDA with Tableau 시리즈의 마지막 내용인 수치형 변수 간 관계 확인을 위한 시각화입니다.사실 수치형 변수 간 관계를 파악하려고 할 때, 대부분 시각화보다는 상관계수를 많이 확인하시는 것 같습니다.하지만 상관계수는 두 변수의 '선형' 상관성에 대한 값이기 때문에, 2차 함수 관계 등의 아주 단순한 비선형 관계성도 파악하기 어렵습니다.수치형 변수간 시각화는 의사결정을 위한 명확한 수치적 .. 2025. 1. 14.
Basic EDA with Tableau - 변수간 관계 확인 (범주형-수치형) Tableau를 사용한 지 너무 오래된 것 같아, 복습 겸 강좌를 듣고 있습니다.네이버 커넥트 재단 boostcourse 중 '데이터 시각화를 위한 태블로 (강승일)'을 참고하고 있습니다.평소 파이썬으로 EDA에 활용하는 시각화들을 태블로에서 간단히 구현하는 방법을 정리해보려고 합니다. 이번 포스팅에서는 범주형 변수와 수치형 변수 사이의 관계를 파악하기 위한 시각화에 대해 소개하겠습니다.한 가지 방식이지만 머신러닝의 회귀(Regression) 문제에서 가장 많이 시도하는 EDA인 것 같습니다. 1. 박스 플랏태블로에서 범주형과 수치형을 선택하면 default로 막대그래프가 추천됩니다. 하지만, 막대 그래프의 경우 평균, 빈도수 등 한 가지 통계량밖에 볼 수 없어서 분포를 확인하기 어렵습니다.따라서 막대 .. 2025. 1. 14.
Basic EDA with Tableau - 변수간 관계 확인 (범주형-범주형) Tableau를 사용한 지 너무 오래된 것 같아, 복습 겸 강좌를 듣고 있습니다.네이버 커넥트 재단 boostcourse 중 '데이터 시각화를 위한 태블로 (강승일)'을 참고하고 있습니다.평소 파이썬으로 EDA에 활용하는 시각화들을 태블로에서 간단히 구현하는 방법을 정리해보려고 합니다. 이번 시간에는 두 가지 범주형 변수 간 관계를 확인하기 위한 시각화 방법에 대해 포스팅하도록 하겠습니다.사실 범주형 변수 간 관계를 파악해야 하는 경우는 많이 없었던 것 같습니다.하지만, 머신러닝의 분류(Classification) 문제에서 target이 범주형인 경우 (이진분류 등) 독립변수와 종속변수 간 관계 파악을 위해 사용될 수 있습니다. 1. 히트맵히트맵은 범주형 변수들의 고유값의 수가 많지 않을 때 한눈에 확인.. 2025. 1. 14.
Basic EDA with Tableau - 변수 분포 확인 (수치형) Tableau를 사용한 지 너무 오래된 것 같아, 복습 겸 강좌를 듣고 있습니다.네이버 커넥트 재단 boostcourse 중 '데이터 시각화를 위한 태블로 (강승일)'을 참고하고 있습니다.평소 파이썬으로 EDA에 활용하는 시각화들을 태블로에서 간단히 구현하는 방법을 정리해보려고 합니다. 범주형 변수의 경우 값이 잘 못 들어가거나 관측치가 부족한 고유값을 쉽게 확인할 수 있습니다.하지만 수치형 변수의 경우 연속적인 범위에 분포했기 때문에 값을 눈으로 봐서는 쉽게 구분하기 어렵습니다.데이터 타입이나 변수의 특징에 따라 변수값의 가능한 범위도 고려해야 하고, 데이터의 분포를 고려해 이상치 여부를 판단해야 하는 경우도 발생합니다.이번 포스팅에는 위의 문제들을 해결할 수 있도록 단일 수치형 변수의 기본적인 시각화.. 2025. 1. 10.
Basic EDA with Tableau - 변수 분포 확인 (범주형) Tableau를 사용한 지 너무 오래된 것 같아, 복습 겸 강좌를 듣고 있습니다.네이버 커넥트 재단 boostcourse 중 '데이터 시각화를 위한 태블로 (강승일)'을 참고하고 있습니다. 평소 파이썬으로 EDA에 활용하는 시각화들을 태블로에서 간단히 구현하는 방법을 정리해보려고 합니다. 저는 EDA를 할 때 기본적으로 5가지를 확인합니다. (일반적인 지도학습 기준)변수 분포 확인 (범주형)변수 분포 확인 (수치형)변수 간 관계 확인 (범주형-범주형)변수 간 관계 확인 (수치형-수치형) 변수 간 관계 확인 (범주형-수치형)특히, 독립변수에 따른 종속 변수의 분포는 필수로 확인하는 편입니다.따라서 위 내용을 태블로로 확인하는 방법에 대해 총 5개 정도 포스팅을 진행할 계획입니다.이번 시간에는 첫 단계로 범.. 2025. 1. 8.