데이터에 대해 질문하기
학습 목표
이 유닛을 완료하면 다음을 수행할 수 있습니다.
- 데이터와 차트의 소스를 조사할 수 있습니다.
- 데이터와 분석의 신뢰도를 평가할 수 있습니다.
소스 알아보기
"출판하는 이야기의 소스를 명확하게 언급하거나 링크하지 않는 출판물은 믿지 마세요." –Alberto Cairo, 데이터 시각화 전문가, 숫자는 거짓말을 한다 저자
이 유닛에 사용된 일부 이미지는 Alberto Cairo의 허가 하에 그의 저서 숫자는 거짓말을 한다: 시각 정보를 더 똑똑하게 읽기에서 발췌한 것입니다.
비즈니스 보고서부터 소셜 미디어 게시물에 이르기까지 다양한 곳에서 마주치는 데이터와 차트의 소스를 파악하고 평가하는 것이 중요합니다. 소스를 파악하는 것은 차트가 착오를 일으키는지 알아보기 위한 가장 중요한 첫 단계입니다. 질문을 통해 누가, 언제, 어디서, 무엇을, 왜 차트를 만들었는지 확인하여 소스를 파악해 보세요.
조사할 주제 |
목적 |
던질 질문 |
---|---|---|
누가 |
데이터 소스를 검사하고 정보를 특정 방식으로 생성하거나 제시함으로써 얻는 이점이 있는지 확인합니다. |
|
무엇을 |
제시된 데이터의 정확성을 확인할 수 있도록 수집된 데이터의 유형와 측정된 방식을 파악합니다. |
|
장소 |
사용된 데이터 수집 방식, 소스의 신뢰도와 맥락을 평가합니다. |
|
언제 |
데이터가 수집된 시기를 바탕으로 데이터의 연관성을 평가합니다. |
|
왜 |
데이터가 제시된 목적에 영향을 미쳤을 수 있는 잠재적인 재정적, 정치적, 과학적, 자선적 또는 기타 동기를 드러냅니다. |
|
데이터에 질문을 던지기 위해서는 데이터에 대한 데이터인 메타데이터를 연구해야 합니다. 동반된 문서를 읽고 언제, 어떻게 ,왜 데이터가 수집됐는지 등 메타데이터로부터 유용한 인사이트를 수집하세요.
숫자 검토하기
'쓰레기를 넣으면 쓰레기가 나온다'는 말을 아시나요? 이 잘 알려진 표현은 입력 데이터의 품질이 그 결과의 품질에 직접적인 영향을 준다는 의미입니다. 이 아이디어는 데이터 소비를 포함하여 다양한 것들에 적용됩니다. 불확실한 데이터를 바탕으로 만들어진 차트 같은 시각화를 보면(쓰레기가 들어감) 정확하지 않은 결론을 도출하고 효과적이지 않은 조치를 취할 위험(쓰레기가 나옴)이 있습니다. 시각화에 사용된 데이터의 품질과 정확성을 이해하기 위해서는 가능한 많은 기반 데이터를 검토하는 것이 좋습니다.
요약 값 검토하기
차트는 종종 기반 데이터를 설명하고 요약하는 요약 데이터와 함께 제공됩니다. 요약 통계라고도 하는 요약 값은 데이터에 대한 전반적인 정보를 전달하며 보통 추가적인 조사와 고려의 가치가 있는 유의미한 인사이트를 드러냅니다. 아래 표는 일반적인 요약 값에 익숙해지는 데 도움이 됩니다.
요약 값 |
설명 |
---|---|
합계 |
전체 값의 총합 |
개수 |
값의 개수 |
평균 |
전체 값의 총합(합계)을 데이터 집합에 있는 값의 개수(개수)로 나눠서 계산한 값의 평균 |
중앙값 |
값이 크기 순(작은 값에서 큰 값 순)으로 배치된 데이터 집합의 중간 값 |
최빈값 |
가장 자주 사용된 값 |
범위 |
최솟값과 최댓값의 차이 |
최소 |
가장 작은 값 |
최대 |
가장 큰 값 |
비율과 백분율 확인하기
비율과 백분율은 다양한 값들 사이의 관계를 나타냅니다. 예를 들어 프레젠테이션에 참석한 5명 중에서 3명이 뉴스레터에 가입했다면, ⅗ 또는 0.60 또는 60%의 참석자가 뉴스레터에 가입했다고 할 수 있습니다. 다음 섹션에서 보시겠지만 비율과 백분율을 알면 종종 값을 비교하는 데 도움이 됩니다.
예를 들어 'DACA 수혜자 중 2,139명이 범죄 혐의로 기소되었다'는 기사 제목을 보았다고 가정해 보겠습니다. 맥락 없이만 봤을 때 이는 상당히 큰 숫자처럼 보일 수 있습니다. 그러나 비율이나 백분율을 보면 새로운 측면이 보입니다. 같은 기사에 따르면 DACA 수혜자는 800,000만 명이 넘습니다. 비율 또는 백분율을 고려하면 2,139/800,000 또는 0.003 또는 0.3%입니다! 이 백분율은 훨씬 더 많은 정보와 맥락을 제공해주며, 전체 수혜자 중에서는 그리 큰 백분율이 아님을 알 수 있습니다.
불충분한 데이터 주의하기
"그 어떤 차트도 현실의 다양함을 완전히 담아내기 어렵습니다. 하지만 차트는 현실을 지나치게 단순화하거나 불필요한 세부 사항으로 복잡하게 만드는 것 사이에서의 균형에 따라 그 가치가 달라집니다.” –Alberto Cairo, 숫자는 거짓말을 한다
차트를 해석할 때는 해당 차트가 스토리의 중요하고 정확한 내용을 충분히 반영하는 데이터를 포함하고 있는지 확인해야 합니다. Albert Cairo는 저서 숫자는 거짓말을 한다에서 불충분한 데이터가 어떻게 잘못된 결론 도출로 이어지는지 설명합니다. 이를 입증하기 위해 Cairo는 2017년 발표된 세금 감면 및 일자리 창출 법(TCJA) 관련 기사를 예로 들었습니다. 해당 기사에서는 일반적인 4인 가족이 이 법을 통해 연간 1,182달러를 절약할 수 있을 것이라고 주장하였습니다. 그러나 Cairo는 이러한 수치가 전체적인 상황을 제대로 반영하지 않는다고 지적합니다. 보다 전체적인 이야기를 보여주기 위해 Cairo는 범위로 그룹화된 데이터를 보여주는 양적 데이터 분포인 히스토그램을 설명합니다.
히스토그램을 보면서 제시된 수치가 어떻게 과도한 단순화의 결과인지를 확인할 수 있습니다. 히스토그램에서는 다양한 소득 범위가 나타나 있습니다. 이렇게 폭넓은 소득 범위를 감안할 때, '평균적인' 소득이라는 개념 자체가 굉장히 모호하게 느껴집니다. 미국의 급여는 분명 범위가 상당히 넓습니다. 실제로 미국에서 3%의 가구는 연간 5,000달러 미만을 벌었고, 반면에 9%는 200,000달러 이상을 벌었습니다. 따라서 '평균적인' 소득을 구체적으로 계산하는 것이 거의 불가능하며, 그렇기 때문에 TCJA를 통해 절약되는 평균 금액에 대한 논의는 크게 의미가 없다고 할 수 있습니다.
다음 유닛에서는 축에서 균등한 크기의 간격이 왜 중요한지 알아봅니다.
리소스
- Trailhead: 데이터 리터러시 기본 사항
- Trailhead: 집계 및 세분화
- Trailhead: 데이터 분포
- 책: Alberto Cairo (2020): 숫자는 거짓말을 한다: 시각 정보를 더 똑똑하게 읽기, W.W. Norton & Company
- 책: Edward Tufte (2006): 아름다운 증거. Graphics Press
- Tableau 사이트: 히스토그램 이해 및 적절한 활용법
- 책: Steve Few (2012) 숫자를 보여줘, Analytics Press