자신 있게 차트 읽기
학습 목표
이 유닛을 완료하면 다음을 수행할 수 있습니다.
- 데이터 해석을 비판적으로 평가할 수 있습니다.
- 체크리스트를 사용하여 차트의 신뢰도와 정확성을 평가할 수 있습니다.
주의 깊은 해석의 중요성
차트가 정확한 소스 데이터와 적절한 디자인을 기반으로 생성되었을지라도 잘못 해석될 위험이 있습니다. 때문에 차트나 다른 데이터 시각화 도구에서 얻은 정보를 바탕으로 한 데이터 해석에 대해 비판적으로 접근하며 세세하게 분석하는 태도가 필요합니다.
차트를 읽을 때는 주요한 정보가 누락되지 않았는지 꼼꼼히 살펴봐야 합니다. 소스 데이터를 분석할 수 있다면 때로는 관련 정보가 차트에 반영되지 않았다는 사실이 발견되기도 합니다. 숨겨지거나 누락된 정보는 그러한 누락이 의도적인지 여부와 무관하게 제시된 데이터를 받아들이는 방식을 왜곡할 수 있습니다.
비교해 보기
"사고를 돕기 위해 시각적 표현을 통해 비교를 제공해야 한다." –Edward Tufte, 아름다운 증거
첫 유닛에서 배웠듯이 차트를 통해 우리는 더욱 효과적인 결정을 내릴 수 있습니다. 정보에 입각한 비교를 하고 올바른 질문에 답을 하여 좋은 의사 결정을 내리는 데 도움을 줍니다. 차트의 데이터가 얼마나 신뢰할 수 있는지만을 판단하는 것이 아니라, 그 차트가 어떤 맥락에서 어떤 비교를 제공하는지도 이해해야 합니다. 신뢰할 수 있는 데이터를 기반으로 한 차트라도, 그 차트가 중요한 질문을 제대로 다루지 않는다면 잘못된 결정을 내릴 위험이 있습니다.
큰 그림 생각하기
차트는 때때로 주어진 시나리오의 전체적인 맥락을 제대로 전달하지 못할 수 있습니다.
예를 들어 Alberto Cairo는 '숫자는 거짓말을 한다'에서 언급한 가로 막대형 차트를 보면, 차트에서는 실업률이 증가하고 있다는 점만을 강조합니다.
그러나 전체 연도 또는 여러 해에 걸친 맥락에서 두 데이터 포인트를 함께 고려하면 다른 패턴이 확인할 수 있습니다. 실업률이 2017년 7월부터 2017년 8월 사이에 오르기는 했지만, 매달 전반적인 실업률 변동 추세를 살펴보면 실업률은 하향 추세를 보이고 있습니다. 이는 완전히 다른 이야기가 됩니다.
오차 범위와 불확실성
완벽한 것은 없습니다. 데이터도 마찬가지입니다. 때로는 여론조사에서 이긴 후보가 선거에서 지는 결과에 놀라기도 합니다.
여론조사 결과를 살펴볼 때 오차 범위와 신뢰 구간은 중요한 지표입니다. 이 예시에서 오차범위는 +/- 3%p입니다. 이게 무슨 뜻일까요?
오차 범위는 조사에서 '실수'를 나타내는 것이 아니라 예측에 어느 정도의 불확실성이 있는지 알려줍니다. 보통 예측 값은 범위의 중간 지점입니다. 가만히 있지 못하는 행복한 푸들의 길이를 측정하려고 한다고 생각해 보세요. 측정을 여러 번 시도할수록 강아지의 길이에 대한 신뢰가 높아질 것입니다. 여러 번 측정해본 결과, 푸들의 평균 길이는 28인치라는 것을 알게 되었으며 각 측정마다 1인치 정도의 차이가 있었다는 사실을 알게 됩니다.
이 예에서는 “수집하고 측정하는 방법을 고려할 때 우리는 추정하려는 Rick Saccone의 값이 42와 48 사이(45보다 3포인트 크거나 작음)이며, Conor Lamb의 값은 39에서 45 사이(42보다 3포인트 크거나 작음)라고 95% 확신합니다.”라고 말할 수 있습니다.
통계학자는 오차 범위를 설명할 때 특정 신뢰 구간 또는 불확실성의 수준을 언급합니다. 통계학자가 제시하는 결과를 통해 동일한 방법으로 여러 번 조사할 경우 오차 범위 내에서 95% 확률로 결과가 나올 것이라고 확신할 수 있게 됩니다. 이 예에서는 포인트 추정치 주위의 +/- 3포인트의 신뢰 구간을 나타내는 변동 영역이 겹칩니다. 따라서 이러한 결과에서 어느 후보가 승리할 것이라는 결론을 내릴 수 없습니다. 더욱이 여론조사에서 결정을 내리지 못한 유권자의 13%를 고려한다면 어느 후보가 경선에서 승리하더라도 놀라운 결과는 아닙니다.
여론조사 결과를 살펴보면 오차 범위를 고려한 최종 결과가 어디에 위치하는지 알 수 있습니다. 오차 범위는 데이터 집합의 불확실성을 나타내는 지표입니다.
예를 들어 여론조사에서 응답자의 60%가 B 브랜드보다 A 브랜드를 선호하는 것으로 나타났다고 해 보겠습니다. 오차 범위는 2%이고, A 브랜드를 선호하는 응답자의 실제 비율은 58~62% 범위입니다.
많은 연구에서는 데이터 집합을 분석한 결과에 대한 오차 범위를 제시합니다. 오차 범위가 명시되지 않았다면 항상 어느 정도의 불확실성을 고려해야 한다는 점을 기억하세요.
오차 범위와 불확실성에 대해 더 자세히 알아보려면 데이터 비교를 위한 변수 모듈을 참조하세요.
상관관계는 인과관계를 내포하지 않는다
상관관계는 단지 변수가 얼마나 강하게 관련되어 있는지만을 보여줍니다. 그 관계가 왜 생겼는지, 어떻게 생겼는지에 대해서는 설명하지 않습니다.
예를 들어 아이스크림 매출은 선글라스 판매와 상관관계에 있습니다. 사람들이 선글라스를 샀기 때문에 아이스크림을 사는 걸까요? 아니면 그 반대일까요? 아닙니다. 두 물건을 사는 원인은 분명 다른 데 있습니다. 여기서의 실제 원인은 더운 날씨일 가능성이 큽니다.
상관관계만을 기반으로 추측을 하고 잘못된 결론을 도출하는 것은 피해야 합니다. 항상 숨겨진 다른 변수가 데이터에 보이는 결과에 영향을 미칠 수 있다는 점을 고려하세요.
신중하게 언어 선택하기
차트를 설명하고 주석을 달 때는 사용하는 언어에 주의하세요. 다음 사항을 고려해볼 수 있습니다.
- 제목과 부제가 차트를 적절하게 설명하나요?
- 차트의 레이블이 적절한가요?
- 감정이 들어간 언어가 데이터를 잘못 해석하게 만드나요?
계속 질문하기
차트나 다른 사람의 데이터 해석, 시각적 표현을 볼 때는 항상 궁금증을 갖고 질문을 던지세요. 무언가 이상하게 느껴진다면 그 이유가 무엇인지 데이터를 깊게 파악하려 노력하세요. 새로운 지식을 습득하고 호기심을 바탕으로 똑부러진 질문을 통해 주변 사람들에게 도움을 주게 될 수 있으며 이런 과정에서 자신도 놀라게 될 것입니다.
SCAM 체크리스트 사용하기
차트 검토와 주의 깊은 분석을 위해 편리한 SCAM 체크리스트를 활용해 보세요. SCAM은 Sources(소스), Charts(차트), Axes(축), Messages(메시지)를 의미합니다.
SCAM 체크리스트
체크리스트를 리마인더로 사용하여 차트를 검토할 때 다음의 질문들로 점검해 보세요.
SCAM 체크리스트 | |
---|---|
소스 |
|
차트 |
|
차트의 축 |
|
메시지(또는 해석) |
|
데이터에 대해 말하기
이제 아시겠지만 차트를 읽는 것은 생각만큼 단순하고 직관적이지 않습니다. 비판적 사고와 깊은 질문을 통해 접근하는 것이 중요합니다. 그리고 다른 사람들과 함께 데이터를 분석하면 더욱 효과적입니다. 동료나 친구들과 차트에 대한 해석과 비판의 시각을 나누어보세요. 서로의 의견을 나누며 더욱 능숙한 차트 및 데이터 해석자가 될 수 있습니다.
마무리
차트를 정확히 해석하고 착오를 일으키는 차트를 지적할 때마다 더 나은 의사결정을 할 수 있습니다. 비판적 사고와 방금 습득한 지식 및 도구들을 활용하면 차트를 분석하고 해석하는 능력을 더욱 향상할 수 있으며, 데이터와 정보를 깊게 이해하여 보다 효과적으로 활용할 수 있게 됩니다. 그럼 지금부터 차트를 완벽하게 이해하고 활용해 보세요!
자료
- Trailhead: 데이터 비교를 위한 변수
- Trailhead: 상관관계와 회귀
- 책: Edward Tufte (2006): 아름다운 증거. Graphics Press
- 책: Alberto Cairo (2016): 신뢰할 수 있는 기술: 커뮤니케이션을 위한 데이터, 차트, 지도. New Riders Publishing
- 책: Alberto Cairo (2020): 숫자는 거짓말을 한다: 시각 정보를 더 똑똑하게 읽기. W.W. Norton & Company
- 논문: Leo Yu-Hu Lo 외 (2022): 시각화에 의한 착오: 착오를 일으키는 시각화로부터 무엇을 배울 수 있나? Wiley & Sons