축 확인
학습 목표
이 유닛을 완료하면 다음을 수행할 수 있습니다.
- 축, 스케일, 간격이 차트에서 어떻게 사용되는지 설명할 수 있습니다.
- 특정 차트 유형에 적절한 축을 파악할 수 있습니다.
- 축이 일반적으로 잘못 사용되는 양식을 인식할 수 있습니다.
축이란 무엇일까요?
축은 차트에서 데이터의 구조를 정의하는 역할을 합니다. 축은 차트에 표시되는 데이터 포인트에 대해 값과 레이블을 할당할 스케일을 제공합니다.
대부분의 차트에는 두 개의 축이 있습니다.
- 가로 축은 보통 x축이라고 합니다.
- 세로 축은 보통 y축이라고 합니다.
양적 스케일과 질적 스케일 이해하기
그래프의 축과 관련하여 두 가지 스케일 유형이 있습니다.
- 질적 스케일은 음식, 주택, 의류 등 범주에 대한 레이블을 할당합니다.
- 반면 양적 스케일은 0, 5, 10과 같은 숫자 변수 값을 할당합니다.
변수와 스케일에 대해 자세히 알아보려면 변수 및 필드 유형 모듈을 완료하세요.
축이 무엇인지 배웠으니 데이터를 시각적으로 전달하는 데 사용되는 여러 그래프 유형을 살펴보겠습니다.
질적 변수 전달을 위한 그래프 유형 | |
---|---|
가로 막대형 차트에서는 높이(또는 길이)를 사용하여 범주 및 하위 범주 간 값을 비교합니다. |
|
원형 차트는 부문 간 비교 시 데이터를 전체 대비 비율로 나타냅니다. |
|
양적 변수 전달을 위한 그래프 유형 | |
---|---|
산점도에서는 두 양적 변수 간의 관계를 확인할 수 있습니다. 데이터를 좌표 평면에 나타냄으로써 각 데이터 포인트가 얼마나 멀리, 얼마나 위에 있는지 표시합니다. |
|
선 차트는 일련의 양적 값을 연결하며 종종 시계열(x축이 시간)을 표시하는 데 사용됩니다. 선 그래프 또는 선 그림이라고도 합니다. |
|
히스토그램은 데이터 집합에서 데이터의 분포와 값의 빈도를 연결된 막대로 나타냅니다. 막대의 너비는 x축의 값과 연결됩니다. 통계학자, 과학자, 분석가는 각 막대의 너비를 빈이라고 합니다. |
|
상자 수염 그림은 백분위수를 사용하여 데이터 분포를 표시합니다. 상자 그림이라고도 합니다. |
간격에 익숙해지기
간격은 양적 축에서 값(눈금) 간의 거리를 나타냅니다. 각 눈금 사이의 거리는 항상 일정해야 하며, 아니면 양적 축에서 동일한 간격이어야 합니다. 예를 들어 차트가 직원의 통근 시간을 나타내는 경우 10분의 일정한 간격이 적절할 것입니다. 일정하지 않은 간격(15분, 40분, 60분 등)은 착오와 잘못된 결론으로 이어질 수 있습니다.
다음은 Sue의 눈에 띄는 토마토 수확량 증가의 예시입니다.
위 차트를 통해 2010년의 시작부터 2022년까지 Sue가 얼마나 더 많은 토마토를 수확했는지 확인할 수 있습니다. 그런데 2016년부터 2018년까지의 데이터가 x축에서 누락된 것을 발견하셨나요? 이제 해당 기간을 포함하여 그래프를 다시 살펴봅시다.
x축 간격을 일정하게 조정함으로써 Sue의 토마토 수확량이 점진적으로 증가했음을 더욱 명확하게 파악할 수 있습니다.
간격이 일정한지 확인하는 것뿐만 아니라 누락된 데이터나 null 값에도 주의를 기울여야 합니다. 2016년부터 2018년까지 무슨 일이 있었는지 알고 계신가요? 어쩌면 Sue가 그 기간에 힘든 시기를 보냈을지도 모릅니다.
양적 데이터를 위한 그래프에 질적 축 사용 시 주의하기
질적 축으로 산점도나 선 차트, 히스토그램을 표시하려 할 때 조심하세요. 예를 들어, 특정 부문의 대출자 수에 대한 다음 차트를 검토해보세요.
이 데이터에는 가로 막대형 차트가 필요합니다! 선 차트는 주로 시간이나 날짜와 같은 순차적인 데이터를 나타낼 때 사용됩니다. 또한 선 차트는 일정한 간격의 x축을 사용하며, x축은 양적 변수를 나타냅니다. 위 예시에서 섹터 범주를 순차적으로 배열하는 것은 적절하지 않았습니다. 기준선이 중요한 모범 사례를 따르는 한 여기서는 막대형 차트가 더 적합한 선택이었을 것입니다.
0에서 시작해야 하는 가로 막대형 차트
모든 가로 막대형 차트는 0 기준선에서 시작해야 합니다. 이는 막대의 시작점이 0이라는 것을 의미합니다. 그 중요성을 더 잘 설명하기 위해 지역 판매 실적과 관련된 다음 차트를 살펴보겠습니다.
오른쪽 차트에서 x축을 보면 두 지역 간의 차이가 크게 느껴집니다. 두 번째 차트는 y축이 0이 아닌 $380K에서 시작하기 때문에 착오를 일으킵니다. 가로 막대형 차트를 해석할 때는 막대의 길이를 기준으로 합니다. 축이 $380K에서 시작하면 차이를 세 배나 크게 느끼게 됩니다. 반면 첫 번째 차트는 y축이 0에서 시작하기 때문에 더 정확한 비교가 가능합니다.
이제 변경 사이의 차이가 두 번째 차트에서 얼마나 과장됐는지 볼 수 있으며 두 차트 사이에 그렇게 큰 차이가 없다는 것을 알 수 있습니다! 이러한 이유 때문에 가로 막대형 차트를 볼 때 기준선이 0에서 시작하는지 반드시 확인해야 합니다.
0에서 시작할 수도 있는 선 차트
그러나 선 차트에는 '0부터 시작해야 한다'는 규칙이 적용되지 않습니다. 사실 때로는 선 차트의 y축이 0에서 시작하지 않는 것이 더 좋습니다. 시간에 따른 글로벌 온도에 대한 다음의 2개 선 차트를 살펴보겠습니다(데이터 소스: Graphing Global Temperature Trends).
두 번째 차트는 시간에 따른 글로벌 온도의 변화 패턴이나 인사이트를 더 명확하게 보여주는데, 그 이유는 y축이 0에서 시작하지 않기 때문입니다. 이 차트에서는 전년 대비 변화 등 이전에 눈에 띄지 않았던 세부적인 내용을 파악할 수 있습니다.
다중 축에 대한 논쟁
데이터 시각화 분야에서는 한 차트 내에 다중 축 사용의 장단점에 대해 깊은 논의가 있었습니다. 제대로 활용될 경우 다중 축은 매우 유용하지만, 때로는 오해를 불러일으키거나 잘못된 해석을 유도하기도 합니다.
다중 축 사용이 적합한 사례
다중 축은 특정 상황에서 매우 효과적으로 활용될 수 있습니다. 예를 들어 이중 y축을 사용하여 동일한 데이터 포인트를 두 가지 다른 스케일로 보여줄 때 두 가지 측정 단위(인치와 센티미터, 킬로그램과 파운드 등)로 동일한 데이터를 표시하는 경우 등에 효과적일 수 있습니다. 다음 차트에서는 y축은 화씨로 기온을, 반면 다른 y축은 섭씨로 기온을 나타냅니다.
다중 축 사용이 적합하지 않은 사례
하지만 다중 축이 의도적이든 아니든 착오나 오해를 일으키는 경우도 있습니다. 데이터 시각화 분야의 저명한 작가이자 교육자인 Lisa Charlotte Muth는 자신이 운영하는 Datawrapper 블로그에서 두 y축을 사용하는 두 가지 데이터 포인트 계열을 통해 그래프가 어떻게 오해를 불러일으킬 수 있는지 설명했습니다.
이 차트의 스케일을 주의 깊게 살펴보세요. 두 y축의 스케일이 다른데, 이로 인해 2011년의 독일 GDP와 전 세계 GDP가 동일하다는 잘못된 인식을 가질 수 있습니다. 실제로 이 두 값에는 66조 달러 이상의 큰 차이가 있습니다.
그래프를 해석할 때는 반드시 축의 스케일을 확인하여 데이터의 표현이 정확한지 확인해야 합니다!