Skip to main content

데이터 소스 고려하기

학습 목표

이 유닛을 완료하면 다음을 수행할 수 있습니다.

  • 데이터의 맥락을 파악할 수 있습니다.
  • 데이터에 대한 질문을 식별할 수 있습니다.
  • 데이터에 누군가가 포함되거나 포함되지 않는지 여부가 분석에 영향을 미치는 이유를 이해할 수 있습니다.

데이터의 편향 제거하기

결함이 있는 데이터를 분석하려고 하면 결함이 있는 결과가 생성되는 것처럼, 결함이 있는 데이터를 시각화하려고 하면 오해의 소지가 있고 거짓 정보가 포함된 대시보드와 차트가 생성됩니다. 

'Do No Harm(해 끼치지 않기)' 원칙을 고려할 때, 데이터가 편향될 수 있는 방식 또는 인종 차별적이거나 억압적인 데이터 수집 시스템의 결과인지 여부를 확인하세요. 시각화를 수행한 데이터가 편향된 경우, 시각화는 해당 편향과 그로 인해 발생하는 피해를 더욱 크게 만듭니다.

데이터 분석의 편향을 제거하려면 어떻게 해야 할까요? 처음부터 프로젝트에 편향 없는 관점을 적용하면 됩니다. 다음과 같은 항목을 질문해 보세요.

  • 이 분석을 만드는 데 참여한 팀 구성원은 누구인가요?
  • 팀 또는 조직이 다양성을 갖추고 있나요?
  • DEI(다양성, 형평성, 포용성) 문제를 무엇보다 중요하게 여기나요?
  • 그리고 팀/조직에서 이러한 문제를 익숙하게 다룰 수 있나요?

연구 설계 방법, 데이터 수집 방법, 데이터 분석 방법 및 결과 전달 방법을 면밀히 검토하세요. 이러한 조치를 통해 모든 연구가 완벽하게 진행되는 것은 아니지만, 이처럼 더 넓은 관점은 연구, 분석 및 데이터 전달에서 편향을 제거하는 데 도움이 될 수 있습니다.

데이터의 편향 인식하기

데이터에 접근하는 데 사용할 견고한 프레임워크를 생성해 두면 데이터 분석가, 커뮤니케이터 및 연구자가 잠재적으로 편향된 데이터를 식별하고 처리하는 데 도움이 될 수 있습니다. 다음과 같은 질문을 고려해 보세요.

  • 이 데이터가 어떻게 생성되었나요?
  • 이 데이터는 왜 수집되었나요?
  • 이 데이터에는 누구의 의견, 관점 및 경험이 포함배제되었나요?
  • 이 데이터는 인종, 성별, 민족 등으로 얼마나 분리할 수 있나요?
  • 이 데이터는 인구 통계학적으로 대표성을 갖나요?
  • 이 데이터의 수집 또는 공개로 인해 누가 혜택을 받고 피해를 입을 수 있나요?

특히 사람들에 관해 수집되는 데이터는 중립적이거나 객관적이지 않습니다. 이러한 데이터는 의식적/무의식적인 편향과 연구자 또는 데이터 수집 담당자의 관점을 반영합니다. 이 점은 중요한데, DEI에 대한 인식을 갖는 것만으로는 편향된 데이터나 분석을 수정할 수 없기 때문입니다. 연구자, 분석가, 데이터 커뮤니케이터로서 여러분은 데이터에서 나타나는 편파성의 근본 원인을 파악하고 충분히 고려하여 작업을 구성해야 합니다.

포용성을 우선시하기

데이터와 시각화에 누가 포함되고 포함되지 않는지 인지하는 것이 중요합니다. 연구자로서 조직이 더 포용성 있는 설문을 진행하도록 지원할 수 있나요? 특정 그룹에 대한 데이터를 얻기가 더 어렵다고 해서 그들의 이야기를 더 잘 이해하려고 노력할 필요가 없다는 의미는 아닙니다.

특정 그룹의 데이터가 수집되지 않거나 표시되지 않는 경우, 이들이 사회에서 비교적 중요하지 않은 것으로 간주된다는 의미이기도 합니다. 반대로 여러분이 무언가를 무시하는 경우 이는 숨겨진 사회적 편견과 무관심을 의미할 수 있습니다. 이에 대한 대표적인 예시로 지도 제작을 들 수 있습니다. 미국 지도에는 일부 미국 영토가 표시되지 않는 경우가 많은데, 이로 인해 의회에 대표자가 없으며 주로 유색 인종에 속하는 전체 모집단의 존재가 지워지게 됩니다. 

그리고 인종에 대한 많은 차트의 경우 흑인, 히스패닉/라틴계, 백인은 표시되지만 기타 인종이나 민족은 표시되지 않습니다. 이는 주로 표본 크기가 작거나 데이터가 전혀 없는 등의 데이터 제한으로 인해 발생합니다. 이렇게 누락되는 그룹과 대표성이 필요한 사람들을 고려할 때, 포괄적인 데이터를 사용하는 것이 얼마나 중요한지 알고 있어야 합니다. 

데이터의 포용성 개선하기

데이터의 포용성을 최대한으로 높이려면 모든 사람에 대한 충분한 공감과 세심한 이해를 기반으로 연구를 진행하며 다음 가이드라인을 따르세요.

지나친 그룹화 지양하기

표본 크기가 작으면 분석을 더욱 간편하게 진행하기 위해 여러 모집단을 하나로 묶는 경우가 있습니다. 예를 들어, 미국 전역의 인종과 민족을 보여 주는 지도에서 어떤 그룹이 제외되었는지 설명하지 않은 채로 '다른 모든 사람'이라는 그룹을 만들 수 있습니다. 이렇게 하면 함께 그룹화되는 여러 커뮤니티에 부정적인 영향을 미칠 수 있습니다. 

이미 소외된 그룹에 대해 작은 표본 크기를 사용하는 것은 소수 모집단 특유의 제한이 아니라 특권층의 선택에 해당합니다. 하지만 실제로는 시간이나 예산 제한으로 인해 표본 크기를 작게 설정해야만 하는 경우가 있습니다. 그러나 집계된 데이터가 특정 그룹 내의 변동을 숨길 수 있는 경우, 또는 작은 표본 크기로 인해 통계 및 과학 연구를 객관적이고 정확하게 수행할 수 없는 경우를 인지하면 더 효과적인 연구를 수행할 수 있습니다. 설문을 설계 및 발행하는 데이터 생산자라면 데이터에 수집되는 그룹 수를 확장하고자 해야 합니다. 데이터 연구자와 생산자 모두 이미 소외된 커뮤니티로 책임을 돌리기보다, 모든 사람의 삶을 반영하는 데이터를 더 효과적으로 수집하기 위해 노력해야 합니다. 

논바이너리 젠더 범주 포함하기

특정 모집단이 데이터 수집에서 완전히 제외되는 경우도 있습니다. 예를 들어, 많은 주요 연방 설문에서는 성별에 대해 질문할 때 응답할 선택지로 논바이너리 또는 트랜스젠더를 제공하지 않습니다. 이러한 선택지를 사용하면 데이터에 포함된 정보와 포함되지 않은 정보를 사람들에게 명확하게 알릴 수 있습니다.

답변을 요구하는 성별 응답 선택지가 있는 성별 드롭다운 메뉴 선택: 여성, 남성, 해당 없음, 알 수 없음 및 세금 엔티티.

논바이너리 범주가 없다는 점을 짚고 넘어가면 다음 데이터 연구자 및 커뮤니케이터가 향후 설문 및 시각화에 필요한 사항을 변경하도록 도울 수 있습니다. 포용성이라는 목표를 달성하기 위해서는 데이터 생산자, 소비자 및 커뮤니케이터를 포함한 전체 협력 체계가 함께 노력해야 합니다.

'기타'에 대한 대체 항목 찾기

그룹을 분류할 때는 포용적인 표현을 사용하는 것의 중요성을 이해해야 합니다. 데이터 분석과 커뮤니케이션에 있어 올바른 접근 방법은 무엇일까요? 그리고 이러한 그룹과 소통할 때 더 포용적인 표현을 사용할 수 있나요? 먼저 해당 범주가 무엇을 측정하는지 이해해야 합니다. 여기에는 폭넓은 인종, 민족, 종교, 기타 특성과 이러한 항목의 교차점이 포함될 수 있습니다. 이러한 선택지는 자신을 일반적인 범주에 속하지 않는다고 생각하는 사람들에게 유용하지만, 이렇게 다양한 특성과 인생의 경험을 가진 사람들을 함께 그룹화하는 것이 실제로 의미가 있는지도 생각해 봐야 합니다. 

'기타'의 대안으로 사용할 수 있는 항목은 다음과 같습니다.

  • 다른 인종
  • 추가 그룹
  • 기타 모든 자체 설명
  • 다른 인종이나 여러 인종으로 식별되는 사람
  • 정체성이 선택지 중에 없음
  • 정체성이 설문에 없음

이러한 용어 중 일부는 더 장황한 의미를 가지며, 표나 막대 차트의 특정 막대에 정확하게 속하지 않을 수 있습니다. 그러나 이러한 용어는 더 포괄적이며 앞에서 언급했던 일부 문제를 방지하는 데 도움이 됩니다. 이러한 레이블은 설문에서 응답자가 선택할 수 있는 정확한 선택지가 아닐 수 있으며, 다른 선택지를 선택할 수 없었기 때문에 '기타'가 선택되었다는 점에 유의해야 합니다. 

그러한 우려가 있는 경우 원시 데이터에서 결과로의 변경을 알리는 간단한 메모 또는 주석을 포함할 수 있습니다. 하지만 이러한 대안은 일반적으로 정확한 사실이므로 그래프, 표 또는 텍스트에 별도의 메모나 주석을 추가하여 변경 사항을 명확하게 알릴 수 있습니다.

일부 그룹을 포함하지 않는 경우 설명 제공하기

인종, 성별, 연령, 교육 및 소득에 대한 범주가 포함된 차트로 선택에 따른 고용 비율을 보여 줍니다. 차트에는 또한 표본 크기 제한으로 인해 신뢰할 수 있는 추정이 허용되지 않은 이유를 설명하는 메시지 상자가 있습니다. 내용은 '고등학교 학위가 없는 아메리카 원주민 남성의 표본 크기가 너무 작아서 신뢰할 수 없습니다.'입니다.

특정 그룹에 대한 데이터가 수집되었지만 해당 그룹이 차트에 표시되지 않았거나 분석에 포함되지 않은 경우, 원래 데이터 세트에 어떤 그룹이 포함되었는지를 기록하여 방법을 투명하게 표시하세요. 또는 데이터 연구의 불일치를 기록하여 잘못된 정보를 제공하지 않도록 할 수 있습니다.

리소스

계속해서 무료로 학습하세요!
계속 진행하려면 계정을 가입하세요.
얻을 수 있는 이점
  • 커리어 목표에 대한 개인화된 권장 사항 제공받기
  • 실습 과제 및 퀴즈를 통해 스킬 연습
  • 진행 상황을 추적하고 고용주에게 공유
  • 멘토십과 커리어 기회에 연결