데이터 특성 식별
학습 목표
이 유닛을 완료하면 다음을 수행할 수 있습니다.
- 유용한 데이터의 특성을 파악할 수 있습니다.
- 예제 데이터에서 유용한 데이터의 특성을 인식할 수 있습니다.
개요
사람들은 종종 의사 결정을 돕기 위해 데이터를 분석하여 사용합니다. 데이터 분석 준비가 완료될 때를 알 수 있는 방법을 알고 계시나요? 이 모듈에서는 "양질의" 데이터를 인식하는 방법과 필요할 때 데이터를 재구성하는 방법을 살펴보겠습니다.
이 유닛에서는 고품질의 유용한 데이터의 특성을 인식하는 방법을 살펴봅니다. 이러한 특성이 있는 데이터를 사용하면 효율적이고 생산적인 분석을 수행할 수 있습니다.
데이터 리터러시 기본 사항 모듈은 저명한 정보 기술자인 Stephen Few가 사람들이 데이터를 효과적으로 작업하는 데 도움이 되는 속성으로 확인한 특성에 대해 설명합니다. 데이터를 효과적으로 다루는 사람들이 특정한 속성을 가지고 있듯이 효과적인 데이터는 이를 유용하게 만드는 특정한 특성을 가지고 있습니다. Stephen Few에 따르면 고품질의 데이터로 작업하는 것은 중요한 인사이트를 이끌어내는 데이터 분석의 필수적인 부분입니다.
Stephen Few는 데이터 시각화 분야의 선두주자로 인정받고 있으며, 이러한 특성은 그의 저서인 Now You See It: An Introduction to Visual Data Sensemaking의 허가를 받아 각색되었습니다.
유용한 데이터의 특성
유용한 데이터에서 찾을 수 있는 특성 목록을 작성한 사람은 거의 없습니다. 이러한 특성을 읽으면서 자신의 경험을 되새겨보세요. 개인 생활이나 직장 생활에서 유용한 데이터를 접한 적이 있습니까? 이 데이터들 중 어떤 특성이 있었을까요? 개인 생활이나 직장 생활에서 유용하지 않은 데이터를 접한 적이 있습니까? 이 중 데이터가 부족한 특성은 무엇인가요?
고품질 데이터의 특성 중 일부입니다.
특성 |
설명 |
---|---|
높은 볼륨 |
관련성이 높고 사용 가능한 데이터가 많다는 것은 질문에 답하는 데 필요한 정보를 얻을 가능성이 더 높다는 것을 의미합니다. 참고: 단순히 데이터를 자체적으로 취득할 필요는 없습니다. 관련성이 중요합니다. |
내역 데이터 |
이전 내역으로 거슬러 올라가는 데이터를 통해 지난 10년 동안의 판매 동향을 보고 증가 또는 감소를 확인하는 등 시간이 지남에 따라 발생한 패턴으로 인해 현재 상황이 어떻게 발생했는지 확인할 수 있습니다. |
일관성 |
상황이 변화함에 따라 데이터는 일관성을 위해 조정되어야 합니다. 인플레이션을 위해 조정된 급여 및 가격 데이터가 좋은 예시입니다. |
다변량 |
데이터는 정성적(수치적으로 측정 가능) 변수와 정량적(수치적으로 측정할 수 없음) 변수를 모두 포함해야 합니다. 데이터에 더 많은 변수가 있을수록 더 많은 변수를 발견할 수 있습니다. |
원자 |
데이터가 세밀할수록 다양한 수준의 세부 정보를 검토할 수 있습니다. 예를 들어, 거주하는 주의 자전거 라이딩 동향을 파악하고 싶다면 이러한 동향을 카운티, 도시 및 지역별로 파악하는 것이 도움이 될 수 있습니다. |
명확함 |
데이터가 유용하려면 정확하고 완전하며 오류가 없어야 합니다. |
쉬움 |
데이터는 코드로 작성하는 것이 아니라 쉽게 이해할 수 있는 용어로 작성해야 합니다. 예를 들어, 1Fam, 2fmCon, TwnhsE보다 단독 주택, 2가구 주택, 최종 유닛 타운하우스의 주택 유형이 훨씬 이해하기 쉽습니다. |
차원으로 구조화됨 |
데이터를 구조화할 수 있는 방법은 차원(정성적 값)와 측정(정량적 값)의 두 가지 유형으로 구성하는 것입니다. Tableau가 데이터를 해석할 때 사용하는 조직 구조입니다. |
충분히 세분화됨 |
유사한 특성에 기반한 그룹은 더 쉬운 분석을 위해 데이터에 구축되어야 합니다. 예를 들어, 영화에 대한 데이터를 장르별로 분류할 수 있습니다(액션, 공상 과학, 로맨스, 코미디 등). |
알려진 페디그리 |
데이터를 신뢰하려면 데이터의 배경(출처 및 변경 방법)을 알아야 합니다. |
몇 가지 예시 데이터 고려
미국 정부의 공개 데이터에 액세스할 수 있는 웹사이트인 Data.gov에서 다운로드한 "January-reactors-operating”이라는 Excel 파일이 있다고 상상해 보세요. 이 파일에는 미국의 원자로의 위치와 전력 용량에 대한 정보가 포함되어 있습니다. 이 이미지는 데이터의 처음 16행의 스냅샷을 제공합니다.
유용한 데이터의 특성에 대해 생각해 보세요. 이 데이터 집합은 미국 정부의 공개 데이터에 액세스할 수 있는 웹사이트인 Data.gov에서 가져온 것으로, 2003년부터 2018년까지의 데이터를 포함하고 있습니다. 방금 학습한 내용을 테스트해 보겠습니다. 유용한 데이터의 두 가지 특성은 무엇인가요? 아래 활동에서 각 문장의 빈칸을 채우세요.
이제 효과적인 데이터의 몇 가지 특성을 이해할 수 있습니다. 다음 유닛에서는 데이터 구성 방법과 잘 구조화된 데이터와 잘 형식화되지 않은 데이터의 차이점을 살펴보겠습니다.
리소스
- 저서: Few, S.(2021). Now You See It: An Introduction to Visual Data Sensemaking(개정판) Analytics Press
- 웹사이트: Perceptual Edge, Stephen Few 's professional website