Skip to main content

데이터 구성 방법 알아보기

학습 목표

이 유닛을 완료하면 다음을 수행할 수 있습니다.

  • 잘 구조화된 데이터가 어떻게 구성되어 있는지 설명할 수 있습니다.
  • 잘 구조화된 데이터와 제대로 형식화되지 않은 데이터를 구분할 수 있습니다.

개요

이전 유닛에서는 고품질의 유용한 데이터의 몇 가지 특성을 살펴봤습니다. 특히 데이터 구성과 관련된 두 가지 특성은 입체적으로 구조화되고 원자적입니다. 차원 구조화된 데이터는 차원(정성적 값)과 측정(정량적 값)의 두 가지 유형으로 구성됩니다. Tableau가 데이터를 해석할 때 사용하는 조직 구조입니다. 원자적인 데이터는 세밀하게 세분화되어 있어 다양한 세부 수준에서 데이터를 분석할 수 있습니다.

데이터가 구성되면 여러 가지 방법으로 조사, 요약, 검색 및 필터링할 수 있기 때문에 분석하기가 더 쉽습니다. 정리되지 않은 데이터는 종종 분석 방법이 제한됩니다. 예를 들어, 데이터가 이미 월별로 요약되어 있으면 일별 또는 주별 추세를 검사할 수 없습니다. 

이 유닛에서는 데이터가 얼마나 잘 구성되어 있는지 알아봅니다. 

데이터 구성

데이터는 행과 열로 구성됩니다.

  • 은 수직이며 각 열은 다른 변수(또는 필드)를 나타냅니다. 데이터 리터러시 기본 사항 모듈은 변수를 변하거나 변경될 수 있는 항목의 측정값, 속성 또는 특성으로 정의합니다. Tableau Platform에서 변수는 필드라고 합니다.
  • 은 수평이며 각 행은 하나의 분석 단위를 나타냅니다. Tableau Platform에서 분석 단위를 이라고 합니다.

예를 살펴보겠습니다. 가족이나 친구 중 몇 명을 생각해보고 이름, 연령, 키, 좋아하는 음식 등의 변수(또는 필드)를 사용하여 표를 만듭니다. 표은 아래와 같이 생겼을 수 있습니다.

Name Age Height (inches) Favorite food

Aliya

8

50" 

Ice cream

Miles

12

63”

Olive pizza

Penny

42

67”

Corn on the cob

Vince

39

70”

Pancakes

보시다시피 변수(또는 필드)는 이름, 연령, 좋아하는 음식에 대해 각각 하나의 열로 구성됩니다. 각 행은 하나의 분석 단위(또는 값)를 나타냅니다. 이 경우 모든 행을 읽으면 한 사람의 이름, 연령, 키, 좋아하는 음식이 표시됩니다. 예를 들어, 알리야는 8살이고, 키는 50 "이고, 아이스크림을 좋아합니다.

"양질"의 데이터 구성

"양질"의 데이터는 잘 구조화된 데이터이며 이러한 방식으로 구성됩니다.

  • 각 변수(필드)는 열 머리글이 있는 하나의 열에 있습니다.
  • 해당 변수(값)의 각 다른 관찰은 다른 행에 있습니다.

예를 들어, 이 간단한 표를 보세요. 변수(필드)는 공급업체, 도시이며 각 변수는 열 머리글이 있는 자체 열에 있습니다. 각 행은 변수(값)의 관찰 내용을 나열하며, 이 경우 도시 및 주별 공급업체 이름과 위치를 나열합니다. 공급업체의 상태를 자체 열에 두면 상태별로 공급업체를 검색하고 필터링할 수 있습니다. 공급업체의 도시와 주를 하나의 필드로 결합하면 이러한 유형의 분석이 더 어려워집니다. 

Vendor City State

Polly’s Lollipops

Preston

WA

Lucy’s Lollies

Lansing

MI

Carlo Callazo’s Candy

Cambridge

MA

Ming’s Minty Meringues

Madison

WI

제대로 서식이 지정되지 않은 데이터

제대로 서식이 지정되지 않은 데이터는 데이터에 혼란을 일으키거나 Tableau를 포함한 소프트웨어 프로그램이 데이터를 해석하기 어렵게 만드는 특정 특성을 포함합니다. 이러한 문제 중 일부는 다음과 같습니다.

  • 변수(필드)는 열 머리글과 함께 각각 하나의 열에 있지 않습니다.
  • 변수(값)의 각각의 다른 관찰 내용은 여러 행에 있지 않습니다.
  • 제목은 열 머리글 위의 행 또는 추가 열로 서식이 지정됩니다.
  • 여분의 열과 행이 있습니다.
  • 열 머리글은 첫 번째 행이 아닌 자막으로 서식이 지정됩니다.

예를 들어, 2019년 캘리포니아와 뉴욕에서 16,000명의 표본이 본 평균 영화 수를 기록한 표입니다.

16개의 행과 3개의 열이 있는 표로, 제대로 서식이 지정되지 않은 예를 나타내는 화살표가 있습니다.

위에 나열된 제대로 서식이 지정되지 않은 데이터의 특징이 있나요?

  • A. 행의 제목: 첫 번째 행에는 열 머리글만 포함되어야 합니다. 이 행과 아래 행은 열 머리글이 아닌 제목입니다.
  • B. 세 번째 행의 열 머리글: 강조 표시되어 있음에도 불구하고 특성 및 표본 크기 셀은 Tableau를 포함한 대부분의 소프트웨어 프로그램에서 열 머리글로서 읽히지 않습니다.
  • C. 추가 열: 보고서의 제목이지만 자체 열로 서식이 지정됩니다.
  • D. 추가 행: 상태는 변수(필드)이며 행이 아닌 열 머리글이 있는 자체 열이어야 합니다.
  • E. (및 F) 자막으로서의 변수(필드): 자막(연령대, 2019년에 본 영화의 평균 수)은 자체 열에 존재해야 하는 변수(필드)입니다.
참고

참고: 위의 문제와 같은 데이터 문제는 Excel 및 기타 스프레드시트 애플리케이션의 파일에서 흔히 발생하므로 스프레드시트 파일로 작업할 때 특히 주의해야 합니다.

이제 데이터가 어떻게 구성되어 있는지, 그리고 잘 구조화되어 있는 데이터와 제대로 서식이 지정되지 않은 데이터의 차이점을 알 수 있습니다. 다음 유닛에서는 제대로 서식이 지정되지 않은 데이터를 재구성하는 몇 가지 방법을 살펴보겠습니다.

계속해서 무료로 학습하세요!
계속 진행하려면 계정을 가입하세요.
얻을 수 있는 이점
  • 커리어 목표에 대한 개인화된 권장 사항 제공받기
  • 실습 과제 및 퀴즈를 통해 스킬 연습
  • 진행 상황을 추적하고 고용주에게 공유
  • 멘토십과 커리어 기회에 연결