변수 및 필드 유형 찾기
학습 목표
이 유닛을 완료하면 다음을 수행할 수 있습니다.
- 다양한 유형의 변수를 식별할 수 있습니다.
- 정성적 명목 변수, 정성적 순위 변수, 정량적 변수로 구분할 수 있습니다.
- 연속 변수와 이산 변수를 구분할 수 있습니다.
변수의 유형
잘 구조화된 데이터 모듈에서 데이터는 열, 즉 필드로 구성된다는 것을 배웠습니다. 잘 구조화된 데이터에서는 각 필드가 하나의 변수를 나타냅니다.
변수는 데이터의 기본 구성 요소입니다. 데이터를 표로 구성하면 이러한 변수는 필드(세로 열)가 됩니다. 무엇을 측정하느냐에 따라 이러한 필드는 두 가지 주요 범주로 나뉩니다.
정성적 필드(범주형): 정성적 변수는 숫자로 측정할 수 없는 특성이나 속성을 설명합니다. 데이터 집합에서는 이러한 값이 정성적 필드(열)로 나타납니다.
정량적 필드(수치형): 정량적 변수는 측정하거나 셀 수 있는 수량을 나타냅니다. 데이터 집합에서는 이러한 값이 정량적 필드(열)로 나타납니다.
정량적 데이터는 숫자를 다루기 때문에, 숫자가 수집되는 방식에 따라 다시 두 가지 유형으로 나뉩니다.
- 이산 변수: 수량으로 셀 수 있으며 값 사이에 명확한 구분이 있는 숫자입니다. 이러한 수에는 소수가 존재할 수 없습니다. 예를 들어 'Number of Items(품목 수)'는 1개나 2개일 수 있지만 1.5개는 불가능합니다.
- 연속 변수: 측정 가능한 값으로, 소수를 포함해 일정 범위 내의 어떤 값도 가질 수 있습니다. 예를 들어 'Height(키)'는 5.75피트처럼 표현될 수 있습니다.
다음 표에서 Name(이름)과 Favorite Food(좋아하는 음식) 열은 설명적 특성을 담고 있으므로 정성적 필드에 해당합니다. Age(나이)와 Height(키) 열은 수치적 측정을 담고 있으므로 정량적 필드에 해당합니다.
각 열 머리글은 고유한 변수를 나타내며, 각 행은 한 개인에 대한 데이터를 포함합니다.
이름 | 기간 | Height | Favorite food |
|---|---|---|---|
Aliya | 8 | 4'2" | Ice Cream |
Miles | 12 | 5'3" | Olive Pizza |
Penny | 42 | 5'7" | Corn on the Cob |
Vince | 39 | 5'10" | Pancakes |
위 표에서:
- Age(나이)는 이산 정량적 필드이며, 보통 나이는 정수로 셉니다.
- Height(키)는 연속 정량적 필드이며, 소수까지 정밀하게 측정할 수 있습니다).
정성적 변수의 유형
수치로 측정할 수 없는 정성적 변수는 명목 변수와 순위 변수라는 두 가지 유형으로 더 분류할 수 있습니다.
- 명목 정성적 명목 변수는 순위를 지정할 수 없는 범주입니다. 예를 들어, 바나나, 포도, 살구, 사과 등 몇 가지 종류의 과일을 생각해 보겠습니다. 변수 간에 암시적인 순위가 없으므로 명목 변수입니다. 예를 들어, 바나나는 살구보다 순위가 높지 않습니다.
명목 변수의 정의를 기억하는 한 가지 방법은 Nominal = Named입니다.
- 순위: 정성적 명목 변수와는 대조적으로 정성적 순위 변수는 우선순위가 지정될 수 있습니다. 이 값은 수치로 측정할 수 없으므로 정성적이지만 해당 값 사이에는 논리적인 순위 순서가 있습니다. 예를 들어 참여한 설문조사를 생각해 보세요. 설문 조사의 정성적 순위 값의 예시에는 전혀 없음, 때때로, 거의 대부분, 항상, 매우 불만족, 불만족, 만족하지도 불만족하지도 않음, 만족, 매우 만족이 포함됩니다.
순위 변수의 정의를 기억하는 한 가지 방법은Ordinal = Ordered입니다.
이제 이해도를 확인해 보겠습니다. 다음 작업에서 각 특성이 정성적 명목 변수인지, 정성적 순위 변수인지 또는 정량적 변수인지 결정하세요. 각 특성 집합을 해당 범주로 드래그하세요.
이산 및 연속 변수
변수에 적용할 수 있는 또 다른 분류로는 불연속형 및 연속형 변수 유형이 있습니다.
- 이산 변수: 이산 변수는 개별적으로 분리되어 구분됩니다. 즉, 개별적으로 셀 수 있는 경우 이산 변수입니다. 예를 들어, 한 가정의 자녀 수를 개별적으로 셀 수 있습니다. 한 가정은 0명의 자녀, 3명의 자녀, 6명의 자녀 등을 가질 수 있지만, 3.45명의 자녀는 가질 수 없습니다.
발의 발가락 개수와 서랍의 양말 개수의 총 합은 또한 이산 변수의 예입니다. 도시에 있는 모든 사람들의 발가락 개수의 총 합도 이산 변수입니다. 전체 발가락 개수를 개별적으로 세는 데는 오랜 시간이 소요될 수 있지만, 셀 수 있습니다.
- 연속 변수: 연속 변수는 끊김 없이 끊어지지 않는 전체를 형성하는 것을 의미합니다. 어떤 두 값 사이에 무한대의 값들이 존재하므로 유한한 시간에서 셀 수 없는 변수입니다. 예를 들어, 시간을 측정하고 싶다면 시간의 모든 단위를 더 작은 단위로 나눌 수 있습니다. 자극에 대한 반응 시간은 1.64초로 표현될 수도 있고, 1.642378765초로 표현될 수도 있습니다. 연속적인 값의 다른 예는 온도, 거리 및 질량을 포함합니다.
이 대화형 플래시 카드를 사용하여 이산 및 연속 변수에 대한 이해도를 테스트해 보세요.
각 카드의 예시를 읽고 이산 변수인지 또는 연속 변수인지 생각해 본 다음 카드를 클릭하여 정답을 표시하세요. 오른쪽 화살표를 클릭하면 다음 카드로 이동하고, 왼쪽 화살표를 클릭하면 이전 카드로 돌아갑니다.
다음 유닛에서는 데이터 시각화에서 다른 변수 유형이 어떻게 사용되는지 살펴보겠습니다.
리소스
- 저서: Lane, David M. Introduction to Statistics Online Statistics Education: An Interactive Multimedia Course of Study, 2020.
- Tableau 도움말: 차원 및 측정, 파란색 및 녹색
