개별 변수의 분포를 표시하는 방법에 대해 알아보기
학습 목표
이 유닛을 완료하면 다음을 수행할 수 있습니다.
- 데이터 분포를 정의할 수 있습니다.
- 이산 변수에 대한 빈도와 비율 분포를 구분할 수 있습니다.
개요
데이터 리터러시 빌드 트레일에서 잘 구조화된 데이터 모듈을 완료하면 데이터가 열(또는 필드)과 행으로 구성되는 방법을 배울 수 있습니다. 잘 구조화된 데이터에서 각 변수(필드)는 고유한 열에 있고 해당 변수(값)에 대한 각기 다른 관측치는 다른 행에 있습니다.
변수는 이산이나 연속일 수 있습니다. 이산 변수는 분리되고 구별되는 값을 갖는 반면, 연속 변수는 깨지지 않는 전체를 형성하는 값을 갖습니다. 변수에 대한 자세한 내용은 변수 및 필드 유형 모듈을 참조하세요.
데이터로 작업할 때 때로는 데이터 집합의 분포를 보고 싶을 수 있습니다. 분포는 가능한 모든 데이터 값과 발생 빈도(카운트)를 보여줍니다. 다시 말해, 분포는 각 데이터 값이 몇 번 발생하는지를 나타냅니다. 분포의 조직은 변수가 이산적인지 또는 연속적인지에 따라 달라집니다. 먼저 이산 변수를 살펴보겠습니다.
이산 변수 분포
이산 변수의 분포를 보면 빈도(총 개수) 또는 비율(백분율)을 알 수 있습니다. 다음은 온라인 통계 교육: 멀티미디어 연구 과정의 예시입니다. 프로젝트 리더: 라이스 대학교의 David M. Lane
사탕 색상의 빈도 분포
사탕 한 봉지에서 여섯 가지 색상이 나온다고 상상해 보세요. 가변적인 색상을 생각해 보세요. 정성적 명목 변수입니다. 따라서 이산적이라는 것을 알고 있습니다.
이산 변수는 개별적으로 계산될 수 있습니다. 당신은 사탕 봉지를 비우고 빠르게 숫자를 셉니다. 총 55개의 사탕 중 17개의 갈색, 18개의 빨간색, 7개의 노란색, 7개의 녹색, 2개의 파란색, 그리고 4개의 주황색이 있습니다.
이 퀵 카운트는 사탕 봉지에 있는 사탕 색상의 빈도 분포, 다시 말해, 각 색상의 사탕이 봉지에 몇 개가 들어 있었는지를 알려줍니다.
다음 빈도 표를 만들어 빈도 분포를 설명할 수 있습니다.
색상 |
빈도 |
---|---|
갈색 |
17 |
빨간색 |
18 |
노란색 |
7 |
녹색 |
7 |
파란색 |
2 |
주황색 |
4 |
또는 그래프를 사용하여 이 빈도 분포를 표시할 수도 있습니다. 시각 분석 플랫폼인 Tableau를 사용하여 만들었습니다.
사탕 색상 비율 분포
빈도 분포 예시는 귀하의 사탕 봉지에만 관련이 있습니다. 이 사탕의 모든 봉지에 대한 색상 분포를 알고 싶으면 어떻게 해야 하나요?
사탕 제조업체에서 몇 가지 정보를 제공하지만, 제조한 각 색상의 사탕 수를 정확하게 나열하지는 않습니다. 회사는 빈도(생산된 각 색상의 총 개수) 대신 각 색상의 비율을 보고합니다. 퍼센트는 생산된 각 색상의 백분율로, 소수로 나타낼 수 있습니다. 예를 들어, 빨간색 사탕은 0.20의 비율이며 제조되는 사탕의 20%가 빨간색 사탕이라는 것을 의미합니다.
모든 사탕 조각은 여섯 가지 색 중 하나이므로 여섯 가지 색의 비율을 모두 더하면 총합이 하나(또는 100%)가 됩니다.
이러한 비율을 나타내는 그래프를 비율 분포라고 합니다. 다음 가로 막대형 차트는 사탕 색상의 비율 분포, 다시 말해 각 사탕 색상의 비율이 총 제조된 사탕의 몇 퍼센트를 구성하는지 보여줍니다.
플래시 카드로 지식 테스트
빈도 및 비율 분포에 대한 지식을 테스트할 준비가 되셨나요? 가구, 사무용품, 기술 등 세 가지 유형의 제품을 판매하는 회사의 두 가지 유통 그래프를 살펴보세요. 첫 번째 카드는 각 제품 범주에 대한 총 주문 수의 백분율을 보여줍니다. 두 번째 카드는 각 범주의 총 주문 수를 표시합니다.
그래프를 살펴봅니다. 어떤 그래프가 빈도 분포이고 어떤 그래프가 비율 분포인가요? 오른쪽 화살표를 클릭하면 다음 카드로 이동하고, 왼쪽 화살표를 클릭하면 이전 카드로 돌아갑니다. 카드를 클릭하여 정답을 확인하세요.
이산 변수의 두 가지 분포, 빈도와 비율에 대해 알아봤습니다. 다음 유닛에서는 연속적인 값에 대한 분포를 표시하는 방법을 살펴보겠습니다.