Skip to main content

데이터와 그 중요성 이해하기

학습 목표

이 유닛을 완료하면 다음을 수행할 수 있습니다.

  • 표, 텍스트, 이미지, 오디오 및 비디오와 같은 데이터 유형과 형식을 이해합니다.
  • 기술을 사용하여 데이터 소스의 유형과 데이터 수집 방법을 식별합니다.
  • 저품질의 데이터가 의사 결정에 미치는 영향을 이해합니다.

데이터 분류 및 유형

데이터는 현대 산업의 필수 구성 요소입니다. 따라서 다양한 유형의 데이터, 데이터 소스 및 수집 방법, AI에서 데이터가 차지하는 중요성을 이해하는 것이 중요합니다.

데이터 분류

데이터는 정형, 비정형, 반정형의 세 가지 주요 범주로 분류할 수 있습니다. 

  • 정형 데이터는 표나 스프레드시트 등의 특정 방식으로 구성되며 형식이 지정되어 있습니다. 형식이 잘 정의되어 있으며 손쉽게 검색 및 분석할 수 있습니다. 정형 데이터의 예시로는 스프레드시트, 데이터베이스, 데이터 레이크, 데이터 웨어하우스 등이 있습니다.
  • 반면 비정형 데이터는 특정 방식으로 형식이 지정되어 있지 않으며 텍스트 문서, 이미지, 오디오, 비디오 등을 포함할 수 있습니다. 비정형 데이터는 분석이 더 어렵지만, 고객 행동과 시장 추세에 대해 중요한 인사이트를 제공할 수 있습니다. 비정형 데이터로는 소셜 미디어 게시물, 고객 리뷰, 이메일 메시지 등이 있습니다.
  • 반정형 데이터는 정형 데이터와 비정형 데이터의 조합입니다. 반정형 데이터는 정의된 구조를 갖지만 비정형 요소도 포함할 수 있습니다. 반정형 데이터의 예시로는 XML(확장 가능한 마크업 언어) 또는 JSON(JavaScript 개체 표기법) 파일이 있습니다.

데이터 형식

데이터는 형식에 따라 분류할 수도 있습니다. 

  • 표 데이터는 스프레드시트와 같이 행과 열로 구성된 정형 데이터입니다.
  • 텍스트 데이터에는 이메일이나 보고서와 같은 텍스트 문서 형식의 비정형 데이터가 포함됩니다.
  • 이미지 데이터에는 브랜드 로고, 차트 및 인포그래픽 형식의 시각적 정보 등이 있습니다.
  • 지리 공간 데이터는 지리적 좌표와 국가 지도의 모양을 나타내며, 지구의 표면에 대한 필수 정보를 제공합니다.
  • 시계열 데이터는 일정 기간 동안의 정보를 포함할 수 있는 데이터(예: 지난 1년간의 일일 주가)를 가리킵니다.

데이터 유형

데이터를 분류하는 또 다른 기준은 유형으로, 정량적 데이터와 정성적 데이터로 나눌 수 있습니다. 

  • 정량적 데이터는 숫자로 표시되며 통계적으로 측정 및 분석이 가능합니다. 정량적 데이터의 예시로는 판매 수치, 지리적 위치에 따른 고객의 수, 웹 사이트 트래픽 등이 있습니다.
  • 반면 정성적 데이터는 숫자로 표시되지 않으며 텍스트, 이미지, 비디오 등을 포함합니다. 많은 경우 정성적 데이터는 분석이 더 어려울 수 있지만, 고객 선호 사항과 의견에 대해 중요한 인사이트를 제공할 수 있습니다. 정성적 데이터의 예시로는 고객 리뷰, 소셜 미디어 게시물, 설문 조사 응답 등이 있습니다.

정량적 데이터와 정성적 데이터 모두 다양한 산업 분야의 데이터 분석에 있어 중요합니다. 이 주제에 대한 자세한 내용은 변수 및 필드 유형 Trailhead 모듈을 참조하세요.

다양한 데이터 형식과 분류를 이해하는 것은 효과적인 데이터 분석에 중요합니다. 조직에서 데이터를 정형, 비정형, 반정형 범주로 분류하고 정량적 데이터와 정성적 데이터를 구분하면 데이터를 통해 인사이트를 얻기 위한 올바른 분석 접근 방식을 더 효율적으로 선택할 수 있습니다. 표, 텍스트, 이미지와 같이 다양한 형식을 살펴보면 데이터 분석과 해석을 더 효율적으로 수행할 수 있습니다.

데이터 수집 방법

데이터 소스 식별은 데이터 분석에서 중요한 단계입니다. 데이터는 내부, 외부 및 공개 데이터 세트를 포함한 다양한 소스를 통해 얻을 수 있습니다. 내부 데이터 소스로는 판매 데이터 및 고객 데이터와 같이 조직 내에서 생성된 데이터 등이 있습니다. 외부 데이터 소스로는 시장 조사 및 소셜 미디어 데이터와 같이 조직 외부에서 얻은 데이터 등이 있습니다. 공개 데이터 세트는 무료로 제공되며 분석 및 연구에 사용할 수 있는 데이터 세트입니다.

데이터 수집, 레이블 지정 및 정제는 데이터 분석에서 중요한 단계입니다. 

  • 데이터 수집은 다양한 소스에서 데이터를 수집하는 프로세스입니다.
  • 데이터 레이블 지정은 데이터를 더 쉽게 검색 및 분석할 수 있도록 데이터에 태그나 레이블을 할당하는 작업입니다. 여기에는 연령대나 제품 범주와 같은 범주를 데이터에 할당하는 작업이 포함될 수 있습니다.
  • 데이터 정제란 데이터의 오류와 불일치를 제거하거나 수정하여 데이터의 품질과 정확성을 개선하는 프로세스입니다. 데이터 정제에는 중복 데이터 제거, 맞춤법 오류 수정, 누락된 데이터 보완 등이 포함될 수 있습니다.

설문 조사, 인터뷰, 관찰, 웹 스크랩 등 다양한 기법으로 데이터를 수집할 수 있습니다. 

  • 설문 조사는 일련의 질문을 사용하여 특정 그룹으로부터 데이터를 수집합니다. 설문 조사는 온라인 또는 오프라인으로 진행할 수 있으며, 고객 선호 사항 및 의견에 대한 데이터를 수집하는 데 자주 사용됩니다.
  • 인터뷰는 일대일 대화를 통해 개개인으로부터 데이터를 수집합니다. 설문 조사보다 더 세부적인 데이터를 제공할 수 있지만 시간 역시 많이 소요될 수 있습니다.
  • 관찰은 특정 사람들이나 이벤트를 보고 듣는 것을 통해 데이터를 수집합니다. 관찰은 고객 행동과 제품 인터랙션에 대해 중요한 데이터를 제공할 수 있습니다.
  • 웹 스크랩은 소프트웨어 도구를 사용하여 웹 사이트에서 데이터를 수집하는 방법입니다. 경쟁사, 시장 추세 및 고객 리뷰에 대한 데이터를 수집하는 데 사용할 수 있습니다.

탐색 데이터 분석(EDA)은 일반적으로 모든 데이터 프로젝트의 첫 번째 단계에 해당합니다. EDA의 목표는 데이터의 일반적인 패턴을 학습하고 그 안에 담겨 있는 인사이트와 주요 특성을 이해하는 것입니다.

AI에서 데이터가 갖는 중요성

데이터는 AI를 구성하는 필수 요소이며, 데이터의 품질과 유효성은 AI 애플리케이션의 성공에 매우 중요합니다. 데이터 품질과 유효성을 고려할 때는 데이터가 정확하고 완전하며 연구 대상 모집단을 대표하도록 해야 합니다. 저품질의 데이터는 의사 결정과 AI에 심각한 영향을 미쳐 부정확하거나 편향된 결과를 초래할 수 있습니다.

데이터 품질은 AI 프로젝트를 시작할 때부터 중요하게 고려해야 합니다. 다음은 AI에서 데이터와 데이터 품질이 갖는 중요성을 강조하는 몇 가지 고려 사항입니다.

  • 훈련 및 성능: AI 모델 훈련에 사용되는 데이터의 품질은 성능에 직접적인 영향을 미칩니다. 고품질의 데이터는 모델이 정확하고 대표성 있는 패턴을 학습하여 더 신뢰할 수 있는 예측과 더 나은 의사 결정을 수행할 수 있게 합니다.
  • 정확성 및 편향성: 데이터 품질은 AI 시스템 내의 편향을 완화하는 데 매우 중요합니다. 편향되거나 부정확한 데이터는 편향된 결과로 이어져 기존의 불평등을 강화하거나 불공정 관행을 고착화할 수 있습니다. 고품질의 데이터를 사용하는 조직은 높은 공정성을 위해 노력하며 차별적인 결과를 최소화할 수 있습니다.
  • 일반화 및 강건함: AI 모델은 새롭고 낯선 데이터를 효과적으로 처리할 수 있어야 하며 서로 다른 각종 상황에서도 일관된 성능을 발휘해야 합니다. 고품질 데이터는 모델이 관련성 높고 다양한 패턴을 학습하여 정확한 예측을 수행하고 새로운 상황을 효과적으로 처리할 수 있도록 합니다.
  • 신뢰 및 투명성: 데이터 품질은 AI 시스템의 신뢰성 및 투명성과 밀접한 관련이 있습니다. 이해관계자는 사용되는 데이터와 프로세스에 신뢰를 가져야 합니다. 데이터 품질 보증과 투명한 데이터 관행은 신뢰를 구축하고 책임감을 강화하는 데 도움이 됩니다.
  • 데이터 거버넌스 및 규정 준수: 적절한 데이터 품질 측정은 데이터 거버넌스를 유지하고 규제 요건을 준수하는 데 필수적입니다. 조직은 AI 시스템에 사용되는 데이터가 개인정보보호, 보안 및 법적 표준을 준수하도록 해야 합니다.

AI에서 높은 데이터 품질을 얻으려면 데이터 다양성, 대표성, 잠재적 편향성 해결에 중점을 둔 강력한 데이터 수명 주기가 필요합니다. 데이터 수명 주기에는 여러 단계가 있으며, 데이터 품질은 모든 단계에서 중요합니다. 데이터 수명 주기에는 수집, 저장, 처리, 분석, 공유, 보존 및 폐기가 포함됩니다. 다음 유닛에서 데이터 수명 주기를 더 자세히 알아보겠습니다. 

이 유닛에서는 다양한 데이터 유형, 데이터 소스 및 수집 방법, AI에서 데이터가 갖는 중요성에 대해 배웠습니다. 다음으로 머신 러닝에 대한 기본 사항과 머신 러닝이 기존 프로그래밍과 어떻게 다른지 알아보겠습니다. 그리고 AI 기술과 실제 적용 사례를 살펴보겠습니다.

리소스 

Salesforce 도움말에서 Trailhead 피드백을 공유하세요.

Trailhead에 관한 여러분의 의견에 귀 기울이겠습니다. 이제 Salesforce 도움말 사이트에서 언제든지 새로운 피드백 양식을 작성할 수 있습니다.

자세히 알아보기 의견 공유하기