AI 기술 및 사용 분야 파악하기

학습 목표

이 유닛을 완료하면 다음을 수행할 수 있습니다.

AI의 실질적인 사용 사례를 이해합니다.
AI 모델 및 ChatGPT의 한계를 알아봅니다.
AI의 데이터 수명 주기를 알아보고, AI 애플리케이션에서 데이터 개인정보보호 및 보안이 갖는 중요성을 이해합니다.

인공 지능 기술

인공 지능은 기계가 인간처럼 학습하고 사고할 수 있도록 하는 광범위한 분야입니다. 그리고 AI를 아우르는 기술도 여러 가지가 있습니다.

머신 러닝은 다양한 수학적 알고리즘을 사용하여 데이터에서 인사이트를 얻고 예측을 수행합니다.
딥러닝은 신경망이라는 특정 유형의 알고리즘을 사용하여 입력과 출력 간의 연관성을 찾습니다. 딥러닝의 효과와 효율은 데이터의 양이 증가함에 따라 더욱 높아집니다.
자연어 처리는 기계가 인간의 언어를 입력으로 활용하여 그에 따라 작업을 수행할 수 있도록 하는 기술입니다.
대규모 언어 모델은 텍스트를 이해하고 사람이 작성한 듯한 텍스트를 생성하도록 설계된 고급 컴퓨터 모델입니다.
컴퓨터 비전은 기계가 시각 정보를 해석할 수 있도록 하는 기술입니다.
로보틱스는 기계가 물리적 작업을 수행할 수 있도록 하는 기술입니다.

자세한 내용은 AI 기초 교육 Trailhead 모듈을 참조하세요.

머신 러닝(ML)은 학습 접근 방식과 해결하려는 문제의 성격에 따라 여러 유형으로 분류할 수 있습니다.

지도형 학습: 이 머신 러닝 접근 방식에서는 모델이 레이블 지정된 데이터를 통해 학습하여 발견한 패턴을 기반으로 예측을 수행합니다. 그런 다음 훈련 중에 학습한 패턴을 기반으로 예측을 수행하거나 보이지 않는 새로운 데이터를 분류할 수 있습니다.
비지도형 학습: 여기서는 모델이 레이블 지정되지 않은 데이터를 통해 학습하여 사전 정의된 출력 없이 패턴과 관계를 찾습니다. 모델은 유사성을 식별하거나, 유사한 데이터 포인트를 그룹화하거나, 데이터 세트에서 숨겨진 기본 패턴을 찾는 방법을 학습합니다.
강화 학습: 에이전트가 시행착오를 통해 학습하고 환경에서 받는 보상을 최대화하기 위한 조치를 취하는 것이 포함됩니다. 강화 학습은 로보틱스, 게임 플레이, 자율 시스템과 같이 시행착오를 통해 최적의 의사 결정 전략을 학습해야 하는 시나리오에서 사용되는 경우가 많습니다. 에이전트는 다양한 행동을 탐색하고 그 결과를 통해 학습하여 의사 결정 프로세스를 최적화합니다.

최근 몇 년간은 사람의 개입을 최소화하면서 전체 머신 러닝 파이프라인을 구축하는 프로세스를 자동화하기 위해 OneNine AI 및 Salesforce AI와 같은 AutoML 및 노코드 AI 도구가 도입되었습니다.

머신 러닝의 역할

머신 러닝은 통계 알고리즘을 사용하여 컴퓨터가 명시적인 프로그래밍 없이도 데이터를 통해 학습할 수 있도록 하는 인공 지능의 하위 집합입니다. 머신 러닝은 알고리즘을 사용하여 입력을 기반으로 예측 또는 결정을 내릴 수 있는 모델을 구축합니다.

머신 러닝과 프로그래밍의 비교

기존 방식의 프로그래밍에서는 프로그래머가 문제와 원하는 솔루션을 명확하게 이해하고 있어야 합니다. 머신 러닝에서는 알고리즘이 데이터를 통해 학습하고 문제를 해결하기 위한 자체 규칙이나 모델을 생성합니다.

기존 프로그래밍과 머신 러닝의 차이점은 다양한 입력과 출력에 있습니다.

머신 러닝에서 데이터가 갖는 중요성

데이터는 머신 러닝을 작동시키는 연료와 같습니다. 머신 러닝 모델을 훈련시키는 데 사용되는 데이터의 질과 양은 모델의 정확성과 효과에 상당한 영향을 미칠 수 있습니다. 따라서 사용되는 데이터가 관련성이 높고 정확하며 완전하고 편향되지 않았는지 확인하는 것이 중요합니다.

데이터 품질과 머신 러닝의 한계

데이터 품질을 강화하려면 데이터를 정제하고 전처리하여 노이즈(원치 않거나 무의미한 정보), 누락된 값 또는 이상값을 제거해야 합니다.

머신 러닝은 다양한 문제를 해결하는 데 도움이 되는 강력한 도구이지만, 효율성에 있어서는 과다 적합, 과소 적합, 편향성의 한계를 보입니다.

과다 적합: 모델이 너무 복잡하고 훈련 데이터와 너무 밀접하게 일치하여 일반화가 적절하게 이루어지지 않을 때 발생합니다.
과소 적합: 모델이 너무 단순하여 데이터의 기본 패턴을 포착하지 못할 때 발생합니다.
편향: 실제 모집단을 대표하지 않는 데이터를 기반으로 모델을 훈련할 때 발생합니다.

머신 러닝은 사용되는 데이터의 질과 양, 복잡한 모델의 투명성 부족, 새로운 상황의 일반화에 대한 어려움, 누락된 데이터 처리의 문제, 편향된 예측 가능성 등으로 인해 제한을 받습니다.

머신 러닝은 강력한 도구이지만, 머신 러닝 모델을 설계 및 사용할 때는 이러한 한계를 인식하고 충분히 고려해야 합니다.

예측형 AI와 생성형 AI

예측형 AI는 데이터 입력을 기반으로 예측 또는 의사 결정을 내리기 위해 머신 러닝 알고리즘을 사용하는 것입니다. 사기 탐지, 의료 진단, 고객 이탈 예측 등 다양한 용도로 사용할 수 있습니다.

다양한 목적과 고유한 접근 방식

예측형 AI는 데이터를 기반으로 예측 또는 의사 결정을 내리기 위해 모델을 훈련시키는 머신 러닝 유형입니다. 모델은 주어진 입력 데이터 세트를 통해 데이터에서 패턴을 인식하는 방법을 학습하여 새로운 입력에 대해서도 정확한 예측을 내릴 수 있습니다. 예측형 AI는 이미지 인식, 음성 인식, 자연어 처리와 같은 분야에서 널리 사용됩니다.

반면 생성형 AI는 특정 입력을 기반으로 이미지, 비디오 또는 텍스트와 같은 컨텐츠를 새롭게 생성합니다. 생성형 AI는 기존 데이터를 기반으로 예측을 수행하는 대신 입력 데이터와 유사한 새로운 데이터를 생성합니다. 미술, 음악, 글쓰기 등 다양한 용도로 사용할 수 있습니다. 생성형 AI의 일반적인 예로는 신경망을 사용하여 특정 입력 세트를 기반으로 새로운 이미지를 생성하는 것이 있습니다.

예측형 AI와 생성형 AI는 인공 지능에 대한 서로 다른 접근 방식이지만 상호 배타적이지는 않습니다. 실제로 많은 AI 애플리케이션이 목표를 달성하기 위해 예측형 및 생성형 기법 모두를 사용합니다. 예를 들어 챗봇은 예측형 AI를 사용하여 사용자 입력을 이해하고, 생성형 AI를 사용하여 실제 직원과 유사한 응답을 생성할 수 있습니다. 전반적으로 예측형 AI와 생성형 AI 중 어떤 것을 선택할지는 각 상황과 프로젝트 목표에 따라 달라질 수 있습니다.

이제 예측형 AI 및 생성형 AI의 개념과 차이점에 대해 어느 정도 알게 되셨을 것입니다. 참고하실 수 있도록 각각의 기능을 간단히 정리해 보겠습니다.

예측형 AI	생성형 AI
레이블 지정된 데이터를 기반으로 정확한 예측 가능	새롭고 창의적인 컨텐츠 생성 가능
사기 탐지, 의료 진단, 고객 이탈 예측 등 다양한 문제 해결에 사용 가능	미술, 음악, 글쓰기 등 다양한 크리에이티브 분야에 활용 가능
레이블 지정된 가용 데이터의 질과 양에 따라 제한됨	입력 데이터에 따라 편향되거나 부적절한 컨텐츠 생성 가능
훈련에 사용된 레이블 지정 데이터 외의 예측에는 어려움을 겪을 수 있음	컨텍스트를 이해하거나 일관적인 컨텐츠를 생성하는 데 어려움을 겪을 수 있음
훈련 및 배포에 상당한 컴퓨팅 리소스가 필요할 수 있음	높은 정확도와 정밀도를 요하는 일부 분야에는 적합하지 않을 수 있음

생성형 AI의 한계

생성형 AI는 특정 입력을 기반으로 이미지, 비디오 또는 텍스트와 같은 컨텐츠를 새롭게 생성합니다. 예를 들어 ChatGPT는 대형 언어 모델을 사용해서 텍스트 입력에 대해 사람과 유사한 응답을 생성할 수 있는 생성형 AI 도구입니다. ChatGPT는 대량의 텍스트 데이터로 훈련을 거치고 이전 단어를 기반으로 다음에 올 단어를 순서대로 예측하는 학습을 통해 작동합니다.

사람과 유사한 응답을 생성할 수 있지만, 훈련에 사용한 데이터에 따라 편향되거나 부적절한 응답을 생성할 수 있다는 한계도 있습니다. 머신 러닝 모델에서 흔히 발생하는 문제인데, 훈련 데이터의 편견과 한계를 반영할 수 있기 때문입니다. 예를 들어, 훈련 데이터에 부정적이거나 모욕적인 언어가 많이 포함되어 있는 경우 ChatGPT는 이와 비슷하게 부정적이거나 모욕적인 응답을 생성할 수 있습니다.

또한 ChatGPT는 사용자 입력 컨텍스트를 이해하거나 일관적인 응답을 생성하기가 어려울 수 있습니다. ChatGPT는 훈련에 사용된 데이터만큼의 효과를 보입니다. 훈련 데이터가 불완전하거나 편향되어 있거나 기타 결함을 포함한 경우 모델이 정확하거나 유용한 응답을 생성하지 못할 수 있습니다. 이는 정확성과 관련성이 중요한 경우 상당한 한계를 드러낼 수 있습니다. 다른 머신 러닝 모델과 마찬가지로 데이터가 중요한 역할을 하므로, 훈련에 사용된 데이터의 품질이 좋지 않으면 ChatGPT도 그다지 유용하지 않습니다.

ChatGPT의 예시는 AI를 효과적으로 사용하는 데 데이터가 얼마나 중요한 역할을 하는지 보여 줍니다.

AI의 데이터 수명 주기

데이터 수명 주기는 데이터의 최초 수집부터 최종 삭제까지 데이터가 거치는 단계를 가리킵니다. AI의 데이터 수명 주기는 데이터 수집, 전처리, 훈련, 평가 및 배포를 포함한 일련의 단계로 구성됩니다. 관련성 있고 정확하며 완전하고 편향되지 않은 데이터를 사용하며, 효과적이면서도 윤리적인 모델을 생성하는 것이 중요합니다.

새로운 데이터와 피드백을 기반으로 모델을 지속적으로 업데이트 및 개선해야 하기 때문에, AI의 데이터 수명 주기는 지속적으로 이어지는 프로세스입니다. 세부 사항에 세심한 주의를 기울이고 윤리적 및 효과적인 AI를 위한 노력을 필요로 하는 반복적 프로세스입니다. ML 모델의 개발자와 사용자는 모델이 효과적이고 정확하며 윤리적이고 세상에 긍정적인 영향을 미칠 수 있도록 해야 합니다. 데이터 수명 주기는 데이터를 책임감 있고 윤리적으로 수집, 저장, 사용하는 데 매우 중요합니다.

데이터 수명 주기의 단계는 다음과 같습니다.

데이터 수집: 이 단계에서는 센서, 설문 조사, 온라인 소스 등 다양한 소스에서 데이터를 수집합니다.
데이터 저장: 데이터를 수집하고 나면 안전하게 저장해야 합니다.
데이터 처리: 이 단계에서는 데이터를 처리하여 인사이트와 패턴을 추출합니다. 여기에는 머신 러닝 알고리즘이나 기타 데이터 분석 기법을 사용하는 것이 포함될 수 있습니다.
데이터 사용: 데이터가 처리되고 나면 의사 결정이나 정책 정보 제공 등 원하는 목적에 맞게 사용할 수 있습니다.
데이터 공유: 다른 조직이나 개인과 데이터를 공유해야 하는 경우가 있습니다.
데이터 보존: 데이터 보존은 데이터가 보관되는 기간을 가리킵니다.
데이터 폐기: 데이터가 더 이상 필요하지 않게 되면 안전하게 폐기해야 합니다. 여기에는 디지털 데이터를 안전하게 삭제하거나 물리적 미디어를 파기하는 것이 포함될 수 있습니다.

AI와 ML은 많은 산업을 혁신하고 복잡한 문제를 해결할 수 있는 잠재력을 품고 있지만, 그 한계점과 윤리적 고려 사항을 인식하는 것도 중요합니다. 다음 유닛에서 데이터 윤리 및 개인정보보호의 중요성에 대해 계속 알아보세요.

예상 시간

주제

도움말 검색