대규모 언어 모델의 기본 사항 알아보기

학습 목표

이 유닛을 완료하면 다음을 수행할 수 있습니다.

대규모 언어 모델에 대해 설명할 수 있습니다.
LLM이 어떤 식으로 학습되는지 설명할 수 있습니다.
LLM 미세 조정에 대한 이해도를 향상할 수 있습니다.

시작하기 전에

대규모 언어 모델은 자연어 처리(NLP)와 머신 러닝을 통해 텍스트를 이해하고 사람이 작성한 듯한 텍스트를 생성합니다. 아직 자연어 처리 기초 뱃지를 획득하지 않았다면 이 유닛을 시작하기 전에 자연어 처리 기초 뱃지를 획득하는 것이 좋습니다.

대규모 언어 모델이란 무엇인가요?

2021년까지 책, 기사, 웹 사이트 및 기타 서면 콘텐츠의 텍스트를 포함하여 방대한 양의 텍스트를 읽는 아주 똑똑한 디지털 어시스턴트가 있다고 상상해보세요. 하지만 이 비서는 도서관처럼 책 전체를 '수록'하지는 않습니다. 그 대신 학습된 텍스트 데이터에서 패턴을 처리합니다.

이 디지털 어시스턴트에게 어떤 질문이든 할 수 있으며, '읽은' 내용을 기반으로 답변을 제공합니다. 사람처럼 '이해'할 수는 없어도 정보를 기억하고 연결하는 데는 매우 탁월합니다.

이 디지털 어시스턴트는 대규모 언어 모델과 비슷합니다. LLM은 텍스트를 이해하고 사람이 작성한 듯한 텍스트를 생성하도록 설계된 고급 컴퓨터 모델입니다. 방대한 양의 텍스트 데이터를 학습하여 패턴, 언어 구조, 단어와 문장 간의 관계를 학습합니다.

대규모 언어 모델은 어떻게 작동하나요?

GPT-3와 같은 LLM의 핵심 기능은 한 번에 하나의 토큰(예: 단어 또는 문자)을 예측하여 시작부터 마무리까지 시퀀스를 구축하는 것입니다. 요청이 주어질 경우 LLM은 다음 토큰, 그 다음 토큰, 그 다음 토큰을 연속해서 예측하는 식입니다.

LLM의 예측은 학습 시 확인한 패턴을 기반으로 텍스트를 생성하거나 완성하는 기능으로, 방대한 양의 텍스트에 대해 인상적인 패턴 인식 기능을 제공합니다. 다양한 주제에 걸쳐 일관되고 컨텍스트에 적합한 콘텐츠를 생성할 수 있습니다.

대부분의 대규모 언어 모델은 이러한 모델의 크기와 복잡성을 나타냅니다. 이러한 언어 모델은 여러 프로세서와 많은 메모리 용량을 보유한 강력한 서버와 같이 상당한 양의 연산 리소스를 사용합니다. 대규모 언어 모델은 이러한 리소스를 통해 방대한 양의 데이터를 처리할 수 있으므로 고품질 텍스트를 이해하고 생성하는 기능이 향상됩니다.

LLM은 크기에 따라 다르지만 일반적으로 수십억 개의 매개변수를 포함합니다. 매개변수는 모델이 훈련 과정에서 학습하는 요소로, 이를 통해 모델의 언어 이해 능력이 형성됩니다. 매개변수가 많을수록 모델이 데이터의 복잡한 패턴을 학습하고 포착할 수 있는 용량이 커져서 사람이 작성한 듯한 텍스트를 생성하는 능력이 향상됩니다.

LLM이 얼마나 방대한 매개변수를 사용하는지 이해할 수 있는 단적인 예를 알려드리자면, GPT-3와 같은 이전 버전의 GPT(생성형 사전 학습 변환기) 모델에는 약 1,750억 개의 매개변수가 있습니다. 이러한 모델은 상당히 큰 규모로 간주되며 언어 처리 기능을 현저하게 개선했습니다. GPT-4는 1조 개 이상의 매개변수를 가지고 있다고 합니다.

실제로 이러한 수치는 인상적이지만 해당 모델의 엄청난 규모에는 모델 학습에 필요한 연산 리소스, 환경에 미치는 영향, 잠재적인 편향 가능성 등의 문제가 수반됩니다.

대규모 언어 모델은 다양한 언어 관련 작업을 지원하고, 상당한 지식을 보유한 가상 어시스턴트와 같습니다. 텍스트 작성을 돕고, 정보를 제공하고, 창의적인 제안을 전달하고, 대화에까지 참여할 수 있습니다. 모델 제작자의 목표는 기술과의 상호 작용을 보다 자연스럽고 인간답게 지원하고 만드는 것입니다. 그러나 사용자는 모델의 한계를 인식하고, 모델을 완벽한 진리의 근원이 아닌 도구로 사용해야 합니다.

LLM 학습이란 무엇인가요?

LLM을 학습시키는 것은 로봇에게 인간의 언어를 이해하고 사용하는 방법을 학습시키는 것과 같습니다. 그렇다면 로봇이 인간의 언어를 이해하고 사용하도록 학습시키려면 어떻게 해야 할까요? 한 가지 방법이 있습니다.

책과 기사를 수집하세요. 로봇을 교육하려면 책, 기사, 작성된 글을 방대한 양으로 수집한다고 상상해보세요.
읽기를 연습시키세요. 로봇에게 한 문장을 읽게 한 후 다음 단어를 맞히도록 요청합니다. 초반에는 학습 중인 상태이므로 무작위로 추측할 수 있습니다.
답을 확인하세요. 로봇이 추측한 후 실제 텍스트에서 정답인 단어를 보여주세요. 로봇의 추측이 틀린 경우 "이런! 그건 틀렸어."와 같은 피드백을 제공하세요.
반복하세요. 수많은 문장을 가지고 이러한 '추측 및 확인' 과정을 계속 반복합니다. 로봇은 더 많은 문장을 읽으면서 다음 단어를 더 잘 추측하기 시작합니다.
테스트하세요. 로봇이 실제로 학습하는지, 암기만 하는 건지 확인하기 위해 이전에 본 적이 없는 문장으로 로봇을 자주 테스트합니다.
전문화하세요. 예를 들어, 로봇이 의학 언어를 특별히 잘 구사하길 원한다면 의학 서적에 대한 추가 학습을 제공할 수 있습니다.
졸업시키세요. 로봇이 텍스트를 이해하고 생성하는 데 능숙해지면 "잘했어!"라고 말해주고 로봇이 다양한 언어 작업을 돕도록 합니다.

이제 끝입니다! 학습 과정은 로봇이 언어 전문가가 될 때까지 읽기 연습, 퀴즈, 특별 학습을 혼합하는 방식으로 진행합니다. LLM에도 동일한 기본 아이디어를 적용합니다.

미세 조정은 어떻게 이루어지나요?

미세 조정은 사전에 학습시킨 모델에 대해 기존의 학습 데이터 집합보다 범위가 더 작고 구체적인 새 데이터 집합을 추가로 학습시키는 프로세스입니다.

로봇에게 세계에서 가장 방대한 요리책을 사용하여 세계 각국의 요리를 요리하도록 교육했다고 상상해보세요. 이는 기본 학습입니다. 이제 로봇이 이탈리아 요리만 전문적으로 만들기를 원한다고 가정해보세요. 그런 다음 더 작고 상세한 이탈리아 요리책을 전달하고 해당 레시피를 연습하도록 할 수 있습니다. 이 전문화된 연습은 미세 조정과 같습니다.

미세 조정은 광범위한 항목을 얕게 알고 있는 로봇(또는 모델)을 특정 주제에 대해 해당 분야의 전문가가 될 때까지 추가로 학습시키는 것입니다.

미세 조정이 중요한 이유는 무엇인가요?

전파 학습: 사전 학습된 모델은 이미 광범위한 학습 데이터 집합에서 많은 일반적 기능을 학습했습니다. 이러한 모델은 미세 조정을 통해 상대적으로 적은 데이터 집합으로도 일반적인 지식을 특정 과업에 적용할 수 있습니다.
효율성: 딥러닝 모델을 처음부터 학습하려면 많은 데이터와 연산 리소스가 필요합니다. 미세 조정을 사용하면 이미 많은 내용을 알고 있는 모델에서 시작하므로 더 적은 데이터와 시간으로 더 나은 성능을 얻을 수 있습니다.
개선된 성능: 특정 작업에 대해 미세 조정된 모델은 초기 학습 중에 수집된 광범위한 지식의 이점을 활용하므로 해당 작업에 대해 처음부터 학습된 모델보다 성능이 더 뛰어난 경우가 많습니다.

버전에는 어떤 기능이 포함되어 있나요?

각 버전마다 기본 아키텍처는 유사하게 유지될 수 있지만 규모, 학습 데이터 또는 특정 매개변수가 변경될 수 있습니다. 각각의 새 버전은 이전 버전의 취약점을 개선하고, 한층 더 광범위한 작업을 처리하거나, 편향과 오류를 줄이는 것을 목표로 합니다.

다음은 간단한 설명입니다.

버전 1(예: OpenAI의 GPT-1 또는 Google의 BERT 기반 모델)

시작: 모델의 첫 번째 릴리스입니다. 제대로 작동하지만 소설 초안처럼 작성되어 개선의 여지가 있습니다.

크기 및 데이터: 일정량의 데이터를 사용하며 특정 개수의 매개변수(예: 모델의 '두뇌 세포')가 있습니다.

버전 2(OpenAI의 GPT-2)

개선 사항: 첫 번째 버전에서 학습한 내용을 기반으로 조정 작업이 이루어집니다. 피드백을 바탕으로 소설을 수정하는 것과 같습니다.

크기 및 데이터: 더 많은 매개변수로 더 커집니다. 더 다양하거나 더 규모가 큰 데이터 집합에 대해 학습할 수 있습니다.

버전 3(OpenAI의 GPT-3)

한층 더 개선된 사항: 더 많은 피드백, 연구 및 기술 발전을 통합합니다.

크기 및 데이터: 훨씬 더 커집니다. 예를 들어, GPT-3에는 1,750억 개의 매개변수가 있어 훨씬 더 많은 기능을 제공하지만 그만큼 더 많은 리소스를 필요로 합니다.

미세 조정된 버전:

기본 버전이 출시된 후 특정 작업에 맞게 미세 조정된 특수 버전이 출시되기도 합니다. 일반 소설을 미스터리, 로맨스, 공상 과학 소설로 각색하는 것과 비슷합니다.

기타 반복:

BERT와 같은 모델에는 학습 전략이나 아키텍처를 조정하여 본질적으로 다른 '버전'인 변형(RoBERTa, DistilBERT 등)이 있습니다.

LLM 버전은 책의 시리즈 연재물과 같으며, 새로운 버전이 나올 때마다 더욱 더 정교하고 방대하며 마음을 사로잡는 읽기를 목표로 합니다.

다음에는 LLM을 Salesforce에서 어떻게 사용할 수 있는지 살펴보겠습니다.

예상 시간

주제

도움말 검색

Salesforce Platform 자원