미세 조정 준비하기

학습 목표

이 유닛을 완료하면 다음을 수행할 수 있습니다.

미세 조정을 위한 데이터 집합 준비에 대해 설명할 수 있습니다.
미세 조정 프로세스에 대해 대략적인 설명을 제공할 수 있습니다.

데이터 집합 준비하기

미세 조정을 위한 첫 번째 단계는 작업별 데이터 집합을 준비하는 것입니다. 여기에는 데이터 정리, 텍스트 정규화, 데이터를 LLM의 입력 요구 사항과 호환되는 형식으로 변환하는 작업(즉, 데이터 라벨링)이 포함될 수 있습니다. 데이터가 해당 작업과 도메인을 나타내는지, 그리고 모델이 프로덕션 환경에서 마주칠 수 있는 다양한 시나리오를 포괄하는지 확인하는 것이 중요합니다. 다음은 미세 조정을 위해 데이터 집합을 준비하는 방법입니다.

데이터 수집

특정 도메인 또는 작업에 대한 관련 데이터를 축적합니다. 여기에는 사용자 상호 작용을 수집하거나 도메인별 데이터를 사용하는 것이 포함될 수 있습니다.

데이터 정리

관련 없는 데이터를 제거하고, 오류를 수정하고, 민감한 정보를 익명화할 수 있습니다.

데이터 집합 분할

데이터를 학습, 검증 및 테스트 집합으로 분할합니다. 모델은 학습 집합에서 학습하고, 하이퍼파라미터는 확인 집합을 사용하여 조정되며, 성능은 테스트 집합에서 평가됩니다.

모델 구성하기

적절한 기본 모델과 미세 조정 방법을 선택하는 것은 특정 작업과 사용 가능한 데이터에 따라 달라집니다. GPT-3.5 Turbo, BERT, RoBERTa 등 다양한 LLM 아키텍처 중에서 선택할 수 있으며, 각 아키텍처는 고유한 강점과 약점을 가지고 있습니다. 미세 조정 방법은 전송 학습, 순차적 미세 조정 또는 작업별 미세 조정과 같이 작업과 데이터에 따라 달라질 수 있습니다.

모델 선택

기본 모델을 선택할 때 다음을 고려하세요.

모델이 특정 작업에 적합한지 여부
모델의 입력 및 결과물 크기
데이터 집합 크기
기술 인프라가 미세 조정에 필요한 컴퓨팅 성능에 적합한지 여부

아키텍처 선택

분류 작업의 최종 계층과 같이 작업에 따라 특정 구성 요소를 조정합니다. 핵심 모델 아키텍처는 동일하게 유지됩니다.

하이퍼파라미터 선택

학습 속도, 배치 크기, 에포크 수 및 정규화 매개변수에 대한 값을 결정합니다. 공격적인 업데이트로 인해 모델이 사전 학습된 지식이 삭제되는 경우가 있으므로 학습 속도를 늦추는 것이 더 좋습니다.

모델 미세 조정하기

LLM과 미세 조정 방법을 선택한 후에는 사전 학습된 모델을 메모리에 로딩해야 합니다. 이 단계에서는 모델의 가중치는 사전 학습된 값에 기반하여 초기화됩니다. 이는 미세 조정 프로세스의 속도를 높이고, 모델이 이미 기본적인 언어 이해력을 학습했음을 확인하는 데 도움이 됩니다.

사전 학습된 가중치로 초기화

사전 학습된 모델의 가중치로 시작하세요. 이는 이전 학습의 지식을 활용하는 이전 학습의 핵심적인 부분입니다.

적응형 학습

일부 고급 시나리오에서는 여러 계층에 대해 학습 속도를 조정하는 기술을 사용할 수 있습니다. 예를 들어, 일반적인 특징을 수집하는 초기 계층은 이후 계층에 비해 학습 속도가 더 느리게 업데이트될 수 있습니다.

정규화

드롭아웃, 가중치 감쇠 또는 계층 정규화와 같은 기술은 특히 미세 조정 데이터 집합이 상대적으로 작은 경우 과적합을 방지하는 데 중요할 수 있습니다.

모델 모니터링 및 평가하기

이 단계에서는 작업별 데이터 집합에 대해 사전 학습된 LLM을 학습시킵니다. 학습 과정에는 모델의 가중치와 매개변수를 최적화하여 손실 함수를 최소화하고 작업 성능을 개선하는 과정이 포함됩니다. 미세 조정 프로세스에는 학습 집합에 대한 여러 라운드의 학습, 확인 집합에 대한 확인 및 모델의 성능을 최적화하기 위한 하이퍼파라미터 조정이 포함될 수 있습니다.

손실 및 지표 추적

학습 중 학습 및 확인 집합의 손실을 지속적으로 모니터링합니다. 이는 학습에서 과적합이나 문제를 감지하는 데 도움이 됩니다.

조기 중단

확인 집합의 성능이 저하되면(학습 집합 성능이 향상되더라도) 학습을 중단하는 것은 과적합의 징후입니다. 이를 통해 모델이 학습 데이터에 너무 유사해지는 것을 방지할 수 있습니다.

평가 지표

테스트 집합에서 모델의 성능을 측정하기 위해 적절한 지표(정확도, F1 점수, BLEU 스코어 등)를 사용하세요. 사용되는 지표는 분류, 회귀, 생성 등과 같이 수행되는 작업에 따라 달라집니다.

미세 조정 후 평가하기

미세 조정 프로세스가 완료되면 테스트 집합에서 모델의 성능을 평가해야 합니다. 이 단계는 모델이 새로운 데이터로 적절히 일반화되고 특정 작업에서 잘 수행되고 있는지 확인하는 데 도움이 됩니다. 평가에 사용되는 일반적인 지표에는 정확도, 정밀도 및 리콜이 포함됩니다.

보정

실제 확률을 더 잘 반영하도록 모델의 결과물을 조정합니다. 때로는 미세 조정된 모델이 예측을 과신하거나 과소평가할 수 있습니다.

피드백 루프

최종 사용자가 모델 결과물에 대한 피드백을 제공할 수 있는 시스템을 설정합니다. 이 피드백은 지속적인 개선으로 이어지는 추가적인 미세 조정에 사용될 수 있습니다.

모델 배포하기

미세 조정된 모델을 평가한 후 프로덕션 환경에 배포할 수 있습니다. 배포 프로세스에는 모델을 더 큰 시스템에 통합하고, 필요한 인프라를 설정하고, 실제 시나리오에서 모델의 성능을 모니터링하는 작업이 포함될 수 있습니다.

모델 크기

성능에 큰 영향을 주지 않으면서 모델 크기를 줄이려면 모델 증류 또는 세분화 후 미세 조정을 고려하세요. 이는 최신 기기, 웹 서버 등 모델을 배포하는 위치에 따라 달라질 수 있습니다.

요약

미세 조정의 개념은 간단해 보이지만, 실제로는 일련의 신중한 단계와 결정이 필요합니다. 데이터 준비부터 배포에 이르기까지 각 단계는 대상 도메인이나 작업에서 모델의 효과와 효율성에 큰 영향을 미칠 수 있습니다.

예상 시간

주제

도움말 검색