Conhecer o ajuste
Objetivos de aprendizagem
Após concluir esta unidade, você estará apto a:
- Descrever um ajuste.
- Descrever a mecânica de um ajuste.
Antes de começar
Este emblema contém termos e conceitos descritos nos emblemas Noções básicas de processamento de linguagem natural, Grandes modelos de linguagem e Noções básicas de prompt. Recomendamos que você conquiste primeiro esses emblemas.
Relembrando rapidamente
Os grandes modelos de linguagem, como a série de modelos GPT da OpenAI, são redes neurais gigantes treinadas para entender e gerar texto que pareça humano. Eles são treinados em grandes quantidades de dados, ou seja, têm uma base de conhecimento ampla e geral.
O que é ajuste?
Ajuste é o processo de usar um modelo de linguagem pré-treinado amplo e geral e treiná-lo ainda mais (ou "ajustá-lo") a um conjunto de dados menor e mais específico. No caso de LLMs, isso significa transformar um modelo base de uso geral em um modelo especializado para um caso de uso específico. Isso faz com que o modelo se especialize mais em relação a determinada tarefa. O ajuste acrescenta ao modelo pré-treinado e modifica seus pesos para alcançar um desempenho melhor.
Melhor dizendo... Digamos que você tenha um assistente digital que pode cozinhar qualquer prato muito bem. Embora ele possa fazer uma versão básica de qualquer prato, você está procurando um prato italiano maravilhoso igual ao que comeu em uma viagem a Veneza. Ele deveria dominar as nuances da cozinha italiana. Para isso, você deveria expor o modelo a mais receitas e técnicas italianas para refinar suas habilidades atuais. Isso é semelhante ao que acontece no ajuste.
Aprendizagem com poucos exemplos (few-shot)
A aprendizagem com poucos exemplos é um tipo de ajuste que usa uma quantidade pequena de exemplos específicos da tarefa no prompt para que o modelo possa ter um desempenho melhor em determinada tarefa. Já podemos fazer isso com design de prompt e o LLM base. Incluímos instruções e, às vezes, vários exemplos em um prompt. De certa forma, estamos alimentando o prompt previamente com um pequeno conjunto de dados relevante para a tarefa.
O ajuste melhora a aprendizagem com poucos exemplos, treinando com um conjunto de exemplos muito maior que podem se encaixar no prompt. Esse treinamento estendido pode resultar em desempenhos melhores em determinadas tarefas. Depois que um modelo foi ajustado, você não precisará oferecer tantos exemplos no prompt. Isso economiza custos e possibilita solicitações e respostas mais rápidas.
A mecânica do ajuste
Vamos ver algumas etapas necessárias para se ajustar um LLM.
Selecionar o conjunto de dados especializado
A primeira etapa envolve escolher um conjunto de dados que represente a tarefa específica desejada. Esse conjunto de dados normalmente é bem menor do que o usado no treinamento inicial. Concentre-se nessas áreas principais.
- O conjunto de dados escolhido deve estar de acordo com a tarefa ou o domínio específico desejado. Por exemplo, se você está ajustando um modelo para diagnóstico médico com base nas anotações sobre os pacientes, seu conjunto de dados deve consistir em anotações clínicas pertinentes e seus diagnósticos correspondentes.
- Como sempre, a qualidade dos dados é crucial em dados especializados. Isso normalmente exige um conjunto de dados menor e mais concentrado. No entanto, é essencial ter uma quantidade suficiente de dados para capturar as nuances da tarefa específica. Dados bagunçados, cheios de erros ou de informações irrelevantes, podem atrapalhar o processo de ajuste. É essencial processar previamente e limpar os dados.
Ajustar o modelo
Embora a arquitetura básica do modelo ajustado permaneça igual, determinados hiperparâmetros (por exemplo, a taxa de aprendizado) podem ser ajustados para se adequar às nuances do novo conjunto de dados.
Continuar o treinamento
Em vez de iniciar o treinamento do zero, você continua treinando o modelo pré-treinado com o novo conjunto de dados. Como o modelo já obteve muito conhecimento geral, ele pode aprender rapidamente as especificidades do novo conjunto de dados.
Usar técnicas de regularização
Para impedir que o modelo se torne muito adaptado ao novo conjunto de dados (um fenômeno chamado "ajuste excessivo"), é possível usar técnicas como dropout ou decaimento de pesos.
Resumo
O ajuste é uma ferramenta poderosa para adaptar modelos grandes e generalizados a tarefas específicas. No entanto, como qualquer outra ferramenta, seu sucesso depende das técnicas e das considerações utilizadas durante o uso. A próxima unidade mostra por que você poderia querer ajustar seu LLM.
Recursos