Aprenda as noções básicas dos grandes modelos de linguagem

Objetivos de aprendizagem

Após concluir esta unidade, você estará apto a:

Descrever um grande modelo de linguagem.
Explicar como os LLMs são treinados.
Entender melhor como os LLMs são ajustados.

Antes de começar

Os grandes modelos de linguagem dependem do processamento de linguagem natural (PLN) e da aprendizagem de máquina para entender e gerar textos que soem humanos. Se você ainda não ganhou o emblema Noções básicas de processamento de linguagem natural, recomendamos que o faça antes de começar este módulo.

O que é um grande modelo de linguagem?

Digamos que você tenha um assistente digital superinteligente que leu muito, inclusive textos de livros, artigos, sites e outros tipos de conteúdo escrito até o ano 2021. No entanto, ele não “contém” livros inteiros como no caso de uma biblioteca. Na verdade, ele processa padrões dos dados de texto que recebeu como treinamento.

Você pode fazer qualquer pergunta a esse assistente digital e ele tentará dar uma resposta com base no que “leu”. Ele não “entende” realmente como as pessoas, mas lembra e conecta informações muito bem.

Esse assistente digital é como um grande modelo de linguagem. LLMs são modelos de computação avançada criados para entender e gerar texto que soem humanos. Eles são treinados com um grande volume de dados de texto para aprender padrões, estruturas linguísticas e relacionamentos entre palavras e frases.

Como os grandes modelos de linguagem funcionam?

Essencialmente, os LLMs como o GPT-3 preveem um token (por exemplo, uma palavra ou um caractere) de cada vez, criando uma sequência do início ao fim. Quando recebem uma solicitação, eles tentam prever o próximo token, o seguinte, o seguinte e por aí vai.

As previsões feitas pelos LLMs dependem da sua capacidade de gerar ou preencher texto com base nos padrões que eles viram durante o treinamento, e o reconhecimento de padrões em um mar de textos é impressionante. Eles podem gerar conteúdo coerente e contextualmente relevante em uma ampla gama de tópicos.

O “grande” no nome tem a ver com o tamanho e a complexidade desses modelos. Eles usam muitos recursos computacionais, por exemplo, servidores potentes com vários processadores e muita memória. Esses recursos permitem que o modelo trate e processe grandes quantidades de dados, o que melhora sua capacidade de entender e gerar texto de alta qualidade.

Os LLMs variam de tamanho, mas normalmente contêm bilhões de parâmetros. Parâmetros são os fatores que o modelo aprende durante o processo de treinamento, criando a compreensão do modelo sobre a linguagem. Quanto mais parâmetros, maior a capacidade do modelo de aprender e capturar padrões complexos nos dados, aprimorando sua habilidade para produzir textos que soem humanos.

Para dar a você uma ideia de quantos parâmetros os LLMs usam, as versões mais antigas dos modelos GPT (transformador pré-treinado generativo), como o GPT-3, tinham em torno de 175 bilhões de parâmetros. Esses modelos são considerados bem grandes e avançaram bastante a capacidade de processamento de linguagem. O GPT-4 supostamente tem mais de 1 trilhão de parâmetros.

Esses números são realmente impressionantes, mas o tamanho absurdo desses modelos envolve desafios como a quantidade de recursos computacionais necessários para treiná-los, o impacto ambiental, possíveis vieses, dentre outros.

Os grandes modelos de linguagem são como assistentes virtuais extremamente cultos que podem ajudar em muitas tarefas linguísticas. Eles podem ajudar na escrita, nas informações, podem oferecer sugestões criativas ou até participar de uma conversa. O objetivo do criador do modelo é auxiliar as interações com tecnologia e torná-las mais naturais e humanas. No entanto, os usuários devem ter noção das suas limitações e usá-las como ferramenta em vez de achar que ela é uma fonte suprema da verdade.

O que é treinamento de LLM?

Treinar um LLM é como ensinar um robô a entender e usar a linguagem humana. E como você pode treinar um robô para entender e usar linguagem humana? Veja uma dessas maneiras.

Reunir livros e artigos. Imagine que você tenha reunido uma pilha enorme de livros, artigos e outros textos para ensinar ao robô.
Praticar leitura. Você faz com que o robô leia uma frase e pede a ele para adivinhar a palavra seguinte. No início, ele pode adivinhar de forma aleatória, pois ainda está aprendendo.
Verificar as respostas. Depois que o robô adivinha, você mostra a palavra correta do texto. Se o robô tiver adivinhado errado, você dá feedback, por exemplo, dizendo “Opa! Não é a resposta certa.”
Repetir. Você continua a fazer esse trabalho de “adivinhação e repetição” várias vezes com várias frases. O robô começa a melhorar na adivinhação da próxima palavra conforme vai lendo mais.
Testar. Ocasionalmente, você testa o robô com frases que ele ainda não viu para ver se ele está aprendendo ou se está apenas memorizando.
Especializar. Se quiser que o robô seja realmente bom em, por exemplo, linguagem médica, talvez seja bom dar mais aulas com livros médicos.
Concluir a formação. Depois que o robô fica realmente bom na compreensão e na geração de texto, diga “Bom trabalho!” e deixe-o ajudar pessoas em várias tarefas de linguagem.

E é tudo! O treinamento é como uma mistura de prática de leitura, testes e lições especiais até que o robô se torne um especialista em linguagem. A mesma ideia básica se aplica a LLMs.

Como funciona o ajuste?

Ajuste é o processo de treinar ainda mais um modelo pré-treinado com um novo conjunto de dados menor e mais específico do que o original.

Digamos que você tenha ensinado um robô a cozinhar pratos do mundo todo usando o maior livro de receitas do mundo. Esse é o treinamento básico. Agora, digamos que você queira que o robô se especialize em fazer apenas pratos italianos. Você daria a ele um livro de receitas menor e mais detalhado de pratos italianos e faria com que ele praticasse essas receitas. Essa prática especializada é como o ajuste.

Ajuste é pegar um robô (ou modelo) que sabe um pouco sobre várias coisas e treiná-lo em um tópico específico até se tornar um especialista na área.

Por que o ajuste é importante?

Transferência de aprendizagem: os modelos pré-treinados já aprenderam vários recursos genéricos com seus conjuntos de dados de treinamento abrangentes. O ajuste permite que esses modelos transfiram esses conhecimentos gerais a tarefas específicas com conjuntos de dados relativamente pequenos.
Eficiência: o treinamento de um modelo de aprendizagem profunda do zero exige muitos dados e recursos computacionais. Com o ajuste, você começa com um modelo que já sabe muito e pode alcançar um bom desempenho com menos dados e tempo.
Melhor desempenho: os modelos ajustados para tarefas específicas costumam ter melhor desempenho do que os modelos treinados do zero em relação a essas tarefas, pois eles se beneficiam do conhecimento mais amplo obtido durante o treinamento inicial.

O que cada versão contém?

Em cada versão, a arquitetura subjacente pode ser semelhante, mas a escala, os dados de treinamento ou determinados parâmetros podem mudar. Cada nova versão procura melhorar os pontos fracos da versão anterior, lidar com mais tarefas ou reduzir vieses e erros.

Veja uma explicação simplificada.

Versão 1 (por exemplo, GPT-1 da OpenAI ou Google BERT)

O início: a primeira versão do modelo. Funciona bem, mas é como o primeiro manuscrito de um romance: pode sempre melhorar.

Tamanho e dados: usa determinada quantidade de dados e tem um número específico de parâmetros (como os “neurônios” do modelo).

Versão 2 (GPT-2 da OpenAI)

Aprimoramentos: com base nas lições da primeira versão, são feitos ajustes. É como editar seu romance com base no feedback.

Tamanho e dados: normalmente maior e com mais parâmetros. Pode ser treinado com conjuntos de dados maiores ou mais diversos.

Versão 3 (GPT-3 da OpenAI)

Melhor ainda: incorpora mais feedback, pesquisa e aprimoramentos tecnológicos.

Tamanho e dados: Bem maior. Por exemplo, o GPT-3 tem 175 bilhões de parâmetros, o que o torna muito mais capaz, mas exige muito mais recursos.

Versões ajustadas:

depois que as versões principais são lançadas, às vezes há versões especializadas ajustadas para tarefas específicas. É como pegar uma história genérica e adaptá-la como um policial, romance ou ficção científica.

Outras iterações:

Modelos como o BERT têm variações (RoBERTa, DistilBERT e outros) que são basicamente “versões” diferentes com adaptações na estratégia ou na arquitetura de treinamento.

As versões de LLM são como edições consecutivas de uma série de livros; cada novo lançamento busca ser uma leitura mais refinada, expansiva e cativante.

A seguir, vamos ver como os LLMs estão sendo usados pelo Salesforce.

Tempo estimado

Tópicos

Procurando ajuda?

Salesforce Platform Recursos