Gerar um arquivo robots.txt

Objetivos de aprendizagem

Após concluir esta unidade, você estará apto a:

Descrever as funções primárias de um mecanismo de pesquisa externo.
Listar o que um arquivo robots.txt contém.
Descrever duas maneiras de gerar um arquivo robots.txt.
Explicar como verificar um arquivo robots.txt.
Descrever como configurar o armazenamento em cache quando você gera um arquivo robots.txt.

Mecanismos de pesquisa externos

Brandon Wilson, anunciante da Cloud Kicks, quer aprender sobre o arquivo robots.txt para poder usá-lo no aprimoramento de suas classificações de pesquisa externa e minimizar ocorrências estranhas em seu site. Ele começa com mecanismos de pesquisa externos, que têm três funções primárias.

Rastrear: Pesquisar conteúdo na Internet, olhando o código/conteúdo de cada URL que encontrar.
Indexar: Armazenar e organizar o conteúdo encontrado durante o processo de rastreamento. Assim que uma página esteja no índice, o Google pode exibi-la como resultado em consultas relevantes.
Classificação: Fornecer os conteúdos que melhor respondam à consulta de um pesquisador, com resultados ordenados dos mais relevantes para os menos relevantes.

Bots de mecanismos de pesquisa externos rastreiam, indexam e classificam.

Um rastreador procura por uma URI /robots.txt em seu site, onde um site é definido como um servidor HTTP em execução em um determinado host e número de porta. Só pode haver um /robots.txt em um site. A partir deste arquivo, o rastreador descobre quais páginas ou arquivos ele pode ou não indexar usando o parâmetro Desautorizar. Anunciantes como Brandon usam este arquivo para limitar o que é indexado às informações importantes e evitar a sobrecarrega de seus sites com solicitações irrelevantes.

O Identificador de Recursos Uniformes (URI) é o nome oficial para as coisas que você vê na Internet que começam com http: ou mailto:, por exemplo.

Vamos acompanhar o Brandon enquanto ele explora o que um arquivo robots.txt contém, como gerá-los e verificá-los.

O que um arquivo robots.txt contém?

Quando um rastreador visita um site, como https://www.cloudkicks.com/, ele primeiro procura o arquivo robots.txt localizado em https://www.cloudkicks.com/robots.txt. Se o arquivo existir, ele analisa o conteúdo para ver quais páginas pode indexar. Você pode personalizar o arquivo robots.txt para ser aplicado a robôs específicos e desautorizar o acesso a diretórios ou arquivos específicos. Você pode escrever até 50.000 caracteres neste arquivo no Business Manager.

Formato do arquivo

Este é o formato básico de um arquivo robots.txt.

User-agent: [user-agent name]
Disallow: [URL string not to be crawled]

Veja aqui um exemplo.

User-agent: man-bot
Crawl-delay: 120
Disallow: /category/*.xml$
Disallow: /mobile
User-agent: Googlebot
Disallow: /cloudkicks-test=new-products/

Uma URI que começa com um valor especificado não recebe visitas. Por exemplo:

Disallow: /help — (Desautorizar: /help) desautoriza /help.html e /help/index.html.

Disallow: /help/ — (Desautorizar: /help/) desautoriza /help/index.html, mas autoriza /help.html.

URLs com refinamento de pesquisa

Se você já tem entradas no arquivo robots.txt, é melhor adicionar essas linhas na parte inferior para desautorizar URLs com refinamento de pesquisa. Os mecanismos de pesquisa externos não precisam indexá-los e podem considerar essas URLs como conteúdo duplicado, o que prejudica a SEO.

# Search refinement URL parameters
Disallow: /*pmin*
Disallow: /*pmax*
Disallow: /*prefn1*
Disallow: /*prefn2*
Disallow: /*prefn3*
Disallow: /*prefn4*
Disallow: /*prefv1*
Disallow: /*prefv2*
Disallow: /*prefv3*
Disallow: /*prefv4*
Disallow: /*srule*

Taxa de rastreamento

Defina a taxa de rastreamento do Googlebot para Low (Baixa) no Google Search Console, porque o Google ignora a linha de atraso de rastreamento nos arquivos robots.txt. O termo taxa de rastreamento significa quantas solicitações por segundo o Googlebot faz para um site quando está fazendo o rastreamento dele, como por exemplo, 5 solicitações por segundo.

Você não pode alterar a frequência com que o Google rastreia seu site, mas se você quiser que o Google rastreie conteúdo novo ou atualizado em seu site, você pode solicitar um novo rastreamento.

Evitar rastreamentos

Quando um rastreador da Web visita um site, como https://www.cloudkicks.com/, ele primeiro procura o arquivo robots.txt e determina se ele tem permissão para indexar o site. Em alguns casos, você não quer que ele faça isso. Por exemplo, Brandon não quer rastreadores da Web olhando suas instâncias de desenvolvimento e de preparação, porque elas não são destinadas a compradores.

Veja um exemplo de arquivo robots.txt que impede que os rastreadores da Web indexem o site:

User-agent: *# applies to all robots
Disallow: /# disallow indexing of all pages

Proteção de senhas da loja virtual

Os desenvolvedores de um dos sites da Cloud Kicks usam o recurso de proteção de senhas da loja virtual enquanto se preparam para o lançamento do site. Esse recurso limita o acesso à loja virtual às pessoas envolvidas no projeto. Esse limite também impede que rastreadores e robôs de mecanismos de pesquisa indexem esta loja virtual e disponibilizem-na para os mecanismos de pesquisa. Protege tanto conteúdo dinâmico, como páginas, quanto conteúdo estático, como imagens.

Criar um arquivo robots.txt

Você pode usar quase qualquer editor de texto para criar um arquivo robots.txt. Por exemplo: Bloco de notas, TextEdit, vi e emacs podem criar arquivos robots.txt válidos. Não use um processador de texto; eles muitas vezes salvam arquivos em um formato proprietário e podem adicionar caracteres inesperados, como aspas com serifa, o que pode causar problemas para rastreadores. Certifique-se de salvar o arquivo com codificação UTF-8 se solicitado na caixa de diálogo de salvamento de arquivo.

Para o arquivo robots.txt ser usado pelo Salesforce B2C Commerce, Brandon deve primeiro configurar seu alias de nome de host. Então, ele pode gerar seu arquivo robots.txt no Business Manager.

Quando o cache é habilitado em uma instância, ele deve invalidar o cache de conteúdo estático para um novo arquivo robots.txt ser gerado ou servido. Quando o cache é desabilitado em uma instância de preparação, o B2C Commerce detecta imediatamente quaisquer alterações no arquivo robots.txt.

Use o Business Manager para criar um arquivo robots.txt para um ou mais sites individualmente. O servidor do aplicativo serve o arquivo robots.txt, que é armazenado como preferência do site e pode ser replicado de uma instância para outra. Brandon usa esse método em sites existentes para permitir o rastreamento apenas para a instância de produção — e não para desenvolvimento ou preparação.

Veja como criar um arquivo robots.txt no Business Manager.

No Business Manager, clique em App Launcher (Iniciador de aplicativos) e selecione Merchant Tools (Ferramentas do comerciante) | site | SEO | Robots.
Selecione a instância: Preparação
Selecione Definir robots.txt específico para tipo de instância.
Selecione o tipo de acesso: Todos os spiders autorizados a acessar quaisquer recursos estáticos
Use esta configuração para uma instância de produção, se você quiser que ela seja rastreada e esteja disponível para mecanismos de pesquisa externos.
Clique em Aplicar.
Invalidar cache.
1. Selecione a guia Administração > Sites > Gerenciar sites > site > Cache.
2. Na seção Conteúdo estático e caches de página, clique em Invalidar.

Para o tipo de acesso, você também pode selecionar:

Todos os spiders desautorizados a acessar quaisquer recursos estáticos
Use esta configuração para uma instância de desenvolvimento ou preparação, se você não quiser que eles sejam rastreados e estejam disponíveis para mecanismos de pesquisa externos.
Definição personalizada do arquivo robots.txt (recomendado)
Use esta configuração, se quiser controlar quais partes da sua loja virtual são rastreadas e ficam disponíveis para mecanismos de pesquisa externos.

Para usar um arquivo robots.txt em uma instância de produção, crie-o em uma instância de preparação e, em seguida, replique as preferências do site da preparação para a produção.

Carregar um arquivo robots.txt

Se você criar um arquivo robots.txt em um arquivo externo, deve carregar o arquivo para o diretório cartridge/static/default em um cartridge personalizado da loja virtual em seu servidor B2C Commerce. Use seu ambiente de desenvolvimento integrado (IDE), como o NodeJS ou o Eclipse.

Você tem que replicar o arquivo robots.txt de instância em instância por meio de replicação de código, porque o cartridge/static/default é específico do cartridge, não específico do site.

Verificar um arquivo robots.txt

Para verificar se o arquivo robots.txt está colocado corretamente:

Invalide o cache da página de conteúdo estático (se necessário).
No seu navegador, digite o nome de host da instância, uma barra e, em seguida, robots.txt. Por exemplo: http://www.cloudkicks.com/robots.txt
Se você vê uma página em branco, o arquivo não está lá.

Vamos concluir

Nesta unidade, você aprendeu o que um arquivo robots.txt contém e como gerá-lo, carregá-lo e verificá-lo. Você também aprendeu a evitar rastreamentos. No início deste módulo, você explorou os mapas de site XML e como notificar os mecanismos de pesquisa sobre eles. Agora faça o último teste e ganhe um novo emblema.

Tempo estimado

Tópicos

Procurando ajuda?

Commerce Cloud Recursos