Robots.txt: o que é, para que serve e como usar

Tela de um computador com códigos de computação robots.txt.

Sumário

No universo do SEO técnico, poucos arquivos são tão importantes quanto o robots.txt. Esse pequeno arquivo de texto exerce uma função importante na forma como os mecanismos de busca, como o Google, interagem com um site.

Criado para indicar quais páginas ou seções devem ou não ser rastreadas, o robots.txt é um dos primeiros pontos de contato entre os bots e o seu domínio.

Ignorar ou configurar mal esse arquivo pode gerar consequências sérias: desde páginas desnecessárias sendo indexadas até o bloqueio acidental de áreas críticas do site.

Por isso, entender o que é, como ele funciona e quais boas práticas devem ser seguidas é fundamental para qualquer estratégia de SEO bem estruturada.

Neste artigo, vou explicar de forma prática e acessível tudo o que você precisa saber sobre o robots.txt, incluindo exemplos de uso, sintaxes mais comuns e dicas para evitar erros que podem prejudicar seu desempenho nos buscadores. Bora?

O que é o robots.txt?

O arquivo robots.txt funciona como um canal de comunicação entre o seu site e os robôs de mecanismos de busca (como o Googlebot), informando quais páginas ou diretórios podem ou não ser acessados durante o rastreamento do conteúdo.

Esse comportamento é regido pelo “protocolo de exclusão de robôs” (robots exclusion protocol), uma convenção adotada desde os anos 1990 para fornecer diretrizes de rastreamento aos bots.

Basicamente, o arquivo robots.txt é um documento de texto simples, criado com a extensão “.txt”, que deve ser inserido na raiz de um site (exemplo: www.seusite.com/robots.txt). 

Embora seja uma prática consolidada, é importante lembrar que esse protocolo é voluntário, ou seja, os bots escolhem segui-lo (ou não), mas os principais mecanismos de busca o respeitam.

O robots.txt é fundamental para controlar o acesso a determinadas partes do site, evitar indexação de conteúdos irrelevantes e preservar recursos do servidor ao impedir o rastreamento de páginas desnecessárias.

Para que serve o robots.txt?

O principal objetivo do robots.txt é orientar os bots sobre quais áreas de um site devem ser rastreadas ou ignoradas. Esse tipo de controle é útil em diversos contextos:

  • Evitar indexação de páginas duplicadas: isso ajuda a manter a canonicidade do conteúdo e previne penalizações por duplicidade.
  • Proteger áreas administrativas ou restritas: como páginas de login (/login/) ou painel de controle (/admin/), que não têm valor para o usuário final nos resultados de busca.
  • Conservar o crawl budget: o robots.txt ajuda a otimizar o orçamento de rastreamento, fazendo com que os bots priorizem URLs mais relevantes.
  • Evitar rastreamento de arquivos pesados: como PDFs, arquivos temporários ou diretórios de backup, que não precisam estar nos índices de busca.

Em resumo, ele permite uma gestão estratégica da visibilidade do seu site para os mecanismos de busca.

Como funciona o robots.txt na prática

Programador trabalho com código robots.txt.

Sempre que um bot acessa um domínio, a primeira ação é buscar o arquivo /robots.txt. Se esse arquivo existir, o robô irá ler linha por linha para interpretar as regras ali estabelecidas.

Essas regras são lidas de cima para baixo e se aplicam conforme o bot se encaixe no “User-agent” especificado. Se uma diretiva de “Disallow” estiver presente, o bot deixará de rastrear as URLs mencionadas, ao menos se for um bot legítimo, como o Googlebot ou Bingbot.

Veja um exemplo básico de configuração:

User-agent: *

Disallow: /admin/

Disallow: /login/

Nesse cenário, todos os bots (o * significa todos os agentes) estão instruídos a não acessar os diretórios /admin/ e /login/, protegendo áreas sensíveis do site de serem rastreadas ou exibidas em mecanismos de busca.

É importante lembrar que, apesar de útil, o robots.txt não garante total proteção de conteúdo, ele apenas orienta os bots. Se a segurança for uma prioridade, combine essa prática com autenticação de acesso e uso de tags noindex.

Como criar um arquivo robots.txt

Criar um arquivo robots.txt é um processo simples, mas que exige atenção para evitar erros que possam prejudicar o SEO do seu site. Siga o passo a passo abaixo:

  1. Abra um editor de texto simples: pode ser o Bloco de Notas (Windows), TextEdit (Mac, em modo texto puro) ou qualquer editor semelhante que não adicione formatações ocultas. Evite usar editores de texto como o Word.
  2. Insira suas diretivas: escreva as regras que deseja aplicar, como User-agent, Disallow, Allow ou Sitemap, seguindo a sintaxe correta.

Por exemplo:

User-agent: *

Disallow: /admin/

Allow: /admin/publico.html

Sitemap: https://www.seusite.com/sitemap.xml

  1. Salve o arquivo corretamente: dê o nome “robots.txt” (com minúsculas e sem aspas) e certifique-se de que ele esteja no formato UTF-8 sem BOM, evitando erros de leitura por parte dos bots.
  2. Envie o arquivo para a raiz do domínio: utilize um cliente FTP, painel de hospedagem ou integração com seu CMS para colocar o arquivo na raiz pública do seu site. O caminho final deve ser: https://www.seusite.com/robots.txt.
  3. Teste seu arquivo: antes de considerar a tarefa finalizada, valide a estrutura e a aplicação das regras usando a ferramenta oficial do Google Search Console.

Como testar o robots.txt

A validação do robots.txt é uma etapa essencial para garantir que você não está bloqueando conteúdos importantes por engano. No Google Search Console, você pode:

  • Simular o comportamento de diferentes bots (como Googlebot ou Googlebot-News);
  • Colar o conteúdo atual do seu arquivo robots.txt e realizar testes sem precisar alterá-lo no servidor;
  • Verificar se uma URL específica está sendo corretamente permitida ou bloqueada com base nas regras;
  • Observar alertas de sintaxe incorreta ou conflitos nas diretivas.

Esses testes ajudam a prevenir erros técnicos que poderiam impactar negativamente sua presença nos resultados de busca.

Principais diretivas do robots.txt

As diretivas funcionam como instruções que orientam os bots sobre o que podem ou não fazer dentro do seu site. Cada uma delas possui uma função específica e, quando bem aplicadas, ajudam a manter o rastreamento eficiente e o SEO sob controle.

A seguir, vamos entender as principais diretivas utilizadas no arquivo robots.txt:

User-agent

Define a quais bots a regra se aplica. Pode ser um agente específico (como Googlebot) ou universal (*).

Exemplo:

User-agent: Googlebot

Disallow

Bloqueia o acesso a um determinado caminho.

Exemplo:

Disallow: /pasta-privada/

Allow

Permite o acesso a uma URL específica, mesmo que esteja dentro de um diretório bloqueado.

Exemplo:

Disallow: /pasta/

Allow: /pasta/pagina-liberada.html

Sitemap

Informa ao bot o local do sitemap.xml, facilitando o rastreamento e a indexação correta do conteúdo.

Exemplo:

Sitemap: https://www.seusite.com/sitemap.xml

Boas práticas ao configurar o robots.txt

Configurá-lo corretamente é um passo necessário para garantir que os bots rastreiem seu site com eficiência e segurança. Veja algumas boas práticas que vão além do básico:

  • Teste sempre antes de publicar: utilize a ferramenta de teste do Google Search Console para verificar se as diretivas estão funcionando conforme esperado. Pequenos erros de sintaxe podem causar bloqueios indesejados.
  • Evite bloqueios acidentais: antes de aplicar o Disallow a uma URL ou diretório, confirme se esse conteúdo realmente deve ficar fora do alcance dos mecanismos de busca. Bloquear acidentalmente páginas importantes pode afetar negativamente sua performance orgânica.
  • Entenda a diferença entre rastrear e indexar: o robots.txt impede o rastreamento, mas não necessariamente a exibição da página nos resultados. Para garantir a exclusão do índice, utilize a tag “noindex” junto com uma permissão temporária no robots.txt ou remova a URL via Search Console.
  • Mantenha o arquivo limpo e comentado: comente blocos de regras para facilitar futuras revisões, principalmente em projetos com múltiplas equipes envolvidas. Isso também ajuda a evitar configurações contraditórias.
  • Atualize conforme a evolução do site: Sites mudam constantemente, seções novas são criadas, URLs são alteradas e recursos internos se multiplicam. Revise periodicamente o robots.txt para garantir que ele continue alinhado à sua estratégia de SEO.

Como editar o robots.txt em CMS populares

Gerenciar o robots.txt em sistemas de gerenciamento de conteúdo (CMS) pode variar bastante dependendo da flexibilidade da plataforma. Veja como funciona nos principais CMS do mercado:

WordPress

O WordPress é um dos CMS mais flexíveis nesse sentido. Plugins como Yoast SEO e Rank Math permitem editar o conteúdo do robots.txt diretamente pela interface do painel administrativo, sem a necessidade de acessar arquivos via FTP.

Essa opção é ideal para quem deseja aplicar regras personalizadas com praticidade, especialmente em projetos que passam por atualizações constantes.

Vale lembrar que o WordPress cria um arquivo robots.txt virtual por padrão, a edição via plugin sobrescreve esse conteúdo.

Shopify

A Shopify gera automaticamente um arquivo robots.txt otimizado para lojas virtuais, incluindo regras que evitam o rastreamento de páginas de checkout e carrinho.

Desde 2021, tornou-se possível personalizar esse arquivo através de temas com acesso ao código.

A customização, no entanto, exige conhecimento técnico e geralmente é feita com auxílio de um desenvolvedor. A recomendação da própria Shopify é manter a estrutura padrão, a menos que haja uma necessidade específica de SEO técnico.

Wix e Squarespace

Ambas as plataformas trabalham com robots.txt pré-configurado, otimizado para SEO básico.

O Wix permite alguma personalização do arquivo por meio do painel de configurações avançadas de SEO, mas as opções ainda são limitadas em comparação ao WordPress.

Já o Squarespace não oferece edição direta, mas o arquivo gerado atende à maioria das necessidades de sites institucionais. Em ambos os casos, recomenda-se trabalhar bem o sitemap.xml e a arquitetura do site para garantir um rastreamento eficiente.

Erros comuns em robots.txt

Arte ilustrativa mostra códigos de computação.

Mesmo sendo um arquivo simples, o robots.txt pode causar grandes prejuízos à visibilidade do seu site quando mal configurado. A seguir, veja alguns dos erros mais recorrentes e como evitá-los:

Bloquear o site inteiro acidentalmente

User-agent: *

Disallow: /

Essa é uma das falhas mais críticas e, infelizmente, também uma das mais comuns. Essa configuração bloqueia completamente o rastreamento de todas as páginas do site por todos os bots. 

Só deve ser aplicada em ambientes de staging, sites em desenvolvimento ou portais temporariamente fora do ar. Jamais utilize essa diretiva em ambientes de produção sem pleno domínio do que está fazendo.

Bloquear recursos importantes para o carregamento

Arquivos como CSS, JavaScript e fontes são essenciais para que os mecanismos de busca renderizem corretamente seu site, o que impacta diretamente em fatores como usabilidade e Core Web Vitals

Bloquear pastas como /css/ ou /js/ no robots.txt pode impedir que os bots vejam seu site como os usuários veem, prejudicando a avaliação do conteúdo e a performance no ranking. Sempre permita o acesso a esses arquivos, exceto em casos específicos e justificados.

Confundir Disallow com noindex

Esse é um erro conceitual comum: acreditar que o Disallow remove a página dos resultados de busca. Na verdade, ele apenas impede o acesso dos bots, o que pode até impossibilitar o uso da meta tag “noindex”, já que o bot não conseguirá lê-la. 

Para remover uma URL já indexada, o ideal é deixá-la acessível no robots.txt e aplicar a tag “noindex” no HTML da página. Ou então usar a ferramenta de remoção de URLs do Google Search Console para acelerar o processo.

Pequenos comandos, grandes impactos

O arquivo robots.txt pode parecer simples à primeira vista, mas suas configurações têm o poder de influenciar diretamente a visibilidade de um site nos mecanismos de busca.

Ao utilizá-lo de forma estratégica, você melhora a eficiência do rastreamento, protege páginas sensíveis e ajuda a construir uma base sólida para o SEO técnico.

No entanto, se você não domina esse mundo, contar com a ajuda qualificada de uma agência de SEO pode ser o melhor caminho para evitar erros e alcançar os melhores resultados para o seu site.Tire suas dúvidas com quem entende de verdade de SEO, entre em contato com um especialista e peça um diagnóstico profissional do seu site

Foto de Júlia Gonçalves

Júlia Gonçalves

Redatora e supervisora do time de conteúdo da WebShare, tenho formação em História e sou uma especialista na arte de criar narrativas. Minhas experiências incluem redação SEO e copywriting, além de UX Writing, Inbound Marketing e Social Media.

Compartilhe

Compartilhe

Precisando de fôlego para chegar ao topo? Peça um diagnóstico do seu site.

Nossos especialistas farão uma análise profunda do seu site para identificar oportunidades de melhoria e propor soluções sob medida.

Peça hoje um diagnóstico sobre a performance do seu site.

Nossos especialistas farão uma investigação estratégica, para identificar oportunidades de melhoria e propor soluções sob medida.