Tech SEO: experimento para otimização de Crawl Budget em grandes ecommerces

Published in

b2w engineering

8 min readJul 3, 2020

Todos os dias os robôs dos mecanismos de busca viajam pela web buscando por novos sites, descobrindo novos conteúdos e coletando dados para seu enorme índice ou “biblioteca”.

Para acessar todo o conteúdo da web, os robôs vão “clicando” nos links que encontram pelo caminho e, assim, percorrem toda web.

A busca pelos melhores e mais atualizados conteúdos é um trabalho contínuo e que demanda muitos recursos, uma vez que novas informações surgem a todo momento na internet.

Além disso, os sites precisam ser revisitados com alguma frequência, com o intuito de garantir que o conteúdo esteja sempre atualizado e reflita a melhor resposta à busca do usuário.

Para entender como os mecanismos de busca decidem como e quando os robôs devem visitar um website, vamos falar brevemente sobre o conceito de “Crawl Budget”.

1. O que é Crawl Budget?

É o número de requisições que o buscador faz para um website em um determinado período de tempo. De um modo geral, a maioria dos sites não deve se preocupar com este assunto, pois isso não será um problema se não houver um número significativo de páginas.

Como disse Gary Illyes em seu post no Google Webmaster Central Blog, em 2017:

“ Se um site possui apenas alguns milhares de URLs, na maioria das vezes será rastreado com eficiência.”

Em sites com milhões de URLs, isto pode ser tornar um desafio. Neste cenário, é muito relevante o controle de quando e quantos acessos serão permitidos aos robôs, visando preservar o bom desempenho do servidor e a experiência de navegação do usuário.

Gary Illyes, em seu artigo para o blog oficial do Google, afirma que o Crawl Budget é definido por dois conceitos: Craw rate limit e Crawl demand.

Crawl rate limit se refere ao número de conexões paralelas que os robôs podem fazer para rastrear seu site, bem como o tempo de espera entre uma chamada e outra. O limite pode variar de acordo com a saúde ou a performance do site. Por exemplo, se o site responde rapidamente o limite aumenta automaticamente.

Por outro lado, se o site tem uma resposta lenta ou com erros, o limite pode baixar. Uma forma de modificar o crawl rate limit é através da configuração da taxa de rastreamento no Google Search Console, onde o limite pode ser controlado.

Vale lembrar que aumentar o crawl rate limit no Google Search Console não garante aumento no Crawl Budget.

Crawl demand descreve a importância do seu site para o Google, dependendo de dois fatores: popularidade e recência. Uma URL que seja popular na web tende a ser rastreada com mais frequência, atualizanado constantemente o seu conteúdo. Mudanças no site também podem causar um aumento na demanda para atualizar o novo conteúdo.

Na definição do Google:

“Unindo Crawl rate limit e Crawl demand, definimos o Crawl Budget como o número de URLs que o Googlebot pode e quer rastrear.”

2. Otimização de Crawl Budget

Diversos fatores podem afetar negativamente o comportamento do robô, como a velocidade de carregamento, erros de acesso do tipo 4XX, conteúdo duplicado, parâmetros e filtros em excesso, entre outros.

Ao adicionar filtros e parâmetros em um determinado site muito grande, é possiível encontrar diversas variações da mesma URL. Logo, aumenta a probabilidade de existir um conteúdo duplicado.

Em plataformas de ecommerce, com um sortimento de milhões de produtos, isto acaba se potencializando e gerando uma quantidade quase infinita de URLs, devido às várias combinações existentes na estrutura.

Além disso, dois fatores muito importantes são a frequencia de acesso do robô e a variedade de páginas que o robô está visitando.

Se um site possui 1.000 páginas e o robô encontra 1.000 URLs todos os dias, pode ser que o crawl budget esteja muito otimizado, ou pode ser que apenas signifique que o robô esteja visitando 1.000 vezes uma mesma página, por exemplo.

Outro fator muito relevante é a capacidade do servidor. A experiência do usuário vem em primeiro lugar e não pode ser prejudicada pelo excesso de requisições dos robôs.

Uma das formas para controlar e otimizar o Crawl Budget é criar um arquivo txt com as diretrizes de acesso ao site. Os arquivos Robots.txt são criados na raíz do domínio, por exemplo: www.seudominio.com.br/robots.txt.

O robots.txt define as instruções que os robôs devem seguir para navegar no site, definindo quais páginas eles devem ou não acessar. Logo, um arquivo robots.txt bem escrito é crucial para que o conteúdo certo seja encontrado.

Exemplo de um trecho do robots.txt do Google, que pode ser encontrado em https://www.google.com/robots.txt:

User-agent: *
Disallow: /search
Allow: /search/about
Allow: /search/static
Allow: /search/howsearchworks
Disallow: /sdch
Disallow: /groups
Disallow: /index.html?
Disallow: /?
Allow: /?hl=
Disallow: /?hl=*&
Allow: /?hl=*&gws_rd=ssl$
Disallow: /?hl=*&*&gws_rd=ssl

3. Case: Black Friday na B2W

Como falado anteriormente, um dos aspectos relevantes do Crawl Budget é a demanda. Se o Google entende que um domínio é importante para o usuário, ele pode aumentar a frequência com a qual visita este site em busca de novos conteúdos.

Em datas importantes como a Black Friday, os motores de busca querem encontrar os conteúdos mais recentes em toda web, aumentando assim a demanda de rastreamento.

Sendo um dos eventos de compras mais importantes em todo o mundo, a Black Friday traz algumas das melhores promoções do ano. Muitos clientes aguardam essa data para fazer a compra de um item de maior valor ou para iniciar as compras de Natal.

Neste período, os sites da B2W (Americanas.com, Shoptime, Submarino e SouBarato) recebem um maior fluxo de acessos de clientes, ao mesmo tempo em que os robôs também querem acessá-los com maior frequência para manter o conteúdo atualizado.

Analisando os logs de navegação da Black Friday de 2018, foi constatado um comportamento atípico e um crescimento substancial no número de acessos do Googlebot, o robô do Google que coleta informações dos websites.

Para 2019, o objetivo era reduzir o volume de requisições do Googlebot nos dias anteriores e durante a Black Friday. Este esperimento teve o intuito de preservar a performance dos sites e garantir a melhor experiência do usuário durante o período de pico de visitantes.

3.1. O experimento

A política aplicada no robots.txt antes da Black Friday fazia restrição a certas páginas que não deveriam ser encontradas pelos buscadores. Esta era pouco restritiva e permitia que fosse encontrada uma grande quantidade de páginas com um ou mais filtros aplicados.

Em 2019 houve um pico de acessos dias antes da Black Friday, iniciando em 23 de novembro. Entre os dias 22 e 25 de novembro, houve um aumento de 840% no número de acessos do Googlebot.

Com o intuito de conter o crescente número de visitantes não humanos e preservar a experiência do usuário no site, foi traçado um plano de restringir o acesso dos buscadores a um número menor de páginas via robots.txt.

Em paralelo, foi reduzida a taxa de rastreamento no Google Search Console. Uma vez que a tática trouxesse bons resultados, a regra deveria ser alterada novamente e, gradualmente, dar mais liberdade para os robôs rastrearem os sites da B2W.

Na primeira etapa do experimento, foram permitidas apenas as páginas de primeiro nível de cada domínio e foi bloqueado o acesso a páginas com filtros.

A regra foi aplicada na quarta-feira, 27 de novembro, às 18:50 (UTC-3). Em apenas 30 minutos foi possível ver uma drástica redução no número de acessos dos crawlers.

Cerca de uma hora após a alteração, o volume total de acessos por hora foi reduzido em 95%, caindo de 400 mil requisições por hora para cerca de 20 mil . O número de requisições continuou a ser reduzido e na quinta-feira, 28, voltou a ficar em um patamar normal, próximo do número de acessos antes do pico.

A imagem abaixo mostra a quantidade de acessos de uma das APIs durante o período do experimento. Logo após a implementação da nova política no Robots.txt, foi possível ver a grande redução no número de acessos dos robôs.

Acessos do crawler a americanas.com.br um dia antes da Black Friday

O ecossistema de microserviços da B2W tem aproximadamente 1000 APIs, portanto, controlar a taxa de transferência é crucial para preservar a experiência do usuário durante períodos de grande volume de tráfego.

O objetivo era aumentar a transferência e reduzir a necessidade de criar e manter infraestrutura local para processar as requisições do crawler. Abaixo, é apresentada a taxa de transferência de uma API diretamente ligada aos acessos dos robôs durante o experimento.

Taxa de transferência de uma API diretamente ligada aos acessos dos robôs

Depois da Black Friday, no dia 02 de dezembro, por volta das 15h30, foi aplicada uma nova regra no robots para permitir a navegação dos robôs em todas as rotas, incluindo a liberação da navegação em algumas combinações de filtros.

Nos dias seguintes, houve um acompanhamento e foi registrado um crescimento no número de requisições, porém se mantendo próximo do patamar anterior à Black Friday.

3.2. Possíveis efeitos colaterais

Outro ponto importante era avaliar o comportamento de outros indicadores que poderiam sofrer algum efeito colateral.

Com objetivo de entender se houve algum efeito colateral com a modificação da regra do robots.txt, foram avaliados os indicadores de número de páginas indexadas, posição média, número de páginas aparecendo nos rankings e número de keywords nas posições top 10.

Nenhum destes apresentou variação significativa ou que indicasse algum efeito colateral durante o período do experimento, validando a eficácia da mudança no arquivo Robots.txt.

Considerações finais

Para qualquer ecommerce, é fundamental estar sempre evoluindo para garantir que a melhor experiência do usuário e o crescimento do negócio caminhem juntos.

Em sites grandes, com centenas de milhões de páginas, é necessário redobrar a atenção ao volume de acessos recebidos diariamente e assegurar o bom funcionamento dos servidores.

Este experimento trouxe resultados positivos, limitando o acesso dos robôs para garantir a melhor experiência do usuário durante toda a Black Friday!!!

Leia o texto em Inglês.

Espero que tenha gostado deste artigo e que ele possa ajudar a você e o seu negócio. Seria um prazer ouvir seu feedback, sinta-se à vontade para me mandar uma mensagem no Linkedin!

Gostaria de agradecer a Richard Fenning pela coautoria da tradução deste artigo; a Pedro Gil Alcantara por sua parceria na criação do experimento e a meus colegas no time de SEO da B2W por lerem e revisarem este artigo, e especialmente ao Tiago Andrade pelo seu suporte e sugestões. Obrigado!

Qualquer pessoa interessada neste assunto, que queira continuar a discussão ou simplesmente contribuir para a comunidade, temos dois grupos no Linkedin: SEO in RJ (Rio de Janeiro) e SEO in SP (São Paulo).

Quer ter a oportunidade de trabalhar com tecnologias inovadoras e dsruptivas? Gosta de grandes desafios e crescer em uma cultura orientada para resultados? Então confira nossas vagas em aberto aqui: Apply