Skip to main content

Como funciona o Rocket Validator?

por Jaime Iniesta

No Rocket Validator, tentamos dar-lhe os relatórios de validação HTML mais abrangentes para os seus sites, mantendo a nossa ferramenta o mais simples possível.

Para validar um site, apenas precisa de introduzir o seu URL principal e clicar no botão "Submit". Em poucos segundos começa a receber resultados, que ficam completos em apenas alguns minutos.

Mas, o que acontece nos nossos servidores depois de clicar no botão "Submit"? Vamos rever os nossos processos internos:

Primeiro, normalizamos o URL do site e resolvemos os seus redirecionamentos para obter o URL final e o estado. Por exemplo, pode ter digitado http://example.com mas o URL final após seguir os redirecionamentos pode ser https://www.example.com/ - mantemos este endereço final como o correto, que será usado no resto do processo.

Após o URL final do seu site ser descoberto, o processo de scraping começa. O seu URL principal é visitado pelo nosso web crawler, que lê as ligações encontradas nele, e para todas as ligações internas descobertas, adiciona-as à fila de processamento de páginas web.

Novamente, para cada ligação interna normalizamos o URL e resolvemos os seus redirecionamentos para obter o URL final. Se ainda estiverem dentro do site principal, são adicionadas ao seu sitemap.

À medida que as páginas web são descobertas e adicionadas ao seu sitemap, lançamos processos em segundo plano em paralelo para validar o HTML em cada uma delas e armazenar os problemas HTML encontrados.

As suas páginas web serão validadas quanto à conformidade da marcação HTML com os padrões W3C. Para fazer isto, temos os nossos próprios servidores com o software oficial de validação lançado como open source pelo W3C. Mantemos os nossos próprios servidores para validação HTML, alojados no excelente serviço cloud Digital Ocean. Isto permite-nos escalar conforme necessário adicionando servidores adicionais, bem como atualizar o software quando uma nova versão está disponível.

Armazenamos os resultados de validação para cada página: o número de erros e avisos HTML, bem como os erros específicos encontrados e a linha onde aparecem no código fonte das suas páginas web.

Cada página web encontrada também será visitada pelo nosso web crawler, para procurar mais ligações internas que estejam dentro do URL principal do sitemap. Serão adicionadas à fila de processamento de páginas web, por isso serão normalizadas, resolvidas, validadas e, recursivamente, visitadas para procurar mais ligações internas, repetindo este processo até não conseguirmos encontrar mais páginas web no seu site ou atingirmos o limite definido.

Outra parte importante da nossa ferramenta são exceções e tentativas repetidas. Há vários pontos de possíveis problemas temporários: pode haver timeouts, problemas de conectividade de rede, sobrecarga... Para lidar com isto, temos um mecanismo de repetição que tentará repetir cada validação várias vezes no caso de falhas temporárias. Se continuarem a falhar depois disso, a exceção é armazenada para que possamos investigar mais a sua causa e melhorar a nossa ferramenta.

Essa é a complexidade escondida por trás de um único clique num botão!

Pronto para validar os seus sites?
Comece o seu teste gratuito hoje.