TL;DR: O Rocket Validator suporta sitemaps XML e em texto simples, use-os para organizar validação em lote de sites grandes.
Foto de Nathan Dumlao no Unsplash
O Rocket Validator é um web crawler totalmente automatizado que o ajuda a validar sites grandes. Para realizar verificações HTML e de acessibilidade em lote nas páginas web de um site grande, você só precisa fornecer um URL inicial, e ele irá automaticamente rastrear o site, extrair os links e validar cada página web encontrada.
O nosso spider web irá encontrar as páginas web internas ligadas ao extrair HTML das mesmas, e adicionar apenas novas páginas web encontradas ao relatório de validação do site.
Como existem muitos caminhos a percorrer seguindo links num site, não há garantia dos URLs exatos que o nosso spider web irá encontrar, quando o site é maior do que o limite especificado no relatório. Além disso, pode demorar algum tempo a descobrir as páginas web únicas num site seguindo os links e descartando páginas web repetidas.
Quando você quer ter mais controlo sobre os URLs exatos a validar num site web, e quer facilitar, e portanto acelerar, o nosso web crawler, pode usar sitemaps XML ou em texto simples como o URL inicial.
É provável que o seu site já tenha um sitemap - tipicamente estes são chamados sitemap.xml. Por exemplo, aqui está o nosso sitemap XML e aqui está a versão em texto simples. Usamos estes sitemaps para submeter as nossas páginas web aos motores de busca, e estes mesmos sitemaps podem ser usados com o crawler do Rocket Validator.
Sitemaps XML
De acordo com sitemaps.org,
Os sitemaps são uma forma fácil para os webmasters informarem os motores de busca sobre páginas nos seus sites que estão disponíveis para rastreamento. Na sua forma mais simples, um sitemap é um ficheiro XML que lista URLs para um site juntamente com metadados adicionais sobre cada URL (quando foi atualizado pela última vez, com que frequência geralmente muda, e quão importante é, relativamente a outros URLs no site) para que os motores de busca possam rastrear o site de forma mais inteligente.
Embora o protocolo XML Sitemaps possa incluir metadados sobre as páginas web, o Rocket Validator apenas tem em conta os URLs, conforme especificado na tag loc. Na sua forma mais simples, aqui está a estrutura que esperamos para um sitemap XML:
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>http://www.example.com/first</loc>
</url>
<url>
<loc>http://www.example.com/second</loc>
</url>
</urlset>
Neste exemplo, vemos 2 páginas web sendo listadas. Desde que o tipo de conteúdo seja text/xml e esta estrutura seja respeitada, o Rocket Validator irá analisar os seus sitemaps XML.
Sitemaps em texto simples
Existe uma alternativa mais simples quando você só precisa listar URLs, e não precisa passar metadados adicionais - apenas liste os URLs em texto simples, um URL por linha, assim:
http://www.example.com/first
http://www.example.com/second
Neste exemplo, vemos as mesmas 2 páginas web sendo listadas. Desde que o tipo de conteúdo seja text/plain e haja um URL por linha, o Rocket Validator irá analisar os seus sitemaps em texto simples.
Organizando sites grandes usando sitemaps
Você pode usar sitemaps XML ou em texto simples para organizar as páginas web que quer verificar em lote nos seus relatórios de site do Rocket Validator. Existem muitas razões para fazer isso:
- Controlar que URLs exatos incluir no relatório. Em vez de deixar ao acaso os caminhos que o nosso web crawler pode encontrar descobrindo as suas páginas web internas, você pode especificar os URLs exatos a validar usando um sitemap.
- Acelerar o rastreamento. Ao dar ao nosso web crawler uma lista específica de páginas web a incluir, você está facilitando o seu trabalho e portanto tornando-o mais rápido.
- Incluir mais páginas web do que o máximo permitido num relatório. Dependendo do seu plano de subscrição, existe um limite no número máximo de páginas web que um relatório de site pode incluir. Por exemplo, uma subscrição Pro dá-lhe até 5.000 páginas web por relatório. Uma forma de validar um site com 10.000 páginas web é criar 2 sitemaps separados, um para as primeiras 5.000 páginas web e um segundo para as últimas 5.000 páginas web.
-
Organizar páginas web por secções. Você pode querer executar diferentes relatórios em diferentes secções de um site. Por exemplo, pode querer ter um relatório para o Blog e outro relatório para a Loja no seu site. Uma boa forma de organizar isto é usando sitemaps, pode ter
https://example.com/blog_sitemap.txtpara cobrir as páginas web no Blog, ehttps://example.com/store_sitemap.txtpara cobrir as páginas web na Loja. Lembre-se de combinar isto com ummax_pagescorrespondente ao comprimento do sitemap, para evitar que o rastreamento profundo encontre outras páginas web fora dessa secção.
Algumas dicas
Paginação de sitemaps
Se está a gerar os seus sitemaps dinamicamente, pode considerar incluir parâmetros de paginação no URL do sitemap. Por exemplo:
https://example.com/sitemap.php?page_size=1000&page=1
Depois, pode dizer ao seu script sitemap.php para gerar os URLs em páginas de tamanho page_size, e retornar o número da página page.
Validar menos páginas web
Embora tentar validar um site inteiro seja tentador, tipicamente você só vai querer validar uma representação das suas páginas web. Por exemplo, se tem um blog, é provável que todas as publicações nele partilhem o mesmo layout comum, então em vez de validar todas as suas publicações, pode considerar validar apenas uma. Pode por exemplo incluir apenas a lista de publicações, uma publicação de amostra, e uma lista de tags no seu sitemap.