TL;DR la nueva función de URLs iniciales te permite especificar manualmente las páginas web a incluir inicialmente en tu informe. Combina esto con las opciones de Exclusiones y Rastreo profundo para personalizar el comportamiento del rastreador web según tus necesidades.
Rocket Validator proporciona el enfoque más simple para generar informes de validación de todo el sitio. Todo lo que necesitas hacer es introducir una URL de inicio, típicamente la página de inicio, y nuestro rastreador web completamente automatizado encontrará los enlaces internos desde ahí y verificará cada página web usando el W3C HTML Validator y el verificador de accesibilidad Axe Core.
Aunque nuestro rastreador encontrará automáticamente enlaces internos en tus sitios siguiéndolos desde la URL de inicio, hay ocasiones cuando necesitas más control sobre las páginas web exactas incluidas en el informe, por ejemplo, puede que quieras asegurar que ciertas páginas estén incluidas, o que alguna sección esté completamente excluida. Exploremos las opciones avanzadas que puedes usar para tener más control sobre las páginas web incluidas en tus informes de validación de sitio.
Usar un sitemap XML (o TXT)
Como se explica en Sitemaps.org:
Los sitemaps son una forma fácil para que los webmasters informen a los motores de búsqueda sobre las páginas en sus sitios que están disponibles para rastreo. En su forma más simple, un Sitemap es un archivo XML que lista URLs para un sitio junto con metadatos adicionales sobre cada URL (cuándo se actualizó por última vez, con qué frecuencia suele cambiar, y qué tan importante es, en relación a otras URLs en el sitio) para que los motores de búsqueda puedan rastrear el sitio de manera más inteligente.
Los rastreadores web usualmente descubren páginas desde enlaces dentro del sitio y desde otros sitios. Los sitemaps complementan estos datos para permitir que los rastreadores que soportan Sitemaps recojan todas las URLs en el Sitemap y aprendan sobre esas URLs usando los metadatos asociados. Usar el protocolo Sitemap no garantiza que las páginas web sean incluidas en los motores de búsqueda, pero proporciona pistas para que los rastreadores web hagan un mejor trabajo rastreando tu sitio.
Rocket Validator acepta sitemaps XML y TXT, siempre que el archivo sitemap esté alojado en el mismo subdominio que las páginas web. Usar un sitemap es a menudo la opción más conveniente ya que probablemente ya tienes un sitemap en tu sitio para propósitos SEO, pero hay ocasiones cuando eso no es una opción porque no tienes acceso al servidor, o no quieres hacer el esfuerzo extra de construir un sitemap. Ahí es donde entran nuestras opciones avanzadas de rastreo para URLs iniciales y Exclusiones, pero primero hablemos sobre el Rastreo profundo.
Rastreo profundo
Cuando Rocket Validator comienza a generar tu informe de validación de sitio, visita tu URL de inicio (que puede ser una página HTML o un sitemap XML / TXT), busca las páginas web internas enlazadas (aquellas en el mismo subdominio), y las agrega al informe del sitio.
Este proceso se repite entonces para cada página web agregada al informe, para que el rastreador encuentre recursivamente nuevos enlaces internos. Eso es lo que llamamos Rastreo profundo y así es como podemos descubrir miles de páginas web en tus sitios siguiendo enlaces internos.
El Rastreo profundo está habilitado por defecto, pero como usuario Pro, puedes deshabilitar este comportamiento usando las opciones avanzadas de rastreo para casos donde quieres más control sobre las páginas web exactas que quieres incluir en tu informe. Echa un vistazo a esta entrada del blog para más detalles sobre el Rastreo profundo.
URLs iniciales
El descubrimiento de enlaces internos desde la URL de inicio es el enfoque más simple para generar un informe de sitio, pero hay ocasiones cuando quieres especificar las páginas web exactas a ser incluidas y no puedes crear fácilmente un sitemap XML.
La nueva opción avanzada de URLs iniciales está aquí para resolver esto. Ahora puedes especificar la lista exacta de URLs a ser incluidas en el informe, así que nuestro rastreador las agregará directamente en la primera pasada. El nuevo campo es un área de texto que acepta una lista de URLs, una por línea, donde cada URL debe ser absoluta e interna con respecto al campo URL de inicio:
Nuestro rastreador web tomará estas URLs iniciales y las agregará al informe del sitio. Después de eso, si el Rastreo profundo está habilitado, las seguirá recursivamente para agregar más páginas web. Si está deshabilitado, se detendrá ahí.
Excluir URLs
En caso de que quieras omitir algunas URLs o incluso secciones completas de tu sitio, puedes usar la nueva función de Exclusiones. Solo introduce algunas URLs o rutas, una por línea, y las URLs que contengan cualquiera de ellas serán excluidas de tu informe de validación de sitio. Más sobre Exclusiones en esta entrada del blog.
Combinando opciones avanzadas de rastreo
Los nuevos controles avanzados de rastreo te dan mucha flexibilidad para definir cómo te gustaría que se comportara nuestro rastreador web:
- Usa las opciones por defecto para que nuestro rastreador web descubra automáticamente las páginas web internas desde una URL de inicio.
- Introduce un sitemap XML o TXT para definir una lista específica de URLs a ser validadas, y deshabilita el Rastreo profundo para solo validar las que están en esa lista.
- Define URLs iniciales cuando no tengas acceso a sitemaps XML, y deja el Rastreo profundo habilitado para agregar las páginas web enlazadas, o deshabilítalo para restringirlo a la lista inicial.
- Especifica exclusiones para omitir secciones específicas de tu sitio.
¡Esperamos que las opciones avanzadas de rastreo te den un nuevo nivel de control en tus informes de validación de sitio!