¿Cómo saber si Google u otros motores de búsqueda pueden rastrear una página web?

Para poder indexar una página web y mostrarla en los resultados de búsqueda, Google, Bing y otros buscadores primero deben rastrearla. 

Pero no siempre pueden hacerlo. Puede ser que el archivo robots.txt de un sitio web no permita que los motores de búsqueda rastreen una url.

Archivo robots.txt

El archivo robots.txt es un archivo de texto ubicado en la raíz de un dominio/sitio web. Contienen indicaciones para los motores de búsqueda.

El comando “disallow” avisa a los motores de búsqueda que está prohibido rastrear una url o directorio. Si un motor de búsqueda no puede rastrear una url, no tiene acceso a su contenido. 

Sin tener acceso al contenido, un motor de búsqueda normalmente no indexa la url. Pero, existen excepciones:

  • Los motores de búsqueda pueden encontrarla a través de enlaces internos o externos entrantes.
  • Era rastreable antes de agregar la regla de “disallow”.

“Disallow” sirve, por ejemplo, para que los motores de búsqueda no pueden rastrear urls que:

  • no son relevantes para los usuarios
  • son páginas web privadas o confidenciales.

A veces hay por error comandos “disallow” en el archivo robots.txt que impiden que los motores de búsqueda rastreen urls importantes.

¿Cómo saber si un motor de búsqueda puede rastrear una página web?

Google:

Si es tu propia página web, puedes revisarla en Google Search Console (debes tener tu sitio web en Search Console).

Con la herramienta para inspeccionar urls puedes ver si Google puede rastrear una url o si esta url está loqueada por el archivo robots.txt.

Página web bloqueada por robots.txt.
Página web bloqueada por robots.txt: herramienta para inspeccionar urls de Search Console.

También puedes comprobar una url a través de la herramienta de “Probador de robots.txt” de Google. Es parte de Search Console, pero no hay ningún link desde Search Console a esta herramienta. Puedes abrirla a través de https://www.google.com/webmasters/tools/robots-testing-tool.

Probador de robots.txt, Search Console.
Probador de robots.txt, Search Console.

Acá puedes ingresar urls y Google te muestra si las puede rastrear (también muestra información adicional).

Esta herramienta está disponible solo hasta el 12 de diciembre de 2023.

El 16 de noviembre de 2023, Google lanzó una nueva herramienta que encuentras en Search Console en «ajustes». Pero esta nueva herramienta solo te muestra el estado de tus archivos robots.txt y te permite enviar una versión actualizada de un archivo robots.txt a Google. Con esta herramienta ya no puedes revisar urls específicas. 

Si quieres ver todas las páginas que Google no puede rastrear porque están bloqueadas en el archivo robots.txt, puedes ir al reporte de “Indexación de páginas” en Search Console.

Páginas bloqueadas por robots.txt en Google Search Console.
Páginas bloqueadas por robots.txt en Google Search Console.

Escoge “todas las páginas enviadas” para ver solo las páginas que quieres que Google rastree e indexe. Google muestra si hay páginas bloqueadas por robots.txt.

En Search Console únicamente puedes ver si Google (sus diferentes user agents -robots de búsqueda o “crawler/araña”- como Googlebot, Googlebot News, Googlebot Images, etc.) puede rastrear una url. No puedes ver si otros motores de búsqueda pueden hacerlo.

Google User Agents.
Google User Agents.

Búsqueda en Google: Si buscas por una url en Google y el resultado de búsqueda aparece con un texto que dice «no hay información disponible sobre esta página» sabes que Google no puede rastrear la url. Pero existen enlaces hacia la url o en el pasado si podía rastrearla.

URL indexada, pero bloqueda por robots.txt.
URL indexada, pero bloqueada por robots.txt.

Bing:

En las herramientas para webmaster de Bing puedes revisar si este motor de búsqueda puede rastrear una página web.

Inspeccionar urls en las Herramientas para Webmaster de Bing.
Inspeccionar una url: Herramientas para Webmaster de Bing.

En “inspección de url” puedes -parecido a Search Console- revisar urls. Bing te muestra si el motor de búsqueda puede rastrear una url.

En “herramientas y mejoras” está el “evaluador de robots.txt”. Acá puedes revisar también si Bing puede rastrear una url. Además, si no puede rastrearla, la herramienta te muestra la fila en el archivo de robots.txt que está bloqueando el rastro.

Bing Herramientas para Webmaster- evaluador de robots.txt.
Bing Herramientas para Webmaster – evaluador de robots.txt

Puedes utilizar esta herramienta para ver si los user agents bingbot y AdIDxBot (para anuncios de Bing) puede rastrear urls.

Otras herramientas

Robots.txt Validator and Testing Tool de Merkle

Robots.txt Validator and Testing Tool de Merkle.
Robots.txt Validator and Testing Tool de Merkle.

Con el Robots.txt Validator and Testing Tool de Merkle puedes revisar urls “en vivo”: simplemente entras una url, escoges el user agent (Googlebot, Bingbot, etc.) y la herramienta te muestra si este user agent puede rastrear una url. Googlebot, por ejemplo, es el user agent que utiliza Google para rastrear urls.

Puedes revisar user agents de varios motores de búsqueda, de redes sociales y de diferentes herramientas como por ejemplo Ahrefs.

Si un user agent no puede rastrear una url, la herramienta te muestra la fila en el archivo de robots.txt que está bloqueando el rastro.

Además, puedes copiar un archivo robots.txt y pegarlo en la herramienta para revisar urls. De esta forma puedes hacer cambios en el archivo robots.txt y probarlos antes de subir el archivo a tu servidor.

Robots.txt Test Tool de Ryte

Con el Robots.txt Tester Tool de Ryte puedes revisar urls individuales para diferentes user agents. Pero esta herramienta no te indica dónde exactamente (en qué fila) en el archivo robots.txt se está bloqueando el rastreo.

Robots.txt Test Tool de Ryte.
Robots.txt Test Tool de Ryte.

¿Qué hacer si una url está bloqueada por robots.txt, pero no debería estar bloqueada?

Si encontraste una url importante para tu sitio que los motores de búsqueda no pueden rastrear, pero deberían hacerlo, puedes:

  • Eliminar la indicación disallow que no permite que los motores de búsqueda pueden rastrear una url.
  • O Poner para una url específica una indicación allow en el archivo robots.txt.

Más información sobre el uso del archivo robots.txt encuentras en Semrush y Ahrefs.

¿Qué hago si una url que los motores de búsqueda no pueden rastrear aparece en los resultados de búsqueda?

Digamos que tienes una url y no quieres que los motores de búsqueda la rastrean e indexen, sin embargo, esta url sí aparece en Google y Bing. 

Esto es por enlaces internos o externos que recibe esta url. 

Si no quieres que un motor de búsqueda indexe una url, deberías utilizar la etiqueta meta robots:

Para que los motores de búsqueda pueden leer esta etiqueta meta robots, deben rastrear la url. Así, en el archivo robots.txt se debe permitir que la pueden rastrear.

Esto significa que para impedir que los motores de búsqueda indexen una url específica, es mejor utilizar la etiqueta meta robots que el archivo robots.txt.

Resumen

Existen varias herramientas para poder revisar si los motores de búsqueda pueden rastrear una url. Además, algunas de estas herramientas también te muestran cuál línea en el archivo robots.txt impide un rastreo.

Para muchos webmaster el reporte de Google era suficiente. Pero con los cambios en Search Console -la herramienta “Probador de robots.txt” va a desaparecer- probablemente va a ser necesario utilizar otras herramientas.


También te puede interesar:

¿Por qué mi página web no aparece en Google?

Blogs y el SEO: los problemas.

¿Cuánto tráfico puedo conseguir a través de SEO?