¿Qué es la definición de crawl budget?

Crawl budget es el tiempo destinado diariamente para el rastreo de su sitio web o el número de páginas de su sitio  web rastreadas por los motores de búsqueda. Debido al tamaño enorme de Internet, los motores de búsqueda tienen que dividir su atención entre todos los sitios web y determinar las prioridades en su exploración. El crawl budget les facilita esta tarea.

Crawl budget es un término internacional del dominio de SEO. En inglés lo llaman también crawl space o crawl time.

¿Por qué debería ocuparse del crawl budget de su sitio web?

Es deseable que los motores de búsqueda encuentren tantas páginas indexables como sea posible y que lo hacen lo más rápidamente posible.

Sin embargo, si malgasta su crawl budget, probablemente no lo logren. Esto significa que una parte de su sitio web no será encontrada por los robots. Por lo tanto quedará invisible para los visitantes potenciales utilizando los motores de búsqueda, lo que perjudicará sus esfuerzos. Debería entonces prestar atención a la optimización de crawl budget.

¿Qué es el crawl budget para mi sitio web?

Google es el más abierto de todos los motores de búsqueda en cuanto al crawl budget para los sitios web. Si tiene una cuenta en Google Search Console, puede obtener una visión general sobre su crawl budget (sólo para Google desde luego).

Inscríbase en Google Search Console, elija un sitio web y siga a: Rastreo > Estadísticas de rastreo. Allí puede ver el número de páginas rastreadas diariamente por Google.

Crawl budget en Google Search Console

En este ejemplo vemos que el crawl budget diario promedio es 27 páginas. Teóricamente, si este dato no cambia, su crawl budget mensual será: 27 páginas x 30 días = 810 páginas.

Otra posibilidad de obtener una visión general del rastreo de su sitio web por los motores de búsqueda es analizar los archivos de registro de su servidor web.

¿Cómo optimizar un crawl budget?

Primero, necesita investigar dónde malgasta su crawl budget. Aquí abajo describimos unas de las razones más comunes del malgasto de crawl budget:

  • Enlaces rotos o los que redirigen a otras páginas
  • Páginas con un tiempo de carga elevado y la expiración del tiempo de carga
  • URL incorrectas en el mapa de sitio XML
  • Demasiadas páginas no indexables

Enlaces rotos o los que redirigen a otras páginas

Los enlaces rotos son los callejones sin salida para los motores de búsqueda. Lo mismo vale para las cadenas de las redirecciones. Si son demasiado largas, los motores de búsqueda pueden cortar su rastreo. Existe un número límite de las redirecciones encadenadas. Si se traspasa este límite ni los buscadores ni los navegadores aceptarán estas redirecciones. Los nevagadores y Google aceptan 5 redirecciones en cadena como máximo. No se sabe cómo los otros motores de búsqueda tratan este tipo de redirecciones, sin embargo recomendamos evitarlas completamente y también reducir el número de las redirecciones normales al mínimo.

Al corregir los enlaces rotos y los que redirigen a otras páginas, puede recuperar rápidamente una parte de su crawl budget malgastado. Además, mejorará así considerablemente la experiencia de usuarios. Las redirecciones y las redirecciones encadenadas en particular prolongan el tiempo de carga de páginas y molestan así a los visitantes.

A fin de facilitar la búsqueda de los enlaces rotos y los que redirigen a otras páginas, en la aplicación ContentKing creamos para estos problemas una categoría especial. Vaya a Problemas > Enlaces y allí verá si malgasta su crawl budget debido a los enlaces incorrectos. Actualice todos los enlaces de manera que lleven a una URL indexable.

Enlaces rotos o los que redirigen a otras páginas en la aplicación ContentKing

Páginas con el tiempo de carga elevado y la expiración del tiempo de carga

Si las páginas se cargan lentamente o si el tiempo de carga aun expira antes de que se carguen, los motores de búsqueda no visitan tantas páginas como podrían durante el tiempo dado. Esto también perjudica considerablemente la experiencia de usuarios, lo que tiene por consecuencia una tasa de conversión menor.

El tiempo de carga que excede 2 segundos es un problema. En un caso ideal su página debería cargarse en menos de 1 segundo. Contrólelo regularmente con una herramienta, como por ejemplo Pingdom, WebPagetest o GTmetrix.

Google le informa sobre el tiempo de carga de páginas tanto en Google Analytics (Comportamiento > Velocidad del sitio) como en Google Search Console (Rastreo > Estadísticas de rastreo).

Además, Google Search Console y Bing Webmaster Tools le informan sobre la expiración de tiempo de carga de páginas. En Search Console puede encontrar estos datos aquí: Rastreo > Errores de Rastreo. En Bing Bing Webmaster Tools se hallan aquí: Informes y datos > Información de rastreo.

Controle regularmente si sus páginas se cargan rápidamente y si no, no tarde en corregirlo. Un tiempo de carga es esencial para su éxito en Internet.

URL incorrectas en el mapa de sitio XML

Errores en el mapa de sitio XML en Google Search Console

Todas las URL incluidas en el mapa de sitio XML deberían ser indexables, ya que los mapas de sitio XML son una guía importante para los motores de búsqueda al buscar sus páginas. Esto vale especialmente para los sitios web grandes. Si su mapa de sitio contiene unas páginas que no existen más o que redirigen a otras páginas, usted malgasta su crawl budget. Controle su mapa de sitio regularmente a fin de encontrar todas las páginas que no pertenecen allí. Google Search Console informa sobre los problemas de mapas de sitio XML aquí: Rastreo > Sitemaps. Bing Webmaster Tools lo hace aquí: Configurar mi sitio > Sitemaps.

Una de las mejores prácticas en la optimización de crawl budget es dividir el mapa de sitio XML en varios mapas más pequeños. Puede, por ejemplo, crear un mapa de sitio para cada una de las secciones de su sitio web, lo que le ayudará en el caso de problemas determinar rápidamente en qué sección se hallan. He aquí un ejemplo: su mapa de sitio de la sección A contiene 500 enlaces de los que 480 son indexados. Esto significa que todo va bien. Sin embargo, si su sección B también contiene 500 enlaces de los que 120 son indexados, hay un problema que requiere su atención. Es posible que haya incluido demasiadas URL no indexables en el mapa de sitio de esta sección.

Demasiadas páginas no indexables

Si su sitio web contiene demasiadas páginas no indexables, pero accesibles para los motores de búsqueda, los robots pierden su tiempo en estas páginas poco importantes.

Para encontrar si tiene de veras demasiadas páginas no indexables, mire el número total de las páginas que los motores de búsqueda encontraron. Con esto le ayudan herramientas como Screaming Frog o la aplicación ContentKing.

En la aplicación ContentKing el número total de las páginas rastreadas se halla en la sección Páginas en la parte de arriba.

Número de páginas rastreadas en la aplicación ContentKing

Compare este número con el número de las páginas indexadas utilizando el término de búsqueda site:

Número de páginas indexadas en Bing

En este ejemplo 200 000 páginas fueron encontradas, pero solamente 30 000 páginas fueron indexadas por Bing. Hay dos posibles explicaciones:

  1. Los motores de búsqueda todavía están indexando su sitio web y este número no es definitivo.
  2. Hay un problema del crawl budget que requiere su atención. Busque las secciones que no están accesibles correctamente para los motores de búsqueda e impídeles rastrear estas secciones utilizando el archivo robots.txt.

Estructura de los enlaces internos

La manera de entrelazar las páginas de su sitio web por enlaces internos juega un papel  importante en la optimización de crawl budget. Lo llamamos estructura de los enlaces internos de su sitio web.

Las páginas que tienen pocos enlaces internos no atraen tanto la atención de los motores de búsqueda como las páginas mencionadas frecuentemente en otras páginas (no tomamos en cuenta ahora los enlaces de retroceso).

Hay que evitar las estructuras de enlaces demasiado jerárquicas con las páginas en medio que tienen pocos enlaces. Los robots no rastrean a menudo estas páginas. La situación es aún peor para las páginas que se hallan al final de esta estructura: debido a la falta de enlaces corren riesgo de quedar ignoradas completamente por los motores de búsqueda.

Sus páginas más importantes deben tener bastantes enlaces internos. Las páginas rastreadas recientemente se posicionan mejor habitualmente en los resultados de búsqueda. Teniéndolo en cuenta, ajuste su estructura de enlaces internos.

Por ejemplo, si tiene en su blog un artículo de 2011 que todavía genera mucho tráfico orgánico, hay que poner enlaces hacia este artículo en el resto de su contenido. Como ha escrito muchos otros artículos durante los siguientes años, el artículo de 2011 se desplaza automáticamente hacia abajo en su estructura de los enlaces internos.

¿Qué son las razones comunes del malgasto de crawl budget?

Hay unas razones comunes del malgasto de crawl budget que se repiten a menudo. Aquí las describimos explicando también cómo recuperar su crawl budget:

  1. Filtros de productos
  2. Páginas de resultados internas indexables
  3. Tag pages

Los dos primeros puntos son las trampas para los motores de búsqueda. Debido a ellos se genera un montón de URL accesibles para los motores de búsqueda, lo que es un problema grave para su crawl budget.

Filtros de productos

En los filtros cada criterio contiene al menos dos valores. Al combinar varios criterios, los visitantes pueden encontrar rápidamente lo que buscan. Es muy útil entonces para los usuarios. Sin embargo, si las páginas filtradas son accesibles para los robots, se genera un montón de URL, lo que es una trampa para los motores de búsqueda.

Solución:

  1. Utilice el archivo robots.txt para impedir a los motores de búsqueda el acceso a las URL generadas por los filtros de productos. Si no puede hacerlo de esta manera, utilice Google Search Console y Bing Webmaster Tools e impide allí a Google y a Bing el rastreo de las páginas filtradas.
  2. Añada rel=”nofollow” a los enlaces en las páginas filtradas.

Páginas de resultados internas indexables

En la mayoría de los casos las páginas de resultados de búsqueda internas no deberían ser rastreadas ni indexadas por los motores de búsqueda. Si no, corren riesgo de generar un contenido duplicado. Hay que evitarlo. Para prevenir el rastreo y la indexación de estas páginas, debe impedir a los motores de búsqueda el acceso a ellas.

Solución: Utilice el archivo robots.txt para impedir el acceso a estas páginas a los motores de búsqueda. Le ofrecemos un ejemplo del archivo robots.txt para un sitio web en WordPress que trata este problema. Si no puede hacerlo de esta manera, utilice Google Search Console y Bing Webmaster Tools e impide allí a Google y a Bing el rastreo de estas páginas.

Tag pages

Una razón un poco menos técnica de tener un montón de páginas no indexables es la siguiente:

Imagine esta situación: en 2010 utilizaba las etiquetas para los artículos de su blog. A usted le gusta mucho escribir y con el tiempo escribió muchos artículos y acumuló miles de etiquetas. Al leer de Google Panda decidió comenzar a utilizar tag pages que evitan problemas con la indexación. Sin embargo, al prevenir este tipo de problemas, se produjeron problemas del rastreo: los motores de búsqueda rastreaban estas páginas, pero con el tiempo se dieron cuenta de que no podían indexarlas y por eso comenzaron a ignorarlas. Pero siguen malgastando allí su crawl budget.

Solución: Utilice su archivo robots.txt para impedir a los motores de búsqueda el acceso a sus tag pages.

¿Cómo incrementar el crawl budget de su sitio web?

Una entrevista de Eric Enge con el jefe del equipo de Webspam en Google, Matt Cutts, reveló la relación entre la autoridad y el crawl budget.

Matt Cutts dijo:

El número de páginas que rastreamos es aproximadamente proporcional a su PageRank. Si existen muchos enlaces hacia su página principal, la rastrearemos por seguro. Si esta página contiene enlaces a otras páginas, éstas van a obtener un PageRank y las rastrearemos también. Sin embargo, como continuamos más adentro de su sitio web, el PageRank tiende a disminuir.

Aunque Google dejó de actualizar públicamente los valores de PageRank de páginas, pensamos que siempre forman parte de su algoritmo. Como el PageRank no es un término claro, vamos a llamarlo mejor autoridad de página. Lo importante de la entrevista es que Matt Cutts dijo básicamente que: había una fuerte relación entre la autoridad de página y el crawl budget.

A fin de incrementar el crawl budget de su sitio web, necesita aumentar entonces la autoridad del sitio. Se puede hacer en parte consiguiendo más enlaces de otros sitios web.

Preguntas frecuentes acerca del crawl budget

  1. ¿Cómo puedo incrementar mi crawl budget?
  2. ¿Debería utilizar las URL canónicas y las meta etiquetas robots?

1. ¿Cómo puedo incrementar mi crawl budget?

Google ha dicho que hay una fuerte relación entre la autoridad de página y el crawl budget. Cuanto más autoridad la página tiene, tanto mejor es su crawl budget.

2. ¿Debería utilizar las URL canónicas y las meta etiquetas robots?

Sí, debería utilizarlas. Es importante comprender la diferencia entre los problemas de indexación y de rastreo.

Las URL canónicas y las meta etiquetas robots dicen claramente a los motores de búsqueda qué páginas deberían indexar, pero no les impiden el rastreo de estas páginas.

Para prevenir problemas de rastreo, utilice el archivo robots.txt y rel=”nofollow”.

¿Le fue útil este artículo?

Pruebe usted mismo la utilidad de la aplicación ContentKing

Comprenda su sitio web

  • Una prueba completa

    Durante quince días pruebe todo lo que ContentKing ofrece.
  • No se requiere ninguna tarjeta de crêdito

    Lo único que necesitamos es su URL y la dirección de su correo electrónico.
  • No hay que instalar nada

    ¡Comience en menos de 20 segundos!
Ponga un nombre de dominio válido, por favor (www.ejemplo.es).