saltar al contenido

Cómo crear y optimizar el archivo Robots.txt

Cómo crear un Robots.txt que te permite optimizar el rastreo de bots Dioses buscador y mejorar el Posicionamiento SEO?

Esta es la pregunta que quiero responder hoy para mostrarle cómo un simple archivo de texto insertado en nuestro sitio puede marcar la diferencia..

¿Qué es el archivo Robots.txt??

El archivo Robots.txt es un archivo de texto que se coloca en el servidor y su función principal es la de bloquear ciertas áreas de nuestro sitio web para que no sean rastreadas por bots.

La mayoría de los principales motores de búsqueda (incluido Google, Bing y Yahoo) reconoce y respetar las reglas escritas en el archivo Robots.txt.

Seguramente su sitio web tiene partes innecesarias y no quiere que los motores de búsqueda pierdan el tiempo rastreándolas..

Si agiliza el trabajo de motores de búsqueda como Google hacer que el rastreo de su sitio sea lo más accesible y rápido posible.

Para hacer esto, marcar páginas como noindex o establecer sugerencias como enlaces no seguir puede acelerar este proceso de escaneo; mamá puedes hacer mucho más y para ello está el archivo robots.txt.

Por qué Robots.txt es importante?

Robots.txt no es obligatorio pero es muy recomendable optimizarlo porque ayudará al posicionamiento de su sitio web.

Debe evitar que Google indexe URL sin importancia en su sitio quesegundo, indicando páginas sin índice como "política de privacidad” "política de cookies", ” notas legales” "URL con contenido no buscado en Google” etc.

El archivo robots.txt es un archivo de texto sin formato con algunas reglas que funciona como filtro para robots y le permite controlar los permisos de acceso a determinadas páginas o carpetas de su sitio web.

Es el primer archivo que consultará el robot y todos los robots acreditados respetan las directivas del archivo robots.txt.

Existen 3 razones principales por las que debería utilizar un archivo Robots.txt

  • Bloquear el rastreo de páginas no públicas: A veces hay páginas en su sitio que no desea que se indexen.. Por ejemplo, puede tener una versión temporal de una página, una página de inicio de sesión. Estas páginas deben existir. Pero no quieres que la gente al azar aterrice en él. Este es un caso en el que usaría robots.txt para bloquear estas páginas de rastreadores y robots de motores de búsqueda..
  • Maximice su presupuesto de escaneo: si tiene dificultades para indexar todas sus páginas, puede tener un problema con su presupuesto de escaneo. El presupuesto de rastreo define la cantidad de recursos que el motor de búsqueda está dispuesto a gastar en rastrear su sitio y, por lo tanto, es una especie de índice de aprobación que afectará su clasificación.. Bloqueando páginas sin importancia con robots.txt, El robot de Google puede invertir más de su presupuesto de rastreo en páginas que realmente importan.
  • Evitar la indexación de recursos: el uso de metadirectivas puede funcionar tan bien como Robots.txt para evitar la indexación de páginas. sin emabargo, las meta directivas no funcionan bien para los activos multimedia, como PDF e imágenes. Aquí es donde entra en juego robots.txt.

Robots.txt le dice a las arañas de los motores de búsqueda que no rastreen páginas específicas en su sitio web.

Puede comprobar en cuántas páginas ha indexadoConsola de búsqueda de Google

cobertura de indexación

Ven a crear un archivo robots.txt

Para ver si un sitio web ha creado un archivo robots.txt , solo tiene que indicar después de su "dominio / robots.txt” .

Ejemplo: nomesito.com/robots.txt

Crear el archivo robots.txt es muy sencillo y puedes hacerlo de varias formas:

Cree un archivo .txt y cárguelo en el directorio raíz de su sitio web.

Abrir un archivo testos, indique las directivas que desee e guárdelo como robots.txt.

Ahora solo tienes que subirlo a la carpeta raíz de tu sitio web y listo.

Usando un complemento como Yoast Seo.

Accede a la opción de Herramientas de Yoast y haga clic en Crear Robots.txt.

Como puedes ver, crea por defecto un robot por defecto que puedes guardar y ya lo has creado a falta de indicar el mapa del sitio.

Para hacer esto, si usas Yoast o el archivo de texto, debes indicar la siguiente línea:

Si usa el plugin Google xml Sitemap:

mapa del sitio: yourwebsite.com/sitemap.xml

O, si usa el mapa del sitio de Yoast Seo:

mapa del sitio: yourwebsite.com/sitemap_index.xml

Para insertar el mapa del sitio dentro del archivo robots.txt, solo tiene que copiar la ruta del mapa del sitio con su dominio en el archivo robots.txt

Recuerda pegarlo al final del archivo robots.txt..

Comandos principales Robots.txt

Para guiar a los robots, hay algunas reglas que debes seguir.

Los comandos principales para un archivo robots.txt simple usan varias reglas:

Agente de usuario: identifica para qué instrucciones del mecanismo de seguimiento se incluyen
Rechazar: indica qué páginas no deben ser rastreadas por los rastreadores.
Permitir: indica qué páginas deben rastrear los rastreadores.
mapa del sitio: muestra la ubicación del mapa del sitio de su sitio web, importante para que los rastreadores encuentren nuevas entradas.
Retraso de rastreo: le dice al robot la cantidad de segundos que debe esperar entre cada página. Es muy útil para reducir la carga del servidor.. El tiempo recomendado es 5-10 segundos, desde dinahosting siempre recomendamos 10 segundos.

También puede utilizar caracteres comodín:

Asterisco (*) : válido para cualquier secuencia de caracteres. Por ejemplo, todos los directorios que comienzan con "directorio” sería "/ directorio * /”
Dólar ($) : indica el final de una URL. Por ejemplo, para indicar cualquier archivo que termine con la extensión .inc, debe usar "/.inc$".

regole robots txt

Un ejemplo de un archivo robots.txt básico:

Agente de usuario: *
Rechazar: /nombrecarpeta/
Mapa del sitio: https://tudominio.com/sitemap.xml

Un ejemplo de robots.txt más complejo:

Agente de usuario: *
Rechazar: /administración/
Rechazar: /cgi-bin /
Rechazar: /imagen/
Rechazar: /tecnología/
Permitir: /tecnología / pc
Retraso de rastreo: 10
Agente de usuario: googlebot
Rechazar: /categorías /
Mapa del sitio: https://www.tudominio.com/sitemap.xml

Ven a verificare Robots.txt?

Una vez que tengamos nuestro archivo robots.txt listo, es hora de subirlo para que Google lo considere.

Para hacer esto, vamos arriba Consola de búsqueda de Google y seleccione nuestro sitio.

Si no lo hemos registrado, necesitamos agregar una nueva propiedad con el botón rojo en la esquina derecha.

El instrumentoTarchivo robots.txt de ester dei te deja saber si su archivo robots.txt evita que los rastreadores web de Google accedan a URL específicas en su sitio.

Por ejemplo, puedes usar esta herramienta para compruebe si el rastreador de Googlebot de imágenes de Google puede rastrear la URL de una imagen que desea bloquear de la búsqueda de imágenes de Google.

RobotsUna vez que vayamos a nuestro sitio tendremos que:

Escanear> tester robots.txt
Allí podemos subir nuestro bloc de notas o, si ya tenemos un archivo robots.txt cargado desde antes, modificarlo en tiempo real.

Lo único que debes hacer es edite el contenido del cuadro de contenido que aparece con los robots actuales y haga clic en "Enviar” para descargarlo.

Robots.txt y SEO

Los robots pueden ayudar mucho a monitorear su sitio web, pero debes asegurarte de que funcione correctamente.

Una simple coma o una letra mayúscula incorrecta pueden causar un daño significativo al SEO.

Si es necesario o no en todos los sitios depende.

Tu debes saber eso, en sitios web pequeños con arquitecturas simples, la verdad es que los buscadores lo rastrean sin problemas.

También hay importantes sitios web de SEO que dicen no usar robots.txt ya que Google es lo suficientemente inteligente como para entender un sitio web..

sin embargo, Siempre digo que todo ayuda en SEO, no importa que tan pequeño.

Si puede lograr que Google priorice y comprenda mejor su sitio, ahorrándote tiempo, mi consejo es usar un bot consistente sin volverse loco.

Te aconsejo que trabajes en el tuyo robots.txt y ayude a Google a rastrear su sitio web.

Simone Stoppioni
Últimos mensajes de Simone Stoppioni (ver todo)