¿Qué es el archivo Robots.txt y cómo configurarlo correctamente?

¿Qué es el archivo Robots.txt y cómo configurarlo correctamente?

Auditoría gratuita

Acceda a una auditoría completa de su sitio web con más de 300 datos técnicos.

Something went wrong. Please, try again later.
De confianza
Sitechecker trusted company

Herramienta gratuita de comprobación y auditoría SEO de sitios web

  • Escanee el sitio en busca de más de 300 problemas técnicos
  • Supervise la salud de su sitio 24/7
  • Rastree las posiciones de su sitio web en cualquier geografía

Los archives Robots.txt sirven para proveer datos valiosos al sistema de escaneo de búsquedas de una web. Antes de examinar las páginas de tu sitio, los robots de búsquedas llevan a cabo la verificación de este archivo. Debido a tal procedimiento, estos pueden mejorar la eficiencia del proceso de escaneo. De esta manera puedes ayudar a los sistemas de búsquedas a ejecutar primeramente la indexación de los datos más importantes en tu página. Pero esto sólo es posible si configuras correctamente el archivo robots.txt. Al igual que las directrices del generador de archivos robots.txt, la instrucción noindex en la meta etiqueta dirigida a los robots no es más que una recomendación para los bots. Esa es la razón por la que no pueden garantizar que las páginas cerradas no serán indexadas y no serán incluidas en el índice. Las garantías están fuera de lugar en este sentido. Si necesitas cerrar la indexación de alguna parte de tu sitio, puedes usar una contraseña para cerrar ese directorio.

Sintaxis principal

User-Agent: el bot al cual le serán aplicadas las siguientes reglas (por ejemplo: Googlebot).

Disallow: las páginas a las que deseas cerrar el acceso (al inicio de cada línea puedes incluir una larga lista de directrices semejantes).
Cada grupo User-Agent / Disallow debe ser dividido con una línea en blanco. Pero dentro del grupo no debe haber cadenas vacías (entre User-Agent y la última línea del comando Disallow).

Hash mark o Numeral (#): puede ser usado cuando necesitamos dejar comentarios en el archive robots.txt para esa línea. Cualquier cosa mencionada después del numeral será ignorada. Cuando trabajar con un generador archivos robots.txt, este comentario es aplicable a ambas,
tanto para la línea como para el final contenido luego de las directrices.
Catálogos y nombres de archivos son sensibles al registro: los sistemas de búsquedas aceptan «Catalogo», «catalogo», and «CATALOGO» como instrucciones diferentes.

Host:: es usado por Yandex señalar el sitio espejo. Es por esto que si aplicas una redirección 301 por página para mantener dos sitios juntos, no hay necesidad de repetir el procedimiento para el archivo robots.txt (en el sitio duplicado). En consecuencia, Yandex detectará la directriz mencionada en el sitio web que necesita ser adherido.

Crawl-delay: puedes limitar la velocidad de desplazamiento de tu sitio web, lo cual es de gran utilidad si tienes una gran audiencia en tu sitio. Tales opciones están disponibles dada la protección del generador de archivos robots.txt de problemas adicionales con una carga extra de tu servidor, la cual es causada porque diversos sistemas de búsqueda están procesando información de tu sitio web.

Frases regulares: para configurar de una manera más flexible las directrices, pues usar dos símbolos mencionados a continuación:
* (asterisco) – significa cualquier secuencia de símbolos,
$ (signo de dólar) representa en final de la fila.

Principales ejemplos del uso del generador robots.txt

 

Prohibición de indexación del sitio entero

User-agent: *
Disallow: /

Esta instrucción necesita ser aplicada cuando se crea un Nuevo sitio y usa sub dominios para proveer el acceso al mismo. Al trabajar en un sitio nuevo, es muy común que los desarrolladores web olviden cerrar para indexación algunas partes del sitio, y como resultado, los sistemas de indexación procesarán una copia completa del mismo. Si ocurre tal error, tu dominio maestro necesita ser sometido a una redirección de tipo 301. ¡Un Robot.txt puede ser de gran uso aquí!

El siguiente comando permite la indexación del sitio completo:

User-agent: *
Disallow:

 

Prohibición de indexación de una carpeta en particular

User-agent: Googlebot
Disallow: /no-index/

 

Prohibición de visitas a la página a cierto tipo de robot

User-agent: Googlebot
Disallow: /no-index/this-page.html

 

Prohibición de indexación de cierto tipo de archivo

User-agent: *
Disallow: /*.pdf$

 

Para permitir una visita a la página determinada para un determinado robot web

User-agent: *
Disallow: /no-bots/block-all-bots-except-rogerbot-page.html
User-agent: Yandex
Allow: /no-bots/block-all-bots-except-Yandex-page.html

 

Sitio web enlazado al sitemap

User-agent: *
Disallow:
Sitemap: http://www.example.com/none-standard-location/sitemap.xml

Peculiaridades a tomar en cuenta cuando se usan estas directrices si constantemente estás llenando tu sitio con contenido único:

  • No añadas un enlace a tu sitemap en un generador de archivos robots.txt;
  • Escoge algunos nombres no estandarizados o poco comunes para llamar al sitemap o sitemap.xml (por ejemplo: mi-nuevo-sitemap.xml y entonces añade este enlace al sistema de búsquedas usando el webmaster)

Esto se debe a que una gran cantidad de webmasters desleales analizan el contenido de otros sitios que no sean los suyos y los utilizan para sus propios proyectos.

Compruebe las páginas de su sitio web para el estado de indexación

Detecte todas las URL no indexadas y descubra qué páginas de sitios pueden ser rastreadas por los robots de los motores de búsqueda

Something went wrong. Please, try again later.

¿Qué es mejor? ¿Generador Robots.txt o Noindex?

Si no quieres que alunas páginas sean indexadas, el noidex como meta etiqueta es lo más recomendable. Para implementarla, necesitas añadir la siguiente metaetiqueta en tu página:

<meta name=”robots” content=”noindex, follow”>

Usando este abordaje podrás:

  • Evitar las indexación de ciertas páginas durante la visita del robot web (no habrá necesidad de borrar las páginas manualmente usando un webmaster);
  • Administrar para transmitir el link juice de tu página.

Los creadores de archivos Robots.txt funcionan mejor para cerrar este tipo de páginas:

  • Páginas administrativas de tu sitio;
  • Buscar datos en el sitio;
  • Páginas de registro, autorización y/o cambio de clave.

 

¿Qué herramientas y cómo estas puede ayudarme a revisar el archivo robots.txt?

Cuando generas robots.txt necesitas verificar si estos contienen algún error. Los robots.txt de los sistemas de búsqueda pueden ayudarte a hacer frente a estas tareas:

Google Webmasters

Inicia sesión en la cuenta con el sitio actual confirmado en su plataforma, luego ve a Rastreo Crawl y entonces ve a Robots.txt Tester.

Robots.txt tester in Google Search Console

Esta prueba de Robots.txt te permite:

  • Detectar todos los errores y posibles problemas de una sola vez;
  • Revisar en busca de errores y hacer las correcciones necesarias allí mismo para instalar todos los archivos nuevos en tu sitio sin ninguna verificación adicional;
  • Examinar si has cerrado apropiadamente las páginas que te gustaría evitar que sean indexadas y si esas que se supone van a ir a indexación estas abiertas apropiadamente.


Yandex Webmaster

Inicia sesión en la cuenta con el sitio actual confirmado en su plataforma, luego ve a Tools y entonces ve a análisis de Robots.txt.

Robobts txt generator for Yandex

Este auditor ofrece casi las mismas oportunidades de verificación que el descrito anteriormente, la diferencia reside en:

  • Aquí no necesitas autorizar y probar los derechos de un sitio que ofrece una verificación directa de tu archivo robots.txt;
  • No hay necesidad alguna de insertar cada página: la lista entera de páginas puede ser revisada en sólo una sesión;
  • Puedes estar seguro que Yandex identificará adecuadamente tus instrucciones.
Enlaces Rápidos

También te puede interesar

Ver más mensajes
Explora Qué Es Una Página 404, Porqué Aparece Y Cómo Rastrear En El Sitio Web Un Error 404
SEO técnico
Explora Qué Es Una Página 404, Porqué Aparece Y Cómo Rastrear En El Sitio Web Un Error 404
Iryna Krutko
Jan 31, 2024
Explore qué es la paginación y cómo implementarla correctamente
SEO técnico
Explore qué es la paginación y cómo implementarla correctamente
Roman Rohoza
Jan 30, 2024
Еxplora la hoja de trucos con códigos de respuesta HTTP más completa
SEO técnico
Еxplora la hoja de trucos con códigos de respuesta HTTP más completa
Roman Rohoza
Jan 31, 2024
close