El mejor robots.txt para WordPress – Manual explicativo del robots.txt
Vamos a empezar por explicar una serie de cosas sobre el robots.txt, ya que en el SEO se habla mucho de “bloquear ciertas partes de la web a Google” usando el robots.txt, pero en muy pocos casos se conoce exactamente que es el robots.txt y todos los usos que se le pueden dar, ya que GoogleBot no es el único bot que da vueltas por Internet en busca de nuevo contenido para scrapear.
Un bot (también llamado “araña” al traducirlo a español) es un software que rastrea sitios web en busca de nuevo contenido, cambios o cualquier cosa para el que haya sido diseñado, existen bots de muchos tipos, aunque de los que más oímos hablar es de Google.
El robots.txt lleva utilizándose desde que en 1994 Martijn Koster lo propuso en la empresa en la que trabajaba en ese momento (Nexor), con el fin de bloquear todos los bots maliciosos que “atacaban” sus sitios web.
Índice del artículo
- ¿Qué es el robots.txt?
- ¿Para que sirve el robots.txt?
- Parametros aceptados en el del robots.txt
- Plugins para modificar el robots.txt en Wordpress
- Archivo robots.txt para Wordpress
- Probador de robots.txt en Google Search Console
- Atributo NOINDEX como alternativa al robots.txt
- Solución: Recursos bloqueados en Google Search Console
¡No te enviaremos spam, lo prometemos! Enviamos a nuestros suscriptores nuestro contenido en WordPress, hosting, marketing digital y programación.
-
Responsable:
RAIOLA NETWORK, S.I. C.I.F.: B27453489 Avda de Magoi, 66, Semisótano, Dcha., 27002 Lugo (Lugo) Telefono: +34 982776081 e-mail: info@raiolanetworks.es
-
Finalidad:
Atender solicitudes de información, ejecución de la contratación de servicios y remisión de comunicaciones comerciales.
-
LEGITIMACIÓN:
Consentimiento del interesado y contratación de productos y/o servicios del Responsable
-
Destinatario
No se ceden datos a terceros, salvo obligación legal. Personas físicas o jurídicas directamente relacionadas con el Responsable Encargados de Tratamiento adheridos al Privacy Shield
-
DERECHOS:
Acceder, rectificar y suprimir los datos, portabilidad de los datos, limitación u oposición a su tratamiento, derecho a no ser objeto de decisiones automatizadas, así como a obtener información clara y transparente sobre el tratamiento de sus datos.
-
INFORMACIÓN ADICIONAL:
Se puede consultar la política de privacidad de forma más detallada aquí.
[adserver zoneid=»29″]
¿Qué es el robots.txt?
Aunque muchos bots actualmente (sobre todo los más “cabrones”) pasan del robots.txt, la mayoría de bots y arañas “legales” siguen haciéndole caso a las indicaciones del robots.txt, entre ellos está el bot o araña de Google.
La teoría dice que cuando un bot llega a un sitio web, lo primero que revisa es si existe un archivo robots.txt y si este archivo existe, lo analiza para ver que partes del sitio web tiene bloqueadas y no puede acceder a ellas o scrapear su contenido.
Podemos usar el archivo robots.txt para que los bots o arañas no puedan acceder algunas partes de nuestro sitio web, pero no solo eso, sino que también podemos elegir que bots y arañas pueden entrar y cuáles serán bloqueadas automáticamente y en que partes de la web seran bloqueados, además también podemos establecer límites de “velocidad” a la hora de navegar estos bots y arañas por nuestro sitio web con el fin de que “no se pasen”.
¿Para que sirve el robots.txt?
Como hemos dicho anteriormente, el robots.txt sirve para algo más que para bloquear ciertas partes de nuestro sitio web al robot de Google, es decir, tiene más usos, pero muy pocos webmasters son capaces de explotar todo el potenciar que tiene el robots.txt con sus parámetros.
- El robots.txt nos permite (mediante el parámetro “sitemap”) indicar donde se encuentran los sitemaps de nuestro sitio web, esto es útil ya que debemos tener en cuenta que el robots.txt es el primer archivo que revisa el bot o araña de Google al entrar a nuestro sitio web (o al menos eso dice la teoría).
- Nos permite bloquear el acceso de los bots a ciertas partes “técnicas” u “ocultas” de la aplicación, es decir, zonas donde los crawlers o bots “no pintan nada”, como por ejemplo la zona del WP-ADMIN de WordPress.
- Podemos bloquear el acceso de las arañas a ciertas zonas del sitio web que no nos interesa que se indexen por alguna razón.
- Podemos bloquear el acceso a nuestro sitio web a ciertos bots que sabemos a ciencia cierta que no van a hacer nada productivo en nuestro sitio web, aunque también debemos tener en cuenta que los bots más “dañinos” ni consultan el robots.txt, simplemente navegan por los enlaces del sitio web en busca de cumplir su objetivo.
La mayoría de estas aplicaciones que hemos nombrado anteriormente tienen relación o sirven para optimizar el SEO on Page de un sitio web, ya que nos permite controlar lo que queremos que indexen los buscadores y lo que no queremos que se indexe.
Parametros aceptados en el del robots.txt
La sintaxis del robots.txt no es complicada, es decir, no tiene muchos parámetros que se puedan utilizar, pero los pocos que tiene debemos saber usarlos bien para no causar ningún problema de indexado en nuestro sitio web, ya que suele ser uno de los problemas que ocurren cuando una persona no experimentada toca un robots.txt siguiendo las indicaciones de algún sitio de internet poco fiable con el objetivo de “bloquear cosas”.
Vamos a detallar algunos parámetros útiles que podemos usar en el robots.txt:
- user-agent: Sirve para especificar a qué user-agents van a afectar las reglas disallow y allow que pongamos a continuación. Si quieres ver el listado completo de user-agents que podemos encontrarnos, los puedes encontrar en este listado: http://www.robotstxt.org/db.html
- disallow: Podemos especificar una barra / para bloquear el acceso a todo el sitio o podemos especificar la ruta (incluso usando comodines *) que queremos bloquear.
- allow: Es como el disallow pero para permitir, es útil cuando queremos añadir ciertas exclusiones a un disallow, es decir, para hacer excepciones.
- sitemap: Nos permite especificar donde está el sitemap del sitio web, podemos especificar varios simplemente con añadir varios parámetros sitemap al archivo robots.txt
- crawl-delay: Permite especificar un número de segundos de espera entre cada página revisada por el bot en cuestión, es útil para evitar excesos por parte de los bots y crawlers, aunque muchos bots ni le hacen caso, como por ejemplo el propio GoogleBot.
Para que veas más o menos como se utilizan estos parámetros (aunque ya lo vas a ver después en el archivo robots.txt que hemos preparado para ti) te mostramos algunos ejemplos de cosas que puedes hacer con los parámetros del robots.txt.
Con este código bloqueas el acceso a la web a TODOS los bots (evidentemente solo es recomendable usarlo en webs que no quieras que sean rastreadas por los buscadores):
User-agent: * Disallow: /
En este otro caso que mostramos a continuación, se bloquea el acceso al bot de Google a TODA la web:
User-agent: Googlebot Disallow: /
Pero en el siguiente puedes ver como bloqueamos el acceso a GoogleBot (bot de Google) a una ruta determinada y usamos el comodín para hacer lo mismo con todas las subpáginas:
User-agent: Googlebot Disallow: /aquinoentras/*
Y ahora bloqueamos a TODOS los bots ciertas rutas (este código se suele usar para evitar que los buscadores indexen las paginaciones y cuente como contenido duplicado):
User-agent: * Disallow: */page/*
Y finalmente, está la opción de decir dónde está el sitemap o sitemaps, en este caso te pongo como ejemplo lo que tenemos en raiolanetworks.es:
Sitemap: https://raiolanetworks.es/indice-sitemap.xml Sitemap: https://raiolanetworks.es/page-sitemap.xml Sitemap: https://raiolanetworks.es/page-sitemap.xml Sitemap: https://raiolanetworks.es/page-sitemap.xml
Como puedes ver con tus propios ojos, la sintaxis del robots.txt no es complicada, no tiene muchos parámetros y los pocos que tiene son fácilmente configurables si nos interesamos un poco por el tema y sabemos cómo funcionan los bots o arañas (también llamado crawlers).
Plugins para modificar el robots.txt en WordPress
La opción de modificar o crear el archivo robots.txt en un sitio web usando un cliente FTP para acceder al servidor o hosting siempre está disponible (o debería), pero también podemos modificar el archivo robots.txt desde WordPress utilizando un plugin para ese fin.
En este artículo vamos a listar unos cuantos plugins que te permitirán modificar el robots.txt de un sitio web o blog WordPress sin salir del back-end del CMS:
- txt rewrite: https://wordpress.org/plugins/robotstxt-rewrite/
- Virtual Robots.txt: https://wordpress.org/plugins/pc-robotstxt/
- WordPress Robots.txt File: https://wordpress.org/plugins/robots-txt-file/
Algunos plugins importantes como Yoast SEO o All in One SEO Pack también disponen de módulos para modificar en mayor o menor medida del robots.txt desde el panel de administración de WordPress, por lo que también debemos tenerlos en cuenta a la hora de buscar una solución: para que vamos a instalar otro plugin, si ya tenemos uno que nos permite hacer lo que tenemos que hacer.
[adserver zoneid=»29″]
Archivo robots.txt para WordPress
El archivo robots.txt que tienen las instalaciones de WordPress después de su instalación ha ido cambiando con el tiempo según han ido evolucionando las versiones de WordPress, de hecho, hasta hace poco el robots.txt era más completo que el actual, pero por causas relacionadas con “se hace lo que quiere Google” se han sacado algunas reglas que se incluían de forma predeterminada en la versión 4.4 de WordPress.
El archivo robots.txt de WordPress actualmente en la versión 4.7 (momento de escribir este artículo) es este:
User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php
Aunque nosotros hemos construido un robots.txt para tu instalación de WordPress, un archivo robots.txt mucho más completo y con bloqueos de bots que no sirven para nada, aunque debes revisarlo entero y adaptarlo a tu sitio web, es decir, cambiar las URL, ya que nosotros hemos utilizado como ejemplo nuestro sitio web.
Para nosotros este robots.txt es útil, es decir, podría ser mucho más agresivo y bloquear muchos más crawlers y muchas más zonas de WordPress, pero debemos tener en cuenta que si tenemos instalados plugins como WooCommerce, la cosa cambia y debemos añadir reglas personalizadas al robots.txt para que funcione correctamente y no tener problemas a la hora de que los buscadores indexen nuestro sitio web.
Por esta razón esperamos que el archivo que te pasamos en este artículo (a continuación) te sirva más que nada como referencia, como ejemplo para montar tu propio archivo robots.txt que encaje con la configuración especifica de tu sitio web WordPress.
Todo el archivo esta comentado para que entiendas porque se utilizan los parámetros, por otro lado, AVISO: este archivo puede ir sufriendo modificaciones dependiendo de las nuevas versiones de WordPress y los cambios en “Internet”.
#robots de Raiola Networks #es necesario personalizar algunas opciones o puede dar problemas # Bloqueo basico para todos los bots y crawlers # puede dar problemas por bloqueo de recursos en GWT User-agent: * Allow: /wp-content/uploads/* Allow: /wp-content/*.js Allow: /wp-content/*.css Allow: /wp-includes/*.js Allow: /wp-includes/*.css Disallow: /cgi-bin Disallow: /wp-content/plugins/ Disallow: /wp-content/themes/ Disallow: /wp-includes/ Disallow: /*/attachment/ Disallow: /tag/*/page/ Disallow: /tag/*/feed/ Disallow: /page/ Disallow: /comments/ Disallow: /xmlrpc.php Disallow: /?attachment_id* # Bloqueo de las URL dinamicas Disallow: /*? #Bloqueo de busquedas User-agent: * Disallow: /?s= Disallow: /search # Bloqueo de trackbacks User-agent: * Disallow: /trackback Disallow: /*trackback Disallow: /*trackback* Disallow: /*/trackback # Bloqueo de feeds para crawlers User-agent: * Allow: /feed/$ Disallow: /feed/ Disallow: /comments/feed/ Disallow: /*/feed/$ Disallow: /*/feed/rss/$ Disallow: /*/trackback/$ Disallow: /*/*/feed/$ Disallow: /*/*/feed/rss/$ Disallow: /*/*/trackback/$ Disallow: /*/*/*/feed/$ Disallow: /*/*/*/feed/rss/$ Disallow: /*/*/*/trackback/$ # Ralentizamos algunos bots que se suelen volver locos User-agent: noxtrumbot Crawl-delay: 20 User-agent: msnbot Crawl-delay: 20 User-agent: Slurp Crawl-delay: 20 # Bloqueo de bots y crawlers poco utiles User-agent: MSIECrawler Disallow: / User-agent: WebCopier Disallow: / User-agent: HTTrack Disallow: / User-agent: Microsoft.URL.Control Disallow: / User-agent: libwww Disallow: / User-agent: Orthogaffe Disallow: / User-agent: UbiCrawler Disallow: / User-agent: DOC Disallow: / User-agent: Zao Disallow: / User-agent: sitecheck.internetseer.com Disallow: / User-agent: Zealbot Disallow: / User-agent: MSIECrawler Disallow: / User-agent: SiteSnagger Disallow: / User-agent: WebStripper Disallow: / User-agent: WebCopier Disallow: / User-agent: Fetch Disallow: / User-agent: Offline Explorer Disallow: / User-agent: Teleport Disallow: / User-agent: TeleportPro Disallow: / User-agent: WebZIP Disallow: / User-agent: linko Disallow: / User-agent: HTTrack Disallow: / User-agent: Microsoft.URL.Control Disallow: / User-agent: Xenu Disallow: / User-agent: larbin Disallow: / User-agent: libwww Disallow: / User-agent: ZyBORG Disallow: / User-agent: Download Ninja Disallow: / User-agent: wget Disallow: / User-agent: grub-client Disallow: / User-agent: k2spider Disallow: / User-agent: NPBot Disallow: / User-agent: WebReaper Disallow: / # Previene problemas de recursos bloqueados en Google Webmaster Tools User-Agent: Googlebot Allow: /*.css$ Allow: /*.js$ # En condiciones normales este es el sitemap Sitemap: https://raiolanetworks.es/indice-sitemap.xml # Si utilizas Yoast SEO estos son los sitemaps principales Sitemap: https://raiolanetworks.es/indice-sitemap.xml Sitemap: https://raiolanetworks.es/page-sitemap.xml Sitemap: https://raiolanetworks.es/page-sitemap.xml Sitemap: https://raiolanetworks.es/page-sitemap.xml
[adserver zoneid=»29″]
Probador de robots.txt en Google Search Console
Google desde hace tiempo dispone de una herramienta para probar el robots.txt o incluso para probar reglas del robots.txt por separado, esta herramienta forma parte de Google Search Console (lo que antes venían siendo Google Webmaster Tools).
Antes de nada, te dejamos un video que hemos grabado para que veas como utilizar el probador de robots.txt de Google:
Para utilizar el probador de robots.txt simplemente tenemos que entrar a nuestra cuenta de Google Search Console y dirigirnos a la sección “Rastreo” de Google Search Console y buscamos la opción “Probador de robots.txt”:
La interfaz principal del probador de robots.txt no es compleja, aunque debemos tener muy en cuenta lo que queremos hacer y mucho más las indicaciones que nos va a dar.
Si quieres ver mejor como se utiliza esta herramienta tanto con archivos enteros como con líneas o parámetros de robots.txt que queramos probar, puedes ver el video que hemos insertado para ti al principio de esta sección.
Debemos tener en cuenta que el robots.txt debe estar definido tal y como marcan los estándares, es decir, que si algo no lo ponemos tal y como especifica el estándar, podemos tener problemas.
Debemos tener en cuenta los siguientes puntos antes de ponernos a bloquear cosas con el robots.txt:
- Bloquear el acceso a una página para los crawlers con el robots.txt no significa que no tengamos que hacerlo mediante el atributo nofollow o noindex, yo personalmente usaría ambos métodos si quiero que algo no se indexe, o al menos es lo que dice la gente de Moz en su blog.
- Solo se puede especificar un disallow o un allow por línea, sino nos aparecerá un error de sintaxis en el probador y no se aplicara ningún efecto.
- Si especificamos dominios externos (es decir, otros dominios) en el archivos robots.txt de nuestro sitio, los crawlers de los principales buscadores como Google o Bing, simplemente pasaran de esos parámetros, es decir, los ignoraran.
- Para Google y para Bing (puede que para otros también, pero no lo sabemos fijo ya que no hay documentación) se aceptan tanto el símbolo del dólar $ como el asterisco * para crear patrones y comodines, es decir, por ejemplo para especificar todas las subpáginas de una ruta.
- El nombre del archivo robots.txt siempre debe ser así, es decir, siempre en minúsculas y siempre escrito así, por ejemplo RoBoTs.TxT no funcionaria.
- En los parámetros del robots.txt no podemos usar espacios, si quieres usar patrones, lo recomendable es usar asteriscos *.
Atributo NOINDEX como alternativa al robots.txt
Desde hace tiempo existe una alternativa al archivo robots.txt, una alternativa que muchos catalogan de mucho más inteligente y efectiva, de hecho, es la manera ideal de hacerlo para evitar problemas.
Esta alternativa es usar las metaetiquetas para utilizar el atributo NOINDEX, es la solución ideal ya que es mucho más efectiva que bloquear la página en el robots.txt, la gente de Moz lo explica bastante bien en su blog, en la siguiente dirección URL: https://moz.com/learn/seo/robotstxt
La gente de Moz ha hecho pruebas y han demostrado que en algunas ocasiones cuando añades una URL o ruta al robots.txt aparece igual en los resultados de búsqueda, aunque no salga contenido scrapeado en las SERP, mientras que con el atributo NOINDEX los buscadores tienen en cuenta SI o SI que esa URL no debe aparecer en los resultados de búsqueda.
Si queremos ir un poco más lejos, simplemente debemos añadir el atributo NOFOLLOW para que tampoco se transmita linkjuice a través de esa página.
Solución: Recursos bloqueados en Google Search Console
Hace unos meses (ya casi un año) Google empezó a mandar correos electrónicos a la gente y a mostrar un error nuevo en Google Webmaster Tools (ahora Google Search Console).
El error decía que existían recursos bloqueados, y muchos webmasters empezaron a alarmarse con el problema como si fuera a estallar una bomba nuclear.
Realmente no se trataba de un problema, simplemente es un indicio de que Google hace lo que le sale de las narices, y en una actualización rutinaria de sus directrices de golpe, sin avisar, dijo que no se podía denegar el acceso a los archivos JS y CSS del sitio web utilizando el robots.txt.
¿Cómo podemos solucionar esto? Pues es fácil, simplemente revisamos nuestro robots.txt, lo editamos y al fondo de todo añadimos esto:
User-Agent: Googlebot Allow: /*.css$ Allow: /*.js$
Lo que hace este fragmento de código es habilitar el acceso a los archivos JS y CSS al bot de Google.
Realmente Google hizo este cambio para poder “detectar” cosas raras en el diseño de los sitios web, ya que si los robots.txt bloqueaban el acceso a estos recursos necesarios en la carga de la web, Google podía ver el contenido, pero no podía ver el diseño sin saltarse las reglas estándar del archivo robots.txt.
[adserver zoneid=»29″]
Tenemos 81 comentarios en "El mejor robots.txt para WordPress – Manual explicativo del robots.txt"
Muy interesante Alvaro, había muchas cosas que desconocía del robots.txt y mucho mas de los recursos bloqueados que me señalaba google search console. Te agradezco enormemente esta información, ahora si podre solucionar estos bloqueos.
Un saludo!
Gracias a ti por el comentario Johanna.
Un saludo.
hola! gracias por toda la información es fantástica. Mi duda es cuando tienes varias dominios alojados en el mismo servidor. En el caso de una web en concreto ¿debería de bloquear el acceso a cada uno de los directorios del resto de las webs y ya esta? o ¿tendría que hacer algo mas?
Muchas gracias por todo!
Saludos!!
Hola Miguel, por el comentario intuyo que me hablas de varias webs alojadas en un mismo dominio, en subcarpetas, si esto es así, es recomendable bloquear con un robots cada carpeta por separado para poder utilizar reglas personalizadas en caso de necesitarlo.
Un saludo.
Hola Alavaro. Genial el post.
Una pregunta. Si bloqueamos /wp-content/plugin y no tenemos minificado en un solo archivo los css, ni tenemos amp, ¿Puede hacer que Google no vea las hojas de estilo CSS y por tanto no pueda ver la versión móvil del sitio?
Saludos.
Hola Antonio, pues no se me había ocurrido…tengo pendiente actualizar este articulo y ver en que puedo mejorarlo, por lo que voy a ver si encuentro una solución.
Un saludo y gracias por la observación.
Hola Alvaro, que tal tengo una pequeña duda mi wordpress no está instalado en la carpeta principal si no que está en otra carpeta y apunta al dominio principal, en este caso lo tendria que poner como el ejemplo que he puesto en la opción 2? , lo mismo aplicaría para los trackbacks y los feed.
Opcion 1
User-Agent: Googlebot
Allow: /*.css$
Allow: /*.js$
Opcion 2
User-Agent: Googlebot
Allow: mi_carpeta/*.css$
Allow: mi_carpeta/*.js$
Depende donde pongas el archivo, si lo pones en la raiz del dominio, tienes que usar la opcion 2, si lo pones en la raiz de la carpeta, la opcion 1.
Un saludo.
Gracias Por la ayuda Saludos
Muy detallado el post
Muchas gracias Webserveis.
Un saludo.
Tenía intención de modificar mi robots.txt ya que sale así:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: http://www.lawebdemario.com…
Parece más útil añadir las líneas que comentas, pero tengo varias dudas.
– Tengo el plugin yoast seo, pero no encuentro donde acceder al robot desde ahí
– Buscándole en cpanel me archivo que me aparece como robots.txt tiene un contenido distinto:
user-agent: *
disallow: /
Ahora no se donde modificar ni que poner, estoy más liado aún
Hola Mario, en primer lugar decirte que Yoast SEO ha cambiado y tal vez han sacado el modulo que buscas.
Segundo, asegúrate de que estas viendo el archivo correcto, ya que no es normal que te aparezca diferente de las dos maneras.
Un saludo.
Muy buenas Alvaro, a ver si me pudieras ayudar con este problema. Cuando buscas mi web en Google, en el buscador sale posicionada la versión inglesa, así como muchas de las partes de mi web (blog, About us, etc), en lugar de la Home.
Solo quiero que salga la HOME
lo raro de esto es que antes si funcionaba, es decir, en Agosto o así SI salía la Home al buscar mi sitio en google. Es posible que se me descuajaringara al meter un plugin en WordPress para gestionar el Robot.txt. (Robot.txt rewrite)
¿Sabrías decirme como solucionarlo?
GRacias de ante mano!!!
Hola, Charlie.
¿Sigues con este problema?
Asegúrate de revisar la configuración del robots y las etiquetas «canonical» de tu página.
Si el fallo persiste dime algún detalle sobre el sitio.
Un saludo.
Es recomendable o no bloquear la zona del administrador??
En algunas webs lo recomiendan, en otras como la suya no
Disallow: /wp-admin/
Sin embargo si arrojan google search console el error de recursos bloqueados
Hola, Javier.
Por defecto WordPress ya bloquea el wp-admin en el robots.txt (a excepción del archivo «admin-ajax.php» que es necesario).
Hoy en día ya no es tan importante —salvo para optimizaciones de Crawl Budget— porque desde la versión 4.4 de WordPress el propio admin envía la cabecera «‘X-Robots-Tag: noindex'», lo que hace que las páginas del panel ya no vayan a ser indexadas.
Siendo rigurosos, te recomendamos excluirlo por lo que explicábamos antes, pero si no estás optimizando tu Crawl Budget pues tampoco pasaría nada si no lo hicieras.
Un saludo.
Muy buen artículo, no sabía que esta página es tuya Alvaro, te sigo en twitter. Intentaré aprender de todo los post, yo estoy muy pez en todo esto, apenas he empezado. Un saludo
¡Hola, Juanan! Sí, Álvaro es uno de los fundadores de Raiola Networks 🙂 Si quieres seguir nuestra cuenta de Twitter en @RaiolaNetworks , allí vamos compartiendo posts interesantes, propios y ajenos. Cualquier cosa que necesites, ¡aquí estamos!
muchas gracias, os seguiré!
Artículo muy detallado gracias
Gracias por comentar. ¡Un saludo!
Hola!, una maravilla este articulo, ya aplqué alguna de las sugerencias. En el google search console me sigue apareciendo un elemento js bloqueado: https://pagead2.googlesyndi…
y me sugiere esto al hacer clic:
User-Agent: *
Allow: /ads/preferences/
Allow: /gpt/
Disallow: /
Noindex: /
¿Tu sabes que debería hacer?
Hola, Javiesfer:
¿Qué URL es la que está bloqueada?, ¿la que nos has facilitado?
De ser así el bloqueo ha de venir por otro sitio puesto que es una URL externa.
Si quieres, dame la URL de la página en la que tienes el problema y reviso rápidamente si veo algo raro.
Un saludo.
Alvaro no sería más recomendable bloquear los spiders desde el .htaccess y no desde el robots.txt?
Hola, José:
Si quieres bloquear completamente el acceso a un robot: si. Te ahorrarás dolores de cabeza y éstos no podrán acceder a tu página aunque sean «rogue robots» (aquellos que no respetan el robots.txt).
No obstante, en ocasiones no quieres bloquear el acceso total. El ejemplo más obvio son los robots de buscadores o herramientas de analítica para SEO: en esos casos vas a querer habilitar o denegar el acceso en función de otros criterios (p.ej.: de la página que visiten).
Si necesitas otra aclaración me dices.
Un saludo
Hola Héctor, gracias por responder… Una vez me sucedió con un cliente al cual casi no le llegaba tráfico y era porque había copiado una regla en su .htaccess que había visto en internet con la cual bloqueo a todos los robots incluido Googlebot, ¿en una tienda grande o una gran web si seria necesario bloquear robots que no queremos desde .htacces pero en la mayoría de casos con hacerlo desde robots.txt bastaría no? incluso veo grandes webs que no los bloquean
Una última duda me he encontrado una web qué utiliza una especie de clústers desde la home -> página -> entradas en las cuales hace una especie de interlinking con baldosas de contenido y tiene:
Disallow: /category/
Disallow: /tag/
Dentro de su robot, me quede con la duda pues nunca había visto uno así ¿será que funciona?
Hola, José:
Depende del robot. Como te decía, algunos robots conocidos de forma informal como «rogue robots» no obedecen al robots.txt y hay que bloquearlos en el .htaccess sí o sí. Estos son robots que no proporcionan ningún servicio y que suelen dar problemas.
Para bloquear esos robots hay que usar el .htaccess. Para el resto puedes usar el robots.txt.
La última duda que planteas: sí, con el robots.txt puedes bloquear solo ciertas partes de tu web. En el caso que pones, impiden que el robot repase las categorías y las etiquetas. Esto se suele hacer para evitar contenido duplicado (pues si vas a /category/ y a una pagina en concreto de tu /blog/ puedes encontrar las mismas cosas en algunas circunstancias).
Si te fijas, en este mismo post recomendamos hacer algo parecido con los comentarios.
Un saludo.
Héctor sin duda alguna eres todo un crack en el tema… Una última pregunta esa misma página bloquea la página política de cookies, contacto, términos y codiciones y estas cosas ¿no es un problema enlazar a una página bloqueada por robots? ¿habría que usar los enlaces no follow? De antemano agredezco tu respuesta
Hola, José:
No es un problema. Puedes compartir el enlace todo lo que quieras que los principales robots (Google, Twitter, etc.) no van a indexarla.
El nofollow no es exactamente lo mismo que el robots. Lo que hace es que los destinos de los enlaces que lo tengan no se indexen si éstos no están enlazados desde otro sitio.
Gracias a ti por comentar. Cualquier cosa me dices.
¡Un saludo!
Pero Digamos que en el footer este la politica de cookies y de privacidad con un enlace a sus respectivas páginas y dichas páginas estén bloqueadas en el robots.txt ¿no sería malo enlazar internamente en nuestra web a páginas bloqueadas por robots? ¿esto podría afectar el interlinking?
Otra duda, Al crear un sitemap hay que quitar las páginas bloqueadas por robots.txt ¿sabes como quitar ciertas páginas en el sitemap XML que estén bloqueadas por robots.txt y sólo dejar las qué no estén bloqueadas? con yoast o algún plugin
Hola, José:
Una página bloqueada por el robots no se indexa, sin más. No tiene ninguna connotación negativa. Los robots no van a ir por ahí (te ahorras el crawl budget) ni tampoco se va a indexar.
Respecto a la pregunta de Yoast, puedes revisar el artículo que tienen en su base de conocimientos que explican precisamente cómo hacerlo: https://kb.yoast.com/kb/sit…
Un saludo.
Hola Héctor, gran artículo, gracias a Álvaro por el trabajo realizado, y a ti moderando, quería consultaros, mi blog es un blog personal sin nada especial, ni plugin de WooCommerce ni nada, si copio y pego todo el archivo robots.txt tal cual lo habéis hecho y lo pego en el mio ¿habría algún problema? mis conocimientos son bastante básicos y no tengo ni idea de que son la mayoría de las indicaciones, por no complicarme en quitar y poner cosas, lo copio y lo pego entero y arreglado, me fio 100% de vosotros. Gracias de nuevo por vuestro trabajo. Saludos!
Hola, Manu:
Gracias a ti por comentar; ¡en serio!, nosotros encantados de aportar cosas que os ayuden.
Respondiendo a tu pregunta sin dar muchos rodeos: sí, puedes «copiar y pegar». ¡Pero ojo!, asegúrate de reemplazar «raiolanetworks.es» por tu dominio y fíjate que la dirección del sitemap corresponda con la tuya.
Por el resto todo está bien, dale sin miedo y si te surge cualquier cosa nos dices y lo vemos.
¡Un saludo!
Ayuda y mucho, sin duda, aunque no os lo digan. Es lo único que tenía en cuenta, cambiar la dirección web, el resto no me atrevo a tocar nada.
Gracias a vosotros! Saludos!
Hola Héctor! vuelvo a estar por aquí, me han hecho algunos cambios en la web, con los plugin sobre todo, y me he fijado que el robots.txt que subí, el que copié del vuestro ha desaparecido, tengo uno con tres líneas de código muy básico, la pregunta si subo otra vez el archivo que tenéis en el block ¿no hay problema no? hay una indicación que me preocupa: «#puede dar problemas por bloqueo de recursos en GWT» Qué significa, hay que tener en cuenta algo?
Muchas gracias! Saludos!
Hola, Manu:
Puedes copiarlo y pegarlo, siempre y cuando te acuerdes de cambiar «raiolanetworks.es» por tu dominio en las líneas que hacen referencia a los sitemap.
Un saludo.
Gracias! ?
Hola : en que parte de el editor se colocan los robott.txt
Hola, Oralia:
el archivo «robots.txt» se encuentra en tu hosting o FTP, particularmente en la raíz de tu página WordPress.
Es posible que no lo tengas creado (en cuyo caso WordPress lo genera solo). Si ese es el caso, tendrás que crear un archivo vacío llamado «robots.txt» e introducir ahí las directivas que necesites.
Un saludo.
Hola he copiado el código completo en mi sitio web https://www.arquitecturapur… , pero estos tres framentos me están generando una advertencia Crawl-delay: 20, Crawl-delay: 20, Crawl-delay: 20 .
Se puede dejar así o consideran quitarlo? otro punto no me queda claro esta linea User-agent: sitecheck.internetseer.com
Hola:
esas líneas que te dan advertencia sirven para limitar el número de accesos de algunos robots (en nuestro ejemplo: Slurp, msnbot y noxtrumbot). Son sentencias válidas, ¿dónde dices que estás recibiendo esos errores?
La segunda línea que nos preguntas («User-agent: sitecheck.internetseer.com») sirve para que ese robot en concreto no sea capaz de indexar tu página (pues pierdes tiempo y recursos si permites que un robot malicioso pueda entrar en tu página).
Si necesitas cualquier aclaración nos dices.
Un saludo.
https://uploads.disquscdn.c… tal amigos de raiola tengo un problema en el search console con la indexacion de mi pagina web (hecha en wordpress), saben que pasa y como lo soluciono? de antemano gracias y saludos desde Oaxaca, Mexico.
Hola, Félix:
En tu captura parece que el robots.txt está bloqueando esos accesos. Indícanos qué dominio es el afectado o revisa bien el robots para ver el problema.
No obstante, lo que está bloqueando son tus anuncios, cosa que tiene sentido que no se indexe, por lo que no debería ser algo preocupante.
Un saludo.
Que tal hector gracias por la atención, el detalle es que search console no indexa las paginas, te envio el dominio afectado (bueno uno de 3) . tambien te envio la pantalla del robots.txt https://uploads.disquscdn.c…
Hola, Félix:
tu robots txt tiene una directiva «disallow» que impide que rastreen tu sitio.
Empieza por acceder a WordPress y entra en «Ajustes → Lectura». Allí asegúrate de que la casilla «Disuadir a los motores de búsqueda de indexar este sitio» está desactivada.
Si ya es así, tendrás que revisar el contenido de tu robots.txt, puesto que ahora impide cualquier indexación.
Un saludo.
Que tal Hector gracias por responder te informo que la casilla «Disuadir a los motores de búsqueda de indexar este sitio» está desactivada. y te envio la pantalla de como esta el archivo robots.txt, mi pregunta es de que forma afecta o no a la indexacion ya que me aparece el error antes enviado y la lectura parcialmente completada.
robots.txthttps://uploads.disquscdn.com/image…
Hola, Felix:
dos cosas sobre ese robots que me pasas:
1- Es distinto al que me enseñaste antes. ¿Lo has cambiado?
2- Está permitiendo el acceso a todos los ficheros javascript y css a GoogleBot. Nada más. Es un robots muy raro porque el acceso ya es implícito y, salvo que tengas una prohibición en el archivo, no es necesario.
Te recomiendo que dejes en blanco el robots, o uses uno parecido al que publicamos en esta entrada, si estás teniendo problemas relacionados con él.
Un saludo.
Hola hector y como quedaria entonces? el robots en tu ejemplo aparece esto
User-Agent: Googlebot
Allow: /*.css$
Allow: /*.js$
Hola, Felix:
en el ejemplo de la página web hay muchas más reglas que la que tu pones. En el caso que tu me pusiste anteriormente tenías 2 ó 3 reglas nada más.
Te recomiendo utilizar el robots.txt completo que puedes ver en el artículo. Desde ahí ve eliminando o modificando lo que no necesites, siempre teniendo claro cómo va a afectar.
Un saludo.
Hola,
Antes de nada, quisiera agradeceros el post.
No se si tiene la mejor configuración o no. Pero como mis proveedores de hosting que sois, se que estará perfecto. Por lo que lo he puesto tal cual. Lo he probado y parece que funciona a la perfección.
Hola, Walter:
¡genial!, no debería tener mucho problema y puedes copiar y pegar sin problema.
No obstante, fíjate que en el texto del robots.txt figura «raiolanetworks.es«, ¡no te olvides de cambiarlo por tu dominio!
Un saludo.
Hola:
Muy completo el artículo.
Una consulta: Es de hace dos años, ¿está actualizado?
Muchas gracias.
Hola, Ricardo:
sí, está actualizado. Las directivas del robots.txt no han cambiado apenas desde hace dos años. Todo el contenido del artículo es aún relevante a día de hoy.
¡Un saludo!
Gracias por el artículo.
Me surge una duda si uso Woocommerce. He incluido todos los sitemaps que genera YOAST, pero revisando el resto no comprendo bien el porqué de bloqueo de las URL dinámicas.
¿Afecta esto a las páginas de productos?
Salu2.
Hola:
va a depender de cada caso, pero por norma general, las URLs dinámicas pueden meter «basura» en tu consola, cosas como URLs de búsqueda «?q=color rojo» que no necesitan ser indexadas.
No debería afectar a páginas de producto que no tengan parámetros extra en la URL.
Un saludo.
Hola Alvaro
Gracias por el articulo, ya lo había leído hace tiempo pero al comenzar a trabajar con ustedes he vuelto a mirar este tema.
No soy profesional, mi pagina es gratuita y colaborativa, todo lo «costeo» de mi bolsillo y mi trabajo. Hace unos meses decidí, por eso del SEO, instalar el certificado SSL y maldita la hora pues desde entonces han bajado las visitas que aunque no me dan nada económico, si satisfacción.
El problema es que no doy con el archivo robots que me vaya bien, siempre hay miles de enlaces que dice estar NOINDEX cuando yo no he puesto nada y mi archivo robots solo contiene esto:
User-agent: *
Allow: /wp-admin/admin-ajax.php
Allow: /*.css$
Allow: /*.js$
ademas de los sitemap
Podrías decirme si subiendo el que pones en este post seria suficiente??
Gracias
Hola:
ten en cuenta que el robots.txt y el noindex son cosas distintas.
Si tienes enlaces en noindex que no quieres puede venir de que tengas alguna configuración errónea. Revisa dentro de WordPress (ajustes → lectura) que no tengas activada la casilla «Disuadir a los motores de búsqueda de indexar este sitio».
En caso contrario habría que ver de dónde vienen esos enlaces.
Ten en cuenta que hay muchas situaciones legítimas por las que puedes querer tener enlaces noindex; algunos de ellos son usados por formularios del sistema (p.ej.: botones tipo «añadir al carrito») y su finalidad no es la de ser indexados, pues comsumirian crawl budget sin necesidad.
Si tienes problemas, danos un ejemplo de esos enlaces (con su dominio) y te digo si veo algo raro.
Cualquier cosa nos dices.
Un saludo.
Hola:
Respecto a las «noindex»: yo no veo nada raro en esas URLs. De hecho: todas esas páginas están indexadas correctamente.
¿Podrías indicarme en qué página está el «noindex» que a punta a una de esas URLs finales?
Un saludo.
Hola Hector ¡¡
No entiendo lo que me dices, perdona mi inexperiencia, esos datos los extraigo de Google Search Console, en la imagen puedes ver lo que comentaba, solo tengo picar en «Excluida por «noindex» y aparecen las mas de 1000 URLs como las que puse en el correo.
Gracias
https://uploads.disquscdn.c…
Hola.
Lo interesante sería ver qué sección de tu página incluye el link con noindex, porque las URLs que tú me diste están correctamente indexadas.
Si puedes facilitarme esa información le echo un ojo al problema a ver si veo alguna pista de cuál puede ser el problema.
Un saludo.
Hola Alvaro y Héctor,
ante todo gracias por tus artículos. El caso es que probando el robots.txt en el probador de GSC algunas páginas que en teoría deberían estar bloqueadas por el robots.txt me aparecen «allowed» en el probador.
Es como que al añadir
User-Agent: Googlebot
Allow: /*.css$
Allow: /*.js$
Todas las URL que estaban como disallow, el probador no les hace caso. ¿Es un fallo del código o del probador?
Gracias.
Hola, Xesus:
tendría que ver las URLs bloqueadas (o el propio dominio) para darte más detalles.
Con la poca información que tengo te diría que tienes query strings en tus recursos estáticos y quizás por eso no están entrando en el allow.
Prueba a quitar el «$» final de ambas reglas.
Si el problema persiste, dime el dominio y alguna URL bloqueada.
¡Saludos!
Hola Héctor.
Tengo un blog académico. En los comentarios me escriben bastante sobre los ejercicios que trato y creo que ese contenido podría el alcance del post y aportar valor al lector. Dicho esto, crees apropiado que quite la línea de «Disallow: /comments/»
Un saludo.
Hola, Diego:
El disallow que dices es un poco engañoso, pero no desactiva que se indexen los comentarios de una entrada, es para evitar que un mismo comentario pueda verse desde más de una localización.
Por defecto los comentarios serán indexados en la misma página en la que aparezcan. No obstante, te recomiendo ver las páginas de tu proyecto con algún visor de los que emulan «como ve Google las páginas web» para confirmar que es así.
Un saludo.
Hola!
Estoy implementando el código del robot.txt en una página con Woocommerce, ¿se debería eliminar alguna linea o se puede dejar todo tal y como está? Es decir, cambiando simplemente la url de los sitemaps.
Tengo una duda en los sitemaps, se puede/deber poner el «sitemap_index.xml» junto con los demás sitemaps que aparecen o hay que poner solo los sitemaps que aparece dentro del index?
Gracias por la ayuda
Hola, Carlos:
Si cambias la URL de los sitemap puedes usar el robots sin problemas.
Respecto al sitemap: lo mejor es que añadas todos al robots.txt. Realmente no van a ser bloqueados, pero declarando su acceso de forma explícita te curas en salud.
¡Un saludo!
Muchas gracias por la respuesta!
Saludos
Hola Alvaro,
Se puede tener los 2 tipos de sitemaps en el mismo sitio, .xml y .html, o puede ser incorrecto hacer esto?
Hola,
sí, se pueden tener los dos, piensa que el mapa del sitio «.html» se orienta de cara al usuario y el sitemap de cara a los robots.
Te dejo un vídeo de Matt Curts que habla sobre el tema:
https://www.youtube.com/wat…
Si no entiendes inglés puedes activar los subtítulos en Español en el menú inferior.
¡Un saludo!
Hola Alvaro. Gracias por tu artículo
Tengo una duda. ¿Desde que página puedo editar los robots.txt. ? tengo una web de WordPress. Entro en midominio/robots.txt y los veo pero no me deja editar. Gracias.
Hola, Jesús:
por defecto WordPress genera su propio robots.txt y no puedes editarlo, ya que éste es gestionado por el propio CMS y sus contenidos dependen de las distintas opciones que hayas seleccionado en tu instalación.
Tienes dos opciones para gestionarlo.
La primera es, directamente, crear un archivo «robots.txt» en la carpeta raíz de tu instalación. Si éste existe, WordPress se abstendrá de generar información. Es cómodo para editarlo mediante un FTP, gestor de archivos, etc.
La segunda es usar plugins. El plugin «Yoast SEO», por ejemplo, te deja editar el archivo robots.txt desde la interfaz de WordPress, si bien es cierto que tienes que crearlo primero por FTP para poder modificarlo.
Cualquier cosa nos dices. ¡Un saludo!
De qué sirve el «Bloqueo de bots y crawlers poco utiles»? En qué mejora una web por bloquearlos?
Y la lista de bots que hay sigue siendo correcta o hay algun «bot bueno» ahi?
Hola, Carlos:
el bloqueo pide a esos robots que no accedan a tu página.
Las visitas de los robots causan que tu página use recursos y no todos ellos te reportan un beneficio tangible, como el de Google.
En esa lista no hay bots «buenos», lo que no implica que sean «malos», si no que, sencillamente, no son útiles para el gasto de recursos que implican.
Un saludo.
Hola. Muy interesante pero me gustaría preguntar si ¿Sabe usted como se puede acceder al robot.txt en la nueva versión de Google Search Console? Gracias.
Hola Ivan, el probador de robots.txt de Google Search Console antiguo sigue funcionando: https://support.google.com/webmasters/answer/6062598?hl=es
Hola,
tengo varios problemas en search consle con la usabilidad móvil:
– El texto es demasiado pequeño para leerlo
– Los elementos en los que se puede hacer clic están demasiado cerca unos de otros
– El contenido es más ancho que la pantalla.
«Segun la Prueba de optimización para móviles mi archivo robots.txt está bloqueando recursos necesarios para que Google pueda renderizar tus páginas»
He comprobado mi robots.txt y creo que no es así:
User-agent: *
Sitemap:
Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/
Disallow: */feed/
Disallow: /wp-login.php
Allow: /wp-admin/admin-ajax.php
Allow: /wp-content/uploads/
Allow: /*.js
Allow: /*.css
¿Qué puedo hacer? Qué ocurre?… la verdad es que estoy verde en el tema y tu artículo me ha ayudado mucho.
Gracias de antemano
Hola Isabel, tiene que haber algo mas… algo extra que pueda estar ocurriendo…
¿Puedes probar tu robots.txt en esta herramienta para ver que linea causa el bloqueo?
https://accounts.google.com/ServiceLogin?service=sitemaps&passive=1209600&continue=https://www.google.com/webmasters/tools/robots-testing-tool?utm_source%3Dsupport.google.com/webmasters/%26utm_medium%3Dreferral%26utm_campaign%3D%2B6062598&followup=https://www.google.com/webmasters/tools/robots-testing-tool?utm_source%3Dsupport.google.com/webmasters/%26utm_medium%3Dreferral%26utm_campaign%3D%2B6062598
Hola Alvaro, excelente información una vez más. Tengo una duda: en su día Google Search Console me dió un error de servidor (5xx) que afectó a 48 urls del tipo: https://mejoratucalidadevida.com/wp-login.php?redirect_to=https://mejoratucalidadevida.com/caja-desinfeccion-ultravioleta.
Añadí en el robotx.txt Disallow: /wp-login.php y no han ido apareciendo más errores de este tipo, aunque la validación iniciada el 21/12/2021 sigue abierta.
Crees que es la manera correcta de solventar ese error?
Un saludo y gracias por tu labor.
Hola Alvaro,
No estaría nada mal un update de vez en cuando del archivo completo de robots.txt (así nos aprovechamos de ello 😉 ), ya que algunos somos un poco torpones con estas cosas.
Saludos y gracias.
Pedro
Hola Pedro, lo tendremos en cuenta, el problema es que yo actualmente estoy «algo lejos» del mundo del SEO, y voy a tener que pedirle a un autor invitado que me haga este post 😉