ienes 2 opciones: Introducir una etiqueta especial en cada p�gina (v�ase Meta Robots) Usar un archivo centralizado para controlar la entrada Esta �ltima opci�n es la de robots.txt. Contenidos: Qu� es el archivo robots.txt y para qu� sirve C�mo generar el archivo robots.txt Comandos principales Restricciones m�s comunes Desbloquear recursos CSS y JS Validar el archivo �Funciona la desindexaci�n con robots.txt? Un ejemplo de robots.txt para WordPress Sobre el bloqueo de /wp-admin/ Recursos Qu� es el archivo robots.txt y para qu� sirve Los robots o ara�as son unos programas que utilizan los buscadores para rastrear la web. Cuando llegan a tu sitio, lo primero que hacen es buscar el archivo robots.txt, y dependiendo de lo que diga en �l, contin�an en tu sitio o se van a otro. Puedes entender el archivo robots.txt como una lista de robots no admitidos, la cual te permite restringir el acceso a tu sitio selectivamente. Si hay p�ginas que prefieres mantener fuera del alcance de los buscadores, puedes configurarlo aqu�, y si hay un buscador al que quieres denegar el acceso, tambi�n. M�s concretamente, puedes utilizar el archivo robots.txt para lo siguiente: Evitar que ciertas p�ginas y directorios de tu sitio sean accesibles a los buscadores Bloquear el acceso a archivos de c�digo o utilidades Impedir la indexaci�n de contenido duplicado en tu sitio, como copias de prueba o versiones para imprimir Indicar la localizaci�n de los mapas del sitio en XML Ahora bien, hay un par de cosas que debes tener en cuenta sobre robots.txt: Algunos robots pueden ignorar las instrucciones contenidas en este archivo, especialmente robots maliciosos o malware El archivo es p�blico, lo que significa que cualquiera puede verlo con s�lo teclear www.example.com/robots.txt Por tanto, si piensas utilizar robots.txt para esconder informaci�n privada, necesitas buscar otra alternativa. C�mo generar el archivo robots.txt Lo primero que necesitas saber sobre el archivo robots.txt es que no es obligatorio. S�lo necesitas crearlo cuando quieres impedir que ciertas p�ginas o directorios de tu sitio aparezcan en los resultados de b�squeda. Generar el archivo es muy sencillo, basta con crear un documento de texto con el nombre �robots.txt� y subirlo a la ra�z de tu dominio (http://www.example.com/robots.txt), que es el lugar donde los los buscadores esperan encontrarlo. Lo m�s f�cil es crearlo a mano, mediante el bloc de notas o un editor de c�digo como Notepad++, aunque si eres de los que prefieren herramientas de generaci�n, la
de SeoBook cumple con su cometido bastante bien. Otras alternativas son RobotsGenerator.com y McAnnering Robots.txt Generator. Para subir el archivo usa un cliente FTP como FileZilla o Cyberduck. Respecto al contenido, un archivo robots.txt b�sico puede ser: User-agent: * Disallow: /privado/ Lo que hacen estas instrucciones es denegar el acceso al directorio �privado� a todos los buscadores. Para ello, primero se indica que la orden va dirigida a todos los robots (User-agent: *) y por �ltimo se especifica el directorio desautorizado (Disallow: /privado/). Comandos principales Los comandos que utiliza el archivo robots.txt vienen del llamado Robots Exclusion Protocol, un convenio universal cuya sintaxis debes seguir: S�lo puedes utilizar los comandos permitidos (aunque algunos buscadores entienden comandos adicionales) Debes respetar las may�sculas/min�sculas, la puntuaci�n y los espacios Cada grupo User-agent/Disallow debe estar separado por una l�nea en blanco Puedes incluir comentarios mediante la almohadilla o s�mbolo de hash (#) Los comandos m�s importantes son: User-agent � Indica qu� tipo de robot debe cumplir con las directivas que se indiquen a continuaci�n. Disallow � Deniega el acceso a un directorio o p�gina concreta. Allow � Funciona al contrario que la directiva Disallow, permitiendo el acceso a directorios y p�ginas. Se puede utilizar para sobrescribir la directiva Disallow parcial o totalmente. Sitemap � Indicar la ruta donde se encuentra un mapa del sitio en XML. Crawl-delay � Indica al robot el n�mero de segundos que debe esperar entre cada p�gina. Puede ser �til en casos en los que se necesita reducir la carga del servidor. Adicionalmente, puedes utilizar comodines para aumentar o reducir la concordancia: Asterisco (*) � Vale por una secuencia cualquiera de caracteres. Por ejemplo, todos los directorios que empiezan por �privado� ser�an �/privado*/� D�lar ($) � Indica el final de una URL. Por ejemplo, para indicar cualquier archivo que acabe con la extensi�n .php se utilizar�a �/*.php$�. Restricciones m�s comunes Con los comandos y comodines se puede crear todo tipo de restricciones. Sin embargo, no es buena idea ser creativo con el archivo de robots, ya que puedes acabar bloqueando algo que no deseas. En este sentido, es mejor ce�irse a las restricciones m�s comunes, como son: Incluir todos los robots � User-agent: * Especificar el robot de Google � User-agent: Googlebot Especificar el robot de Bing � User-agent: Bingbot Denegar todo el sitio � Disallow: / Denegar un directorio � Disallow: /directorio/ Denegar directorios que comienzan por �algo� � Disallow: /algo*/ Denegar una p�gina � Disallow: /pagina-web.htm Denegar directorios y p�ginas que comienzan por �algo� � Disallow: /algo Denegar la extensi�n .gif � Disallow: /*.gif$ Permitir un subdirectorio � Allow: /directorio/subdirectorio/
Se�alar el mapa del sitio � Sitemap: http://www.example.com/sitemap.xml Desbloquear recursos CSS y JS Desde que Google actualizara sus directrices para Webmasters especificando que denegar el acceso a los archivos CSS y JavaScript con robots.txt puede da�ar los rankings, es buena idea desbloquear cualquier directorio que pueda contenerlos. As� el buscador tiene libertad para procesar las p�ginas al completo y saber c�mo las ver� el usuario. Para averiguar c�mo ve como Google junto con parece a lo que ves en las l�neas del archivo
Google tus p�ginas usa la herramienta Rastreo > Explorar el bot�n obtener y procesar en Search Console. Si no se tu navegador o bien surgen errores o advertencias, elimina robots.txt que bloquean el acceso a las URL.
Otra alternativa m�s segura es abrir el paso a los recursos CSS y JavaScript explicitamente. De este modo no importa si el directorio donde se encuentran est� bloqueado, Google podr� acceder a los recursos que necesite: User-Agent: Googlebot Allow: /*.css$ Allow: /*.js$ Validar el archivo Cuando crees o modifiques tu archivo robots.txt, siempre comprueba que hace lo que esperas de �l. Ten en cuenta que un simple error puede bloquear el acceso a los buscadores y da�ar tu visibilidad. La comprobaci�n es f�cil de hacer con la herramienta Rastreo > Probador de robots.txt en la Consola de b�squeda de Google. Asimismo, es buena idea usar la funci�n obtener y procesar de Rastreo > Explorar como Google para asegurarse de que no hay recursos bloqueados. �Funciona la desindexaci�n con robots.txt? Una de las funciones m�s recurridas del archivo robots es la desindexaci�n. En teor�a, si quieres sacar archivos y directorios de Google no tienes m�s que a�adir las correspondientes directivas Disallow, �no es cierto? Pues bien, debes saber que aunque el bloqueo con Disallow impide el rastreo a los buscadores, no garantiza la desindexaci�n. As� es c�mo lo explica el analista de Google, John Mueller, en este v�deo: Cuando se bloquea una p�gina indexada con robots.txt, lo que suele ocurrir es que borramos la informaci�n de rastreos anteriores [�] e indexamos la URL con ese resumen gen�rico que dice que no sabemos de qu� trata la p�gina [al estar bloqueada por robots.txt]. Sin embargo, a veces tambi�n ocurre que eliminamos la p�gina completamente. Si pensamos que la URL no tiene informaci�n, enlaces entrantes, ni motivos para usarla en las clasificaciones, quiz� la quitemos del �ndice. As� que te�ricamente puede desindexarse, pero no hay garant�as. Es decir, cuando bloqueas una p�gina que ya est� indexada, Google la mantiene en su �ndice y s�lo hay una remota posibilidad de que la elimine. Si quieres asegurarte de borrar la p�gina del buscador debes hacer otra cosa, tal y como Mueller sigue explicando: Si a�ades una etiqueta [Meta Robots] NoIndex a la p�gina y permites el rastreo [�] la borraremos la pr�xima vez que procesemos la URL.
Esto tiene mucho sentido. Si el buscador puede ver una se�al explicita de que no quieres tener la p�gina indexada, entonces la desindexar�. Por tanto, la pr�xima vez que quiera borrar una p�gina de Google, usa la etiqueta Meta Robots. S�lo cuando la p�gina a�n no ha llegado al conocimiento del buscador es cuando est� indicado el Disallow de robots.txt. Un ejemplo de robots.txt para WordPress Advertencia: No hay un archivo robots.txt universal, seg�n la configuraci�n de tu sitio puede que necesites a�adir, modificar o quitar restricciones.