Como actualizar robots.txt en wordpress


WordPress es una plataforma de gestión de contenidos (CMS, por sus siglas en inglés) de código abierto que se utiliza para crear y administrar sitios web. Es muy popular entre los usuarios y es utilizado por un gran porcentaje de sitios web en Internet.

WordPress ofrece una gran cantidad de características y herramientas que facilitan la creación y gestión de un sitio web, incluyendo plantillas y diseños personalizables, un editor de contenidos intuitivo, la posibilidad de agregar plugins para añadir funcionalidades adicionales y una completa integración con redes sociales. También es fácil de usar y se puede utilizar tanto para sitios personales como profesionales.

Es difícil determinar con certeza cuántos sitios web hay en el mundo que utilizan WordPress, ya que no se tienen registros exhaustivos de todos los sitios web existentes. Sin embargo, se estima que WordPress es utilizado por alrededor del 35% de todos los sitios web en Internet, lo que significa que hay millones de sitios web que utilizan esta plataforma.

WordPress es una plataforma muy popular y ampliamente utilizada debido a sus características y herramientas intuitivas, así como a su gran comunidad de usuarios y desarrolladores que contribuyen con plugins y temas para mejorar la funcionalidad y el diseño de los sitios web.

Fundamentalmente existen dos vías para alojar nuestra web en wordpress: a traves del servicio WordPress.com o alojandolo en un sitio aparte siendo por tanto la principal diferencia entre WordPress.com y los sitios web que utilizan WordPress es cómo se alojan y se administran:

  • WordPress.com es un servicio de alojamiento y gestión de sitios web que utiliza la plataforma de WordPress. Con este servicio, no tiene que preocuparse por el alojamiento o la configuración del sitio, ya que todo es manejado por WordPress.com. Además, no tiene acceso al código fuente de WordPress (suele alegarse que es por motovos de seguridad), por lo que no puede instalar plugins o temas personalizados.
  • Por otro lado, los sitios web que utilizan WordPress pero no están alojados en WordPress.com se instalan en un servidor web propio o en un servicio de alojamiento externo. Esto significa que tiene acceso total al código fuente de WordPress y puede instalar plugins y temas personalizados para mejorar la funcionalidad y el diseño del sitio. Sin embargo el usuario , debe encargarse de la configuración, actualizacion , seguridad y el alojamiento del sitio

En resumen, WordPress.com es un servicio de alojamiento y gestión de sitios web que utiliza la plataforma de WordPress, mientras que los sitios web que utilizan WordPress pero no están alojados en WordPress.com son sitios autohospedados que tienen acceso total al código fuente de WordPress.

hablemos de wordpress

Una pieza clave de nuestro sitio web con wordpress es el fichero robots.txt, pero antes de explicar qué es el archivo robots.txt y para qué sirve, hay que tener claro qué son los robots y por qué es tan importante este pequeño archivo para el SEO de su web.

Un robot de búsqueda, bot o araña (para los entendidos también se le llama crawler), es un software que se encarga de rastrear las páginas web en busca de diferentes cosas según el tipo de bot (contenido nuevo, cambios en la estructura web, enlaces, etc.).

Aunque existan bots de muchos tipos, siempre que hablamos de ellos nos viene a la mente los robots o arañas de Google y de otros buscadores, que se encargan de recorrer nuestras webs para indexar su contenido y poder posicionarlos.

Ahora bien, todos queremos indexar en Google y en otros buscadores nuestra web, pero hay ciertas páginas que no nos interesa que las rastreen como archivos internos, páginas no importantes, etc. ¿Cómo hacemos para que los bots solo pasen por las zonas de nuestra web que queramos? Pues Con el archivo robots.txt. Veamos ahora qué es robots.txt y para qué sirve.

para que sirve ropots.txt

El archivo robots.txt

El archivo robots.txt es un archivo de texto plano que puede crear con un simple bloc de notas con el nombre robots.txt (de ahí su nombre). Este archivo contiene la información que leerán las arañas de los buscadores con el fin de rastrear las partes de la web que este archivo les permita.

Algunos robots hacen lo que les da la gana, así que más que permitir, el archivo robots.txt recomienda qué páginas visitar para rastrearlas o indexarlas.

Cuando un bot entra en nuestra web, lo primero que hace es mirar si existe el archivo robots.txt y, si así es, lo analiza para saber qué partes de la web puede o debe rastrear y qué partes están bloqueadas para él.

Digamos que el archivo robots.txt contiene las zonas de la web no permitidas para que estos bots no pasen por ahí y las rastreen.

Por lo tanto, este archivo nos permite seleccionar qué partes de tu sitio web tienen acceso “restringido” para estos bots. Incluso se puede restringir el acceso solo para un tipo de bot..

En resumen, el archivo robots.txt sirve para:

  • Bloquear el acceso de los buscadores a ciertas páginas y directorios de tu web.
  • Denegar a los bots el acceso a archivos de tu sitio.
  • No permitir el acceso a tu web a unos bots determinados.
  • Impedir que se indexe contenido duplicado (páginas duplicadas, por ejemplo) o páginas que tengas de prueba.
  • Prohibir el rastreo de URLs que hayas eliminado y que ahora reporten el error 404.
  • Disminuir los recursos gastados del servidor (algunos bots consumen muchos recursos).
  • Facilitar la indexación de tu web indicando el directorio de tu mapa del sitio o sitemap XML.
  • A pesar de esto debemos saber que hay algunos bots (sobre todo los ilegales y maliciosos) que se pasan por alto este archivo.

IMPORTANTE: No olvide que este archivo es público y lo puede ver en muchísimas webs poniendo /robots.txt al final de su dominio. Así que, por su bien, ni se le ocurra usarlo para ocultar información privada a los buscadores o cosas por el estilo, porque cualquiera que se meta en su robots.txt podrá ver qué URLs estás intentando bloquear a los bots.

Cómo crear el archivo robots.txt en WordPress

Crear el robots.txt para WordPress es muy fácil: abra un bloc de notas y guárdalo con el nombre robots.txt. Solo tendrá que subirlo al directorio raíz de tu dominio a través del cPanel o por un cliente FTP como Filezilla.

También puede crearlo con el plugin Yoast SEO (tan solo debe ir a la sección de “Herramientas” >> “Editor de archivos” y crear o modificar tu archivo robots.txt).

Por regla general, en todas las instalaciones de WordPress ya viene este archivo creado, aunque bastante simple.

El archivo robots.txt de WordPress tendrá por defecto un aspecto parecido a este:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Para crear un archivo robots.txt en un sitio de WordPress en caso de que no lo tenga en su sitio, primero necesita acceder al panel de administración de tu sitio. Luego, siga estos pasos:

  1. Haga clic en «Ajustes» en el menú de la izquierda.
  2. En la página de ajustes, haga clic en la pestaña «Lectura».
  3. En la sección «Archivo robots.txt», verá un cuadro de texto donde puede escribir las directivas que quiera incluir en tu archivo robots.txt.
  4. Introduzca las directivas que quiera en el cuadro de texto. Asegúresee de seguir la sintaxis correcta para las directivas de robots.txt.
  5. Cuando haya terminado de escribir las directivas, haga clic en «Guardar cambios».

Recuerde que para saber si tiene el archivo creado solo tendrá que introducir /robots.txt al final de tu dominio. Por ejemplo: http://www.tudominio.net/robots.txt. Cabe destacar que este archivo no es obligatorio. Pero sí es bastante recomendado sobre todo si quieres mejorar el seo de tu sitio web. Veamos a continuación qué parámetros y configuraciones tienes que tener en cuenta para crear el archivo robots.txt para WordPress.

Parámetros y comandos aceptados en el robots.txt

Los comandos del archivo robots.txt son pocos y muy sencillos. Estos parámetros fueron fijados por el robots exclusión protocol o Estándar de exclusión de robots en español. La sintaxis que debemos utilizar está basada en este protocolo y hay que aplicarla bien si no queremos equivocarnos al crear el archivo robots.txt.

Comandos:

  • User-agent (spider name): le indica qué tipo de rastreador debe cumplir las indicaciones que colocarás.
  • Disallow (ruta no permitida): informa al rastreador las páginas que no debe rastrear.
  • Allow (ruta permitida): le dice al rastreador las páginas que sí deben ser rastreadas.
  • Sitemap (mapa del sitio): indica la ubicación del sitemap de tu sitio web, importante para que los rastreadores te encuentren.
  • Crawl-delay: le indica al rastreador el tiempo en segundos que debe esperar entre cada página que rastrea. Con este comando podrás reducir la carga de tu servidor en caso de que lo necesites. El tiempo recomendado es de 5-10 segundos.
  • Insertar Notas: Si quiere, para mejorar el orden en sus archivos, puede incluir una nota usando el signo “#”. Ejemplo: # Este archivo se creó en enero de 2018.

Commodities:

  • Asterisco () – Se usa en una secuencia cualquiera de caracteres. Por ejemplo, los directorios que comienzan por “privado” quedarían “/privado/”
  • Dólar ($) – Se usa para indicar el final de una URL. Por ejemplo, para indicar un archivo que termina con la extensión .php usarías “/*.php$”.

Restricciones

  • Incluir todos los rastreadores – User-agent: *
  • Especificar el rastreador de Google – User-agent: Googlebot
  • Para especificar el rastreador de Bing – User-agent: Bingbot
  • Para restringir el rastreo de todo el sitio web – Disallow: /
  • Para restringir un único directorio – Disallow: /directorio/
  • Si quiere que no rastreen directorios que comienzan por “algo” – Disallow: /algo/ Evitar el rastreo de una página – Disallow: /pagina-web.html Restringir la extensión .gif – Disallow: /.gif$
  • Permitir un subdirectorio – Allow: /directorio/subdirectorio/
  • Señalar el mapa del sitio – Sitemap: http://www.example.com/sitemap.xml

Además de los comandos, debe tener en cuenta estas reglas:

  • No utilice otros comandos diferentes a los permitidos.
  • Distingue mayúsculas, minúsculas, signos de puntuación y espacios. Presta atención al escribir los comandos y al nombrar el archivo.
  • Puede utilizar la almohadilla (#) seguida de una frase para escribir comentarios.
  • Deje una línea en blanco para separar los grupos de comandos que utilices por User-agent.


Estos son los parámetros principales para utilizar en el robots.txt:

  • User-agent: especifica a qué tipo de robots van dirigidos los comandos que pongas a continuación. Aquí tienes una lista de todos los User-agent que hay.
  • Disallow: Bloquea el acceso del User-agent (el bot) al directorio o url que pongas.
  • Allow: Lo contrario de Disallow. Permite el acceso a la url o al directorio que indiques. Normalmente se utiliza para permitir el acceso a una parte más específica del directorio que se haya bloqueado en el Disallow.
  • Sitemap: Sirve para indicar a los bots dónde se encuentra el sitemap o mapa del sitio XML del sitio web.
  • Crawl-delay: Se utiliza para indicar un tiempo de retardo (en segundos) entre cada página que el bot rastree. Se suele utilizar para evitar consumos exagerados de recursos. No todos los crawlers (bots) harán caso a este comando.

Además de todo esto, existe dos caracteres extra que se usan como comodines:

  • El asterisco (*): Se utiliza como comodín para indicar “todos”. Se usa mucho en User-agent: *, para todos los bots; o // para indicar todos los directorios.
  • El símbolo del dólar ($): Este símbolo se usa en las extensiones de los archivos y sirve para especificar cualquier archivo que acabe con dicha extensión. Por ejemplo: /.css$ para indicar todos los archivos acabados en .css.

Solucionar recursos bloqueados en Google Search Console

Hace tiempo que Google informó que bloquear el acceso a los archivos CSS y Javascripts en el robots.txt es perjudicial para el SEO y empezó a enviar mensajes desde Google Search Console informando de este error si tenías bloqueado este tipo de archivos.

Por ello, necesitamos desbloquear recursos CSS y JS. Para ello abra el archivo robots.txt y copia y pegue lo siguiente:

User-agent: Googlebot
Allow: /.css$ Allow: /.js$


Como ya vimos, estos comandos indican al robot de Google que tiene el acceso permitido a todos los recursos CSS y JS.

No existe el robots.txt perfecto para WordPress

Cada página web tiene páginas diferentes y necesidades distintas. Es imposible poner el robots.txt perfecto para cada página ya que es algo que hay que mirar web por web, pero lo que sí podemos es proponer el archivo robots.txt para WordPress de manera general y que funcionará en todas las webs.

A continuación vamos a ver el mejor archivo robots.txt estándar para cualquier web de WordPress. También se pueden añadir otros comandos para bloquear algo en particular de tu web (recuerde que si ya tiene un robots.txt solo tiene que descargarlo por FTP o desde el cPanel el archivo robots.txt que viene por defecto).

Una vez tengamos el archivo, ábralo y modifíquelo por lo siguiente:

Primer Bloque, impedimos que se rastree carpetas de WordPress, el feed, los comentarios, las búsquedas, las etiquetas…

User-agent: *
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-login
Disallow: /wp-admin
Disallow: //feed/ Disallow: //trackback/
Disallow: /*/attachment/
Disallow: /author/
Disallow: *?replytocom
Disallow: /tag//page/ Disallow: /tag//feed/
Disallow: /comments/
Disallow: /xmlrpc.php
Disallow: /?s= Disallow: ////feed.xml
Disallow: /?attachment_id*
Disallow: /search

Segundo Bloque

User-Agent: Googlebot
Allow: /.css$ Allow: /.js$

Sitemap, puede añadir más de uno

Sitemap: http://www.tudominio.com/sitemap.xml

Aclaraciones:

  • En el primer bloque especificamos que, para todos los bots (User-agent: *), se permita el acceso al AJAX (se recomienda permitir el acceso) y se deniegue a directorios que no nos interesa que los rastreen, como las páginas internas del WordPress, páginas de búsquedas, etiquetas, comentarios, etc.
  • En el segundo bloque desbloqueamos los recursos CSS y JS tal y como vimos anteriormente.
  • Por último, añadimos la URL de nuestro archivo XML sitemap para indicar a los robots dónde está todo lo que deberían rastrear.

Para saber si tiene un sitemap y cuál es su URL solo tendrá que ir a Google Search Console e ir a Rastreo >> Sitemaps.(si no lo tiene creado, el plugin Yoast SEO es útil para crear sitemaps).

El probador de robots.txt de Google Search Console

Una vez haya conseguido crear el archivo robots.txt y guardarlo en el directorio raíz de su web, queda comprobar que esté todo bien y los robots puedan acceder perfectamente al resto de la web. Para ello nos volvemos a dirigir a Google Search Console, y entramos en Rastreo >> Probador de robots.txt.

En este punto debería salir lo que había puesto dentro del robots.txt. Si no es así dele al botón de enviar y vuelve a darle al botón de enviar del paso 3 que pone Solicita a Google la Actualización.

Ahora solo queda darle al botón rojo que pone probar y si todo está correcto, este botón se cambiará por un mensaje que pone PERMITIDO.

Conclusiones finales sobre el archivo robots.txt

Ya hemos visto que el archivo robots.txt nos ayuda a recomendar a los crawlers qué páginas indexar en Google (u otro navegador) o qué zonas de nuestra web no queremos que sean rastreadas. No obstante, también hay otras formas alternativas de impedir la indexación de cualquier página como las metaetiquetas robots y el atributo “noindex”.

Destacar que si bien el archivo robots.txt es muy importante, para páginas específicas se puede usar el noindex. Usar el noindex es la forma más correcta de impedir la indexación en ciertas páginas. El robots.txt se utiliza más para impedir rastrear ciertos directorios, archivos y páginas que hayas borrado y no pueda acceder de ninguna otra forma.

feliz año 2023

¡Feliz año nuevo! amigo lector , espero que el próximo año traiga alegrías, éxitos y muchas cosas positivas . ¡Que tenga un año maravilloso!

Como añadir gratis una cuenta de correo a su pagina de wordpress


Si   cuenta con un sitio alojado en wordpress. com  y desea usar varias  cuentas de   correo electrónico personalizados con el nombre de su dominio (!claro que siempre que disponga de  un dominio  alojado en el propio wordpress.com !)  como, por ejemplo, [email protected]   con wordpress.com   es  posible    y   todo ello sin pagar nada extra  siguiendo unos sencillos pasos   que vamos a   ver  a continuación y de esta forma intentar  lograr  una cierta profesionalidad extra en su  sitio web.

En efecto de forma tradicional a los dominios se les suele asociar cuentas de correo  con el nombre del dominio para mejorar la interlocución  y la comunicación con sus responsables ,   para redirigir la comunicaciones entre varios áreas del sitio , etc    siendo así mucho mas  fácil de recordar   .

En wordpress no existe el    servicio de alojamiento de correo electrónico directamente., pero sin embargo si existe  el mecanismo de la redirección, lo  cual permite simular  justamente  lo que vamos buscando  .

¿Quiere saber como hacerlo ?  pues siga leyendo pues lo vamos ver en unos instantes .

 

Condición importante: tener un dominio en wordpress

Un nombre de dominio es una dirección   que se utiliza para visitar su sitio web «diciéndole»  a su  navegador web dónde tiene que buscar su sitio  para que  de este modo sera mas fácil de recordar   y ademas mejore la imagen de marca  de su  sitio dándole  un cierto  aire profesional .

Un sitio de WordPress.com incluye una dirección gratuita por medio de  un subdominio de WordPress.com, como por ejemplo  misubdominio.wordpress.com  , pero puede  quitar la parte de “.wordpress.com” y usar directamente un nombre de dominio personalizado, como por ejemplo midominio.com, pero para ello  tendrá que pagar una mínima cantidad para que  precisamente ese nombre de dominio sea exclusivo en toda la red ( es decir tendrá que pagar la gestión del dominio  )

Por tanto , cuando registra ese dominio, compra ese nombre exacto (p. ej., mi.blog) ya que los nombres de dominio son únicos y solo pueden dirigir a un sitio web a la vez.

En el caso de wordpress.com  ,para añadir un dominio personalizado a su sitio, necesita un plan de WordPress.com  ( los hay muy económicos  permitiendo ademas usar WordAds el cual  permite compartir los ingresos procedentes de los anuncios que se muestran en su blog)

Con un dominio personalizado, su blog seguirá estando alojado en WordPress.com y seguirá estando sujeto a nuestras condiciones del servicio, pero  un aspecto muy importante  que no debemos  ignorar es que los registros de dominio requieren información de contacto correcta y deben mantenerse actualizados ya que si no lo hacemos  podríamos perder los derechos por el nombre de nuestro dominio  . ya que esta información se utiliza para enviar avisos importantes sobre el registro del dominio y, en algunos casos, para determinar la propiedad del dominio si alguna vez hay una disputa.

 

 

Reenvío de correo electrónico

Tal y como hemos visto , si tenemos  un dominio   personalizado con  wordpress.com    podemos usar el reenvío de correo electrónico   permitiendo  usar su dominio personalizado en su dirección de correo electrónico habitual.

Con este mecanismo todo su correo electrónico personalizado  con el nombre de su dominio se reenviará a la dirección de correo electrónico que elija

Algo muy importante  que nos debemos olvidar es que  las respuestas se enviarán desde su dirección de correo electrónico personal.

Para añadir cuentas , estando validados con wordpress.com , nos iremos a Dominios

Ahora seleccionaremos el dominio personalizado en la lista central ( en el ejemplo soloelectronicos.com) y  nos iremos al apartado Correo electrónico

Nos aparecerá el mensaje de G suite  si no lo tenemos contratado .Para establecer un nuevo reenvío de correo electrónico, pulse  simplemente  el botón blanco de la derecha  «añadir reenvío de correo electrónico» 

 

Escriba la nueva dirección con tu dominio personalizado en el campo Correos electrónicos enviados a, y la dirección de correo electrónico de destino en el campo Se reenviará a

Después de definir estas opciones de configuración, haga clic en el boton  Añadir nuevo reenvío de correo electrónico 

 

En la  opción mas básica , wordpress admite hasta 5 cuentas de correo diferentes de redirección pudiendo llegar hasta 100 en las opciones Business

 

Recuerde   que  wordpress  redirigirá   a nuestra dirección de correo personal  ( o la  que hayamos anotado en las opciones anteriores ) todos los correos  que apunten a nuestro dominio  y que hayamos registrado con las opciones anteriores  manteniéndose hasta ese momento oculto  el nombre de la cuenta personal que hayamos registrado  , pero  nos debemos olvidar es que si respondemos  a estos correos , las respuestas se enviarán desde su dirección de correo electrónico personal.

 

 

Uso de otros proveedores de correo electrónico

Es posible, como comentamos al  principio ,asociar  también un dominio de wordpress a varias cuentas de correo de forma directa sin reenvios si su nombre de dominio y la configuración de DNS se gestionan en wordpress .

Estos son algunos de proveedores:

      • G Suite :Si elige registrar un dominio a través de WordPress.com, podrá comprar una cuenta de G Suite durante el registro.También puede añadir G Suite a un registro o asignación de dominio existente o  si ya tiene una cuenta de G Suite, puedes conectarla con su dominio personalizado.
      • Zoho Mail (el precio varía; incluye servicio de ayuda; la solución gratuita más sencilla según muchos  usuario de wordpress).
      • Microsoft Office 365 (el precio varía; incluye servicio de ayuda).Es necesario que se registre en el plan Pequeña Empresa o en uno superior
      • GoDaddy (el precio varía).Si ya tiene una cuenta de correo electrónico de GoDaddy, puede conectar tu cuenta de GoDaddy con su dominio personalizado
      • Otros