Contacto:
Edificio CEI Parque Tecnológico de Galicia 32900 San Cibrao das V,
info@rcg-comunicaciones.com
Tel.: +34 988 011 33556

Cómo garantizar la máxima disponibilidad de tus redes, sistemas y comunicaciones

No sé a ti pero a mí en más de una ocasión me han fulminado con la mirada cuando la red de la empresa, las comunicaciones o los sistemas se han caído de forma inesperada entorpeciendo la actividad de mis compañeros.

Y es que generalmente nadie se acuerda de la informática hasta que falla.

Este es el gran inconveniente de nuestra profesión.

Por eso estarás de acuerdo conmigo en que garantizar una alta disponibilidad de las redes, sistemas y comunicaciones de la empresa donde trabajas, es una de tus mayores prioridades.

Así que en estas líneas voy a tratar el concepto de alta disponibilidad y de cómo puedes alcanzarla para tus redes sistemas y comunicaciones.

Veamos de lo que estoy hablando.

¿Que es alta disponibilidad?

Según Wikipedia, (High Availability) es un protocolo de diseño del sistema y su implementación asociada que asegura un cierto grado absoluto de continuidad operacional durante un período de medición dado.

El fin del diseño de alta disponibilidad, consiste en garantizar la disponibilidad del servicio, es decir, asegurar que el servicio funcione adecuadamente en todo momento.

Funcionamiento ininterrumpido

La principal consecuencia de los fallos de sistemas, es  la pérdida de productividad, por ello, para el diseño de una infraestructura de alta disponibilidad, debemos tener en cuenta dos tipos de tiempos de inactividad:

  • Planificado: resultado del mantenimiento del sistema, como por ejemplo la necesidad de un rearranque del sistema o la ampliación de los componentes hardware.
  • No planificado: surgido de un error, tanto en los componentes hardware, como en el sistema operativo o las aplicaciones que ofrecen los servicios.

Plan de recuperación ante desastres (DRP)

Como te habrás imaginado y si no te lo cuento yo ahora, es imposible garantizar una disponibilidad del 100% en una infraestructura.

Incluso si esta es de alta de alta disponibilidad.

Por lo tanto tu infraestructura siempre deberá estar preparada poder recuperarse en el menor tiempo posible (RTO) con la menor pérdida de datos (RPO).

En este punto es de vital importancia contar con un protocolo de copias de seguridad que nos garantice la recuperación sin pérdida de datos en el menor tiempo posible.

Efectos por la interrupción de nuestros sistemas

Muchas veces la caída de un sistema corporativo, tiene un impacto en costes muy superior a los propios costes de una infraestructura de alta disponibilidad.

Algunos costes que debes tener en cuenta son:

  • Costes directos asociados a la reparación del sistema de información.
  • Horas de trabajo adicionales del personal de IT para reparar la avería.
  • Pérdida de horas de trabajo del personal y de su productividad.
  • Pérdida de ingresos, por las ventas o servicios que se han dejado de realizar.
  • Costes indirectos: retrasos en la producción, insatisfacción o incluso penalización de clientes, pérdida de reputación y mala publicidad, desconfianza de los propios empleados, etc..

Por todo estos motivos siempre es recomendable adaptar tu infraestructura a la alta disponibilidad.

Aunque como digo esta tampoco sea 100% infalible.

Soluciones para alcanzar una alta disponibilidad de redes, sistemas y comunicaciones

Existen muchas técnicas o soluciones para garantizar una alta disponibilidad de tus redes, sistemas y comunicaciones.

Bien es cierto que cuantos más sistemas, personas y dispositivos estén involucrados más difícil se vuelve garantizar una alta disponibilidad.

Pero no es menos cierto que algo siempre puedes hacer:

1º Redundancia o duplicación de recursos

La tolerancia a errores es la  capacidad de un sistema para funcionar a pesar de que alguno de sus componentes falle mediante el duplicando de los recursos críticos.

Los elementos hardware redundantes, deben ser intercambiables en caliente, es decir, capaces de ser reemplazados sin interrumpir el servicio.

Hay que tener en cuenta que cualquier elemento no replicado, puede estar sujeto a fallos, afectado con ello al servicio, es lo que se suele denominar SPOF (Single Point Of Failure) ó punto simple de fallo.

Por ejemplo, en un servidor, no sólo necesitamos redundancia en los discos, sino en el restos de elementos hardware: controladoras, adaptadores de red, CPUs, memoria, placa, fuentes, etc…

No sólo los servidores han de ser redundantes, sino también todos elementos que facilitan el servicio, como firewalls, routers o la propia red local.

2º Respaldo de recursos críticos

Mediante el respaldo de los recursos críticos, en caso de un fallo, a pesar de poderse ver reducido el rendimiento o incluso una caída del sistema, se minimiza el tiempo de inactividad.

Dicho respaldo, no sólo se refiere al backup de nuestra información en otro soporte, sino también se refiere a los componentes hardware.

Un par de claros ejemplos son:

  • Contar un disco como reserva o standby a la espera de ser sustituido automáticamente cuando ocurra un fallo en un sistema RAID.
  • Tener contratado la reparación con un tiempo determinado de respuesta o incluso equipos de sustitución.

Personalmente, te aconsejo disponer de un manual de procedimiento y contratos de mantenimiento sobre el sistema.

De esta forma siempre podrás restaurar el sistema incluso en caso de ausencia de la persona responsable.

3º Sistemas de cluster de alta disponibilidad

Según Wikipedia, un Cluster de alta disponibilidad es un conjunto de dos o más máquinas que se caracterizan por mantener una serie de servicios compartidos y por estar constantemente monitorizándose entre sí.

Sin entrar en tecnicismos, cuando se produce un fallo en la máquina principal, el software de alta disponibilidad, es capaz de arrancar automáticamente los servicios en otra máquina del cluster sin que los usuarios perciban una caída en el sistema.

Dependiendo de la capacidad de detección de errores del software, podemos dividirlo en dos clases:

  • Alta disponibilidad de infraestructura: el software de alta disponibilidad sólo es capaz de detectar un fallo de hardware.
  • Alta disponibilidad de aplicación: el software de alta disponibilidad es capaz de detectar tanto un fallo de hardware como de las aplicaciones.

Como has podido adivinar yo te recomiendo el segundo frente al primero.

Balanceo de carga

Algunos sistemas de balanceo de carga, aparte de minimizar tiempos de respuesta, mejorar el desempeño  del servicio y evitar la saturación, permiten utilizar técnicas de failover o conmutación por error, con lo cual mejorará la disponibilidad del servicio.

De forma sencilla, el

  • Balanceo de carga entrante es la manera en que las peticiones de Internet son distribuidas sobre un conjunto de servidores.
  • Balanceo de carga saliente es la manera en que las peticiones desde Internet son distribuidas sobre un conjunto de routers o conexiones, a internet a ser posible con tecnologías diferentes.

Contar con dos conexiones a internet, y un sistema de balanceo saliente, nos ofrece minimizar el riesgo de quedarnos sin conexión al exterior, que junto al riesgo de pérdida de acceso a nuestros datos, es lo que más podría afectar a la productividad de la mayoría de las empresas.

Monitorización

Aunque muchos expertos, no contemplan la monitorización como una solución de alta disponibilidad, yo considero que es una de las herramientas básicas para reducir el tiempo de inactividad.

Dicho software se encarga de monitorizar en todo momento el estado de nuestros servidores, de nuestra red local y de nuestras conexiones.

Al detectar cualquier problema, aparte de avisarnos, pueden incluso reiniciar un servicio caído de un servidor o marcar un equipo del cluster como inactivo con el fin de que otro tome el control.

¿Cómo funciona cluster de alta disponibilidad para nuestro sistema de información?

En un cluster de alta disponibilidad, los servidores están interconectados entre sí mediante una interface dedicada y monitorizando continuamente su estado.

El software de alta disponibilidad, dispone de una una dirección virtual, que cuando se produce un fallo en el servidor principal, hace que cualquiera de máquinas secundarias, automáticamente tome el control de dicha dirección virtual y siga prestando el servicio.

Pero no podemos olvidarnos de lo importante: la integridad de la información.

Por lo tanto, es necesaria la replicación de datos en tiempo real, para lo cual se suele replicar los discos pertenecientes al RAID en los servidores del cluster mediante tarjetas de fibra a 10G para evitar un cuello de botella.

Esto es fundamental para salvaguardar los datos sensibles de la organización.

Ventajas de un cluster de alta disponibilidad frente a un sistema con tolerancia a fallos hardware

Si hablamos de las ventajas de disponer de un cluster de alta disponibilidad en tu empresa, yo las reduciría claramente a estos 3 puntos:

  1. Reducir costes frente a equipos con tolerancia a fallos hardware propietarios con un coste muy elevado.
  2. Tolerancia a fallos de hardware en todos los componentes hardware, recuerda que no existe un punto único de fallo (SPOF).
  3. Mejorar la escalabilidad y reducir tiempos de inactividad planificados al poder apagar un equipo sin dejar de dar servicio ni un segundo.

La mayoría de las empresas, negocios y organizaciones tienen una dependencia muy elevada de las aplicaciones informáticas.

Es por ello que debes tomar las medidas necesarias ante eventuales fallos o desastres.

Si tus redes, sistemas y comunicaciones cuentan con una alta disponibilidad tus riesgos se reducen automáticamente.

Por eso todas nuestras soluciones (NAS, Backup, Firewall) están diseñadas para garantizar la mayor disponibilidad de tus sistemas.

Si este es un tema que te preocupa, te podemos ayudar a diseñar una solución de acuerdo a tus necesidades.