Como sabrás, si eres usuario de OboLog, sigues alguno de los miles de blogs alojados en nuestro servicio gratuíto, o eres lector de uno de nuestros blogs temáticos de nexoBlogs, el pasado 27 de Julio tuvimos un problema de hardware que dejó nuestro servidor fuera de combate durante casi 3 días. Una de esas catástrofes informáticas memorables, de las de nervios, carreras, llamadas y mensajes en el contestador y noches en vela. Ha sido, desde que obokaman.com empezó a funcionar en DinaHosting y con actualizaciones de software y migraciones servidor de por medio, la caída más prolongada que hemos sufrido.
Un año antes, allá por agosto / septiembre del 2007, decidimos mudarnos de nuestro servidor americano a un proveedor español. No importaba la diferencia de precio: lo que buscábamos era la proximidad y la tranquilidad de poder acceder a un servicio técnico que hablara nuestro idioma y se preocupara por nosotros. Escogimos Ferca porque la mayor parte de las opiniones sobre ellos eran muy positivas, y porque a día de hoy muchos proyectos 2.0 y blogs hispanos conocidos están en sus manos (menéame.net, Enrique Dans, Medios y Redes, WeblogsSL en su primera etapa...). Para mi las referencias fueron muy importantes, y algunas opiniones en qué se hablaba de Ferca como un "aliado tecnológico" para sus clientes, más que como un proveedor, además de la implicación personal en varios proyectos 2.0 de David Carrero, su fundador, fueron determinantes en la elección.
Supongo que el nuestro fué uno de esos típicos "casos aislados", que no son reflejo de la forma de trabajar de la compañía, pero la verdad es que la odisea que pasamos desde la mañana del domingo 27 a la tarde del martes 29 fué para olvidar. Durante esos 3 días llegué a tener que pedir favores comprometidos a algunas personas, a robar horas de sueño a varios amigos y terminé comprando un nuevo servidor dedicado en otro proveedor, aún a sabiendas que teníamos aún dos meses más pagados por contrato. En definitiva, la cosa salió bastante cara.
La crónica de la "crisis" fué la que sigue:
- El domingo por la mañana, a eso de las 9:30, me conecto desde casa para hacer la primera comprobación manual del día (es algo que hago siempre, cada día). OboLog no carga, da un error de conexión. Empiezo con la habitual batería de pruebas: compruebo que no sea cosa de las DNS, pero los demás dominios vinculados a OboLog tampoco funcionan, trato de conectar por SSH y veo que tampoco funciona. Malo. Me conecto al DRAC para tratar de reiniciar el servidor, pero tampoco responde, devuelve un código de error. Malo, muy malo. Según Analytics, desde las 3 de la mañana dejó de registrarse tráfico.
- Después de un rato de reintentos, tomo conciencia de que no puedo hacer nada de forma remota, así que me dispongo a avisar al servicio técnico. Pasan unos minutos de las 10 de la mañana y trato de encontrar un teléfono de servicio técnico en la web de Ferca. Misión imposible. Hasta ahora no había necesitado soporte inmediato, sólo había solicitado alguna que otra ampliación de hardware, y me doy cuenta de que no hay soporte técnico vía telefónica, sólo a través de un sistema de tickets via web. Agh. Primera colleja. Pero acepto la culpa, eso es algo que podría haber comprobado por mi mismo. En fin, me resigno y escribo el primer ticket de soporte explicando el problema y enviando el código de error que veo en el DRAC de mi servidor. Son las 10:15 de la mañana.
- La primera respuesta es a las 13:21, vía web. Informan de que van a escalar la incidencia para que se revise físicamente la máquina . Ese domingo además se da la fantástica coincidencia de que no voy a estar en casa en todo el día. Por suerte, David está al caso del mail que le envié y envía mi teléfono al servicio técnico. Primera llamada de "estamos trabajando en ello" sobre las 13:30. Parece que ya han detectado que se trata de un fallo de hardware. A partir de aquí, vamos comentando la situación con el técnico por teléfono.
- Ya por la tarde me informan que no han podido recuperar el servidor y han tenido que mover el disco a otra máquina. Ops. "Supongo que todo funcionará igual", trato de convencerme. Más tarde, cuando parece que el servidor empieza a responder... parece que algo falla, se cuelga contínuamente y las gráficas de cacti se han vuelto locas. Es normal tras un reinicio... pero pasan los minutos y las gráficas siguen arriba del todo. Algo se me escapa. Vuelvo a revisar las gráficas y... sí, ahí está. El servidor de OboLog tenía 3GB de memoria RAM y el nuevo servidor sólo tiene 1GB. Contando con qué reservamos 500MB para la caché de memcached... lo debe estar pasando realmente mal.
- Bueno, pienso... si han podido cambiar el disco de máquina, ampliar la memoria, para dejarlo como estaba, no será problema. Han tenido un lapsus. Envío un mail a las 22:30 al sistema de soporte para informar del problema y pedirles que restauren la configuración del antiguo servidor, que sin los 3GB de memoria que tenía la aplicación no puede funcionar como es debido. Insisto de nuevo a las 00:47 y a las 7 de la mañana del lunes. Su respuesta llega, escueta, poco después de las 7. "El servicio se restauró 100% el día de ayer [...] la memoria de servidor sustituido no puede ser cambiada por segurodad, ya que no sabemos cuál es el problema exacto del servidor." Wow.
- Aquí empieza una conversación acerca de qué entendemos ambas partes por "restablecer el servicio". Por mi parte, entiendo que el servicio no estará restablecido hasta que el servidor esté en marcha con la misma configuración y el mismo hardware que tenía. Insisto de nuevo a las 16h del lunes. "Me confirman que es muy complicado adelantar el viaje sólo para subir los 2GB.[...] ¿Podéis esperar al miércoles?" El miércoles, 3 días después de abrir la incidencia. Insólito.
- Después de cruzar algunos mails, me aseguran que tratarán de resolverlo antes del miércoles. Y así es. La tarde del martes, sobre las 19h, se añaden los 2GB de RAM que faltan y el sistema vuelve a la normalidad. Sólo que para entonces ya tengo otro dedicado con un nuevo proveedor y estoy preparando la migración. No puedo permitirme que me vuelva a pasar algo parecido.
Y así fué la historia de cómo OboLog volvió de nuevo a su primera casa.
Tengo que decir que después del cabreo inicial, me supo muy mal que la cosa terminara así. David fué muy amable en todos nuestros contactos desde el principo y se interesó personalmente por mail en los primeros momentos del problema, aunque nunca tuve la sensación de que desde Ferca se tomara conciencia de lo grave que resultó para nosotros, y esa sensación de impotencia y desamparo fué la que me hizo decidir el cambio. La sensación que tuve fué que seguramente no éramos tan importantes como esos "clientes VIP" que me hicieron optar por Ferca un año antes.
En fin, espero que todas las partes aprendiéramos algo de todo aquello. Ahora toca seguir.