La historia que os vamos a contar a continuación no sucedió en 2025, pero sigue siendo tan vigente que podría haber sucedido en casi cualquier empresa del mundo en estos momentos. En su columna semanal «Who, Me?», The Register ha rescatado el relato de “Ken”, un sysadmin que, literalmente, tumbó Amazon.com por un simple error al redactor el código de una actualización de sus sistemas.
No estaba cualificado para el puesto
Todo comenzó hace más de 20 años, cuando Ken consiguió un puesto como administrador Linux en Amazon. El gran problema es que no estaba realmente cualificado para ello. Este venía del mundo Solaris y descubrió rápidamente que Red Hat era algo muy diferente. Además, trabajar en una empresa como Amazon manteniendo sus sistemas no es algo para cualquiera.
Aún con todo esto, consiguió entrar en la compañía y que le asignaran la tarea crítica de actualizar la aplicación encargada de realizar copias de seguridad en cinta de los datos de la compañía. Se trataba de un proceso complicado porque la nueva versión implicaba modificar archivos de configuración y desplegarlos en todos los servidores.
Todo parecía ir bien… hasta que Amazon cayó
Ken, nombre ficticio del personaje, preparó el archivo de actualización durante semanas. Este preparó todos los ficheros necesarios, los probó al detalle y ejecutó el cambio en entornos de pre-producción para asegurarse de que todo funcionaba. Entonces, llegó el día de aplicar los cambios y durante varias horas todo funcionó a la perfección. El equipo responsable incluso se dio palmaditas en la espalda para celebrar el trabajo.
Sin embargo, a las 19:00 horas todo saltó por los aires y los buscapersonas empezaron a vibrar como locos. Amazon.com se había caído y era imposible acceder a la web. En ese momento, Ken tuvo que mantener una conferencia de emergencia con los mandamases de Amazon, incluido el mismísimo Jeff Bezos que quería saber porqué su negocio se había detenido.
Una partición llena por un log que nunca se borró
Ken se puso rápidamente a investigar y descubrió que la base de datos central de la tienda de libros de Amazon (el negocio con que nació esta empresa) había dejado de responder. Las máquinas seguían encendidas, pero el servicio no funcionaba y la web continuaba caída.
Entonces empezó a repasar el código y recordó que el nuevo sistema de backup debía copiar los logs a cinta y luego eliminarlos del servidor. El problema es que, debido a un error tipográfico en la codificación, los logs nunca se eliminaban del disco tras ser guardados. El fallo era un simple espacio mal ubicado en un comando de Bash:
- Comando erróneo: rm -rf / ${dir}/log/*
- Comando correcto: rm -rf ${dir}/log/*
Ese espacio entre / y ${dir} provocó que el script intentara borrar el directorio raíz del sistema (/) además de los logs, eliminando archivos críticos para el funcionamiento de la base de datos y causando el colapso total del servicio. Esto no fue un problema durante horas, pero una vez que la partición se llenó de archivos de registro, la base de datos colapsó.
Ken borró los logs a mano y todo volvió a funcionar. Mientras, corrigió el error y se fue a casa convencido de que era su último día en Amazon. Al día siguiente le recibió su responsable en el parking, pero en lugar de despedirlo, le estrechó la mano y dijo: “Enhorabuena, ya no eres virgen”.
Fuente: adslzone