El fallo en AT&T
El 15 de enero de 1990, 114 nodos de conmutación del sistema de larga distancia de AT&T se cayeron accidentalmente. La causa pública de la avería fue un fallo en el código de recuperación de los switches. Cuando un nodo se caía, enviaba un mensaje de fuera de servicio al resto de nodos vecinos, quienes se suponía que a su vez re-enrutaban el tráfico para sortear al nodo disfuncional.
Sin embargo, el bug (una sentencia break mal situada en código C) provocó que el resto de nodos contiguos se colapsaran también al recibir el mensaje de fuera de servicio, y que además propagaran la avería al enviar el mismo mensaje a otros nodos a través de la red.
El apagón duró 9 horas mientras que los programadores intentaban localizar la causa de la avería. Se estima que 60.000 personas se quedaron sin servicio telefónico, y que 70 millones de llamadas dejaron de realizarse. AT&T estima que se perdieron al menos 60 millones de dólares en daños, inactividad y pérdida de reputación: La fiabilidad era un punto crítico de las campañas de márketing de AT&T contra otros proveedores de llamadas de larga distancia.
Las consecuencias para las empresas que no pudieron operar durante la ausencia de servicio son difíciles de estimar, pero se presumen mucho mayores que las que de facto correspondieron exclusivamente a AT&T.
Esta incidencia sobrepasó incluso los princpios de tolerancia a fallos que se definían en el diseño de la topología de la red. Los nodos fallaban de un modo muy rápido, con tiempo para notificar su avería a los nodos vecinos, y había suficiente redundancia para enrutar la avería. Los nodos se recuperaban de la incidencia también muy rápido, reiniciandose automáticamente y volviendo a estar operativos. Sin embargo, la afluencia de mensajes de error de sus equipos vecinos los hacían volver a entrar en un estado de avería. EL fallo ocurrió debido a un deficiente sistema de pruebas del mecanismo de recuperación frente a errores. La presencia de un sistema distribuido de control, necesario para permitir la escalabilidad, permitió además que este fallo se propagase. Esta avería demostró que un fallo en el software puede causar una cadena de fallos con una extensión enorme.
En su momento también se estudió la posibilidad de un ataque malintencionado al sistema, lo que se investigó en profundidad, sin resultado a favor de esta teoría.
Aún así, son muchos los expertos que reconocen que este fallo podría haber sido disparado con facilidad por un atacante con conocimientos suficientes, pudiendo haber provocado una situación de peores consecuencias.



Comentarios recientes
hace 48 mins 35 segs
hace 1 hora 7 mins
hace 6 horas 57 mins
hace 7 horas 4 mins
hace 7 horas 8 mins
hace 8 horas 52 mins
hace 9 horas 13 mins
hace 10 horas 3 mins
hace 10 horas 22 mins
hace 21 horas 19 mins