Amazon, la nuvola e l’effetto valanga

Ho cercato di leggere il report post-mortem pubblicato da Amazon relativamente ai grossi problemi avuti qualche giorno fa. Alla fine ho capito che si è trattato di una normale attività di manutenzione, deragliata per diversi motivi e che alla fine il solito effetto valanga ha travolto le cose. Potrei anche pensare che in origine ci sia un’azione umana in violazione di qualunque politica relativa alla gestione dei cambiamenti ma insomma… la ferita inferta all’idea che tra le nuvole le cose andassero comunque bene e si medicassero automagicamente è stata cancellata, almeno per un po’. Infatti nel report dicono che “Availability Zones are physically and logically separate infrastructure …” epperò c’è un unico "EBS Control Plane" che sovrintende a tutte queste. Quindi l’effetto valanga sarebbe stato almeno favorito dal fatto che il crollo di una Availability Zone abbia colpito il "Control Plane" condiviso con le altre AZ così duramente da mandare in crisi altre AZ. Insomma queste AZ non sono poi così "indipendenti".

Chissà se qualcuno più vicino all’architettura di Amazon ne sa di più e ci spiegherà cosa sia successo davvero. Io me lo immagino l’omino che opera avventurosamente e vede il problema sfiggirgli di mano, ma capisco anche che alla fine anche questi mega data center con architettura super-ridondate ogni tanto peccano in termini di resilienza.