Sbagliando si impara

La buona pratica del postmortem nell’industria IT applicata alle tecnologie della Pubblica Amministrazione

Paolo de Rosa
Jun 15, 2018 · 8 min read
Homer Simpson — The Simpson
La rottura di un motore a bordo del velivolo X-15. Credits: NASA

Una sorta di scatola nera che consente di capire cosa non è andato bene, ma soprattutto che permette di comprendere le cause dell’incidente e di trarne quindi lezioni per il futuro.

Gli obiettivi primari di un documento di postmortem sono quelli di assicurare che l’incidente sia ben documentato, che tutte le cause principali siano comprese, e soprattutto che siano state studiate e messe in atto efficaci contromisure per ridurre la probabilità e l’impatto di un’eventuale ricorrenza futura dello stesso incidente. Inoltre, è opportuno che tale documento sia prodotto entro le 48 ore successive all’incidente, al fine di non perdere dettagli e informazioni preziose.

Source: GIPHY

La riuscita del processo di trasformazione digitale della PA è strettamente legata alle persone, quindi, oltre a ridefinire i processi, è necessario favorire un cambiamento culturale attraverso l’introduzione di queste pratiche che consentono di migliorare la qualità dell’ambiente di lavoro nella PA ma soprattutto la qualità dei servizi.


Incidente connettività Cloud SPC – Postmortem

Documento prodotto da:

Sommario

Impatto: i seguenti servizi sono stati resi irraggiungibili:

Contesto

I siti web del Team Digitale sono prevalentemente basati su codice HTML statico generato a partire dal contenuto sorgente dei repository GitHub. Il codice HTML viene pubblicato mediante un web server (nginx) ed esposto su protocollo HTTPS. Forum Italia (http://forum.italia.it) rappresenta l’unica eccezione a questo modello di dispiegamento, tale servizio viene infatti gestito separatamente mediante container Docker. Uno o più web server possono essere dispiegati in qualsiasi momento su macchine virtuali OpenStack del fornitore cloud – Cloud SPC Lotto 1, utilizzando le API messe a disposizione dalla piattaforma.

Impatto

Il 19/05/2018 i seguenti servizi sono diventati irraggiungibili in seguito ad un problema di connettività del Cloud provider “Cloud SPC” :

Causa e fattore scatenante

Secondo quanto riportato dal fornitore, nel documento di postmortem diffuso il 07/06/2018, l’interruzione della connettività per le 31 utenze (tenant) del servizio Cloud SPC è stata innescata dalle attività di aggiornamento programmato della piattaforma OpenStack, effettuate nella notte di giovedì 17/05/2018. Il problema è stato rilevato il mattino seguente (18/05/2018) grazie alle segnalazioni degli utenti che non erano più in grado di accedere ai servizi erogati mediante la piattaforma di Cloud SPC.

Lezione appresa

La piattaforma Cloud SPC al momento non offre la possibilità di distribuire le macchine virtuali su data center o regioni differenti (OpenStack region) e quindi sarebbe stato utile poter disporre di risorse virtuali su infrastrutture indipendenti, anche dello stesso fornitore.

Timeline

17–05–2018


Note

[1] Le metodologie provenienti dall’ambito manifatturiero in particolare la produzione snella (lean production) derivata dal sistema produttivo Toyota e adattata all’ambito IT (Lean IT).


Team per la Trasformazione Digitale

Blog del Team per la Trasformazione Digitale - Presidenza del Consiglio dei Ministri

Paolo de Rosa

Written by

Cloud & Data Center @ Digital Transformation Team — Italian Government — https://teamdigitale.governo.it

Team per la Trasformazione Digitale

Blog del Team per la Trasformazione Digitale - Presidenza del Consiglio dei Ministri