Sicilia: ecco le informazioni per provincia sulla COVID-19, in formato machine readable e aperto

Il 23 Marzo scorso la nostra comunità ha pubblicato una lettera aperta indirizzata alla Regione Siciliana con la quale ha chiesto di rendere disponibili in un dataset machine readable dati di dettaglio relativi all’epidemia COVID-19 in Sicilia.

La richiesta era motivata dall’esigenza di colmare un vuoto rendendo disponibili dati di dettaglio a livello provinciale sull’epidemia, in modo da consentire studi e analisi non soltanto su base regionale, ma anche per ciascuna delle nove province siciliane (invero nella lettera aperta, tuttora senza risposta, si chiede anche la disponibilità di altri dati di dettaglio, disaggregati per comune, per sesso, per fasce di età, ecc.).

La Regione Siciliana dal 5 Marzo scorso pubblica con sostanziale regolarità (anche se con una certa variabilità di tipologia) le informazioni relative all’epidemia COVID-19 in Sicilia; riguardano l’intero territorio regionale, di cui per alcuni viene fornito il dettaglio per ciascuna provincia, e specificato che si tratta dei dati giornalmente trasmessi all’Unità di Crisi Nazionale (dati successivamente raccolti e resi noti dal Dipartimento della Protezione Civile). 

Relativamente ai dati provinciali, il Dipartimento della Protezione Civile si limita a pubblicare dataset contenenti soltanto i dati giornalieri relativi al numero complessivo dei soggetti contagiati dal virus (nel campo totale_casi), per cui le uniche analisi possibili a livello provinciale possono limitarsi soltanto a questo valore, mentre la Regione Siciliana, sempre a livello provinciale, non rende disponibile alcun dataset, utilizzabile per l’analisi di un maggior numero di parametri, limitandosi ad includere alcuni dati all’interno dei comunicati stampa quotidiani (caratterizzati da testo discorsivo e immagini) che non sono di alcuna utilità allo scopo se non per il semplice fatto di essere comunicati; tali dati, per essere analizzati e generare qualsiasi tipo di studio, report o visualizzazione hanno bisogno di essere raccolti e strutturati all’interno di tabelle in formati open e machine readable che ne consentano appunto un proficuo utilizzo.

In attesa di ricevere una risposta nei fatti, OpenDataSicilia ha trasformato i comunicati stampa in una tabella machine readable. È accessibile al momento in due modalità:

  • in 👉 formato CSV (encoding UTF-8 e , come separatore), con un file di insieme che contiene tutti i dati;
  • come foglio elettronico online. Da notare che questo è il nostro file di lavoro, la fonte dati è il suddetto file.

I dati raccolti e strutturati in un dataset pubblicato su Github derivano quindi dai comunicati stampa della Regione Siciliana, con alcune integrazioni a partire dal dataset provinciale del Dipartimento della Protezione Civile, integrati nei primi giorni – dal 24 Febbraio al 5 Marzo 2020 – con notizie di stampa locali, e con i dati che, pur non esplicitamente comunicati, è stato comunque possibile ricavare applicando dei semplici calcoli.
Per alcuni dati invece (ad es. il numero di tamponi effettuati o il numero di pazienti ricoverati in terapia intensiva) non è stato possibile avere informazioni disaggregate per singola provincia.

I dati così raccolti sono stati strutturati, per uniformità, secondo lo schema adottato dal Dipartimento della Protezione Civile (DPC) e sottoposti a verifiche di consistenza che hanno evidenziato solo alcuni casi, pochi fortunatamente, in cui si sospetta dell’accuratezza dei dati esposti.

Quanto prodotto da DPC è prezioso, perché fa da riferimento. È infatti un caso abbastanza unico in Italia: è raro trovare dei dataset in qualsiasi portale open data della Pubblica Amministrazione, così curati, ben descritti e pronti all’uso.

È così finalmente abbiamo un dataset che consente di effettuare delle visualizzazioni e delle analisi, sui dati COVID-19 a livello di singola provincia siciliana. A seguire due esempi dimostrativi di due visualizzazioni automatiche di riepilogo che adesso è possibile fare con questi dati (la seconda, grazie Totò Fiandaca) rappresenta dati, prima non disponibili.


Per maggiori informazioni vi invitiamo a consultare i dati stessi e la documentazione disponibile sul repo creato partendo dal file README.

Il nostro auspicio è che la Regione pubblichi presto questi dati o in alternativa che anche i dati di dettaglio provinciale vengano resi disponibili nel repository del DPC.

Lettera aperta alla Regione Siciliana, per la pubblicazione in formato machine readable dei dati sulla COVID19

La Regione Siciliana informa quotidianamente la cittadinanza sui numeri relativi alla COVID19.
Lo fa in prosa e con immagini, con informazioni interessanti non presenti nella banca dati nazionale del Dipartimento della Protezione Civile.

Sono informazioni di grande interesse che a nostro avviso vanno pubblicate anche come dati in modalità machine readable, in un formato che li renda interpretabili da un computer e da software di analisi e visualizzazione di dati.

Per questa ragione abbiamo fatto questa richiesta alla Pubblica Amministrazione Regionale.

La richiesta

In diverse circostanze, attraverso il contributo singolo o collettivo dei suoi membri, la comunità OpenDataSicilia ha interloquito positivamente con diversi rami dell’amministrazione regionale fornendo il proprio supporto.

In questa circostanza invitiamo l’Amministrazione Regionale a rendere disponibili anche in forma machine readable, i dati provinciali sul COVID19, che ogni giorno la Regione Siciliana pubblica in prosa (sui canali social ufficiali e su siciliacoronavirus.it).
Si veda come esempio la comunicazione su facebook del 20 marzo 2020 (o l’analogo su costruiresalute) in cui si legge: 

Risultano ricoverati 210 pazienti (27 a Palermo, 105 a Catania, 17 a Messina, 1 ad Agrigento, 11 a Caltanissetta, 18 a Enna, 6 a Ragusa, 17 a Siracusa e 8 a Trapani) di cui 42 in terapia intensiva, mentre 169 sono in isolamento domiciliare, venticinque guariti (11 a Palermo, 5 a Catania, 4 a Messina, 2 ad Agrigento ed Enna, 1 a Ragusa) e quattro deceduti.

Questi dati con taglio provinciale sono a integrazione di quanto pubblicato in modo centralizzato dal Dipartimento della Protezione Civile (DPC), che al momento pubblica per provincia soltanto il totale dei casi (vedi qui). Ancora più interessante sarebbe un taglio comunale.

Potreste fare riferimento allo schema che il DPC usa per i dati regionali, integrando per provincia e/o per comune le seguenti informazioni:

  • Codice ISTAT provinciale
  • Codice ISTAT comunale
  • Ricoverati con sintomi            
  • Ricoverati in terapia intensiva   
  • Totale ospedalizzati              
  • Persone in isolamento domiciliare 
  • Totale attualmente positivi (ospedalizzati + isolamento domiciliare)
  • Nuovi attualmente positivi (Totale attualmente positivi attuali – Totale attualmente positivi del giorno prima)
  • Persone dimesse guarite           
  • Persone decedute
  • Totale casi                          
  • Totale tamponi      

Il formato dati (il CSV e/o il JSON) e le modalità di pubblicazione scelte dal DPC sono sicuramente da prendere come riferimento a cui allinearsi.

Inoltre riteniamo che sarebbe di grande interesse conoscere avere un’estrazione di informazioni  (iniziando anche in modalità one shot) su:

  • totale a oggi (23 marzo 2020) di persone entrate in Sicilia dal 29 gennaio;
  • numero di persone che ha compilato il censimento di autodenuncia;
  • il numero generico dei deceduti in Sicilia suddivisi per cause, patologia, età, sesso, sempre dal 29 gennaio (la data del 29 gennaio è stata individuata perché si è registrato il primo caso di contagio Covid-19 in Italia).

Siamo disponibili – se ritenuto utile – a dare un contributo strumentale e di processo per realizzare quanto richiesto.