Biblioteche e bene comune digitale

a cura di Salvatore Fiandaca e Gianni Vitrano

Dall’11 al 16 marzo 2019 la Presidenza del Consiglio dei Ministri, Dipartimento della Funzione Pubblica organizza a livello nazionale la “Settimana dell’Amministrazione aperta” con l’obiettivo di promuovere la cultura e la pratica della trasparenza, della partecipazione e della accountability nelle amministrazioni pubbliche e nella società e accrescere la fiducia dei cittadini nelle istituzioni. Per il Comune di Palermo ha aderito la Biblioteca Comunale presentando il progetto Teca digitale.

Il progetto nasce a fine 2017, quando sono state pubblicate su Flickr le prime scansioni delle cartoline della Collezione fotografica di Enrico Di Benedetto, con illustrazione e foto di Palermo tra il XIX ed il XX secolo, un progetto permette a noi cittadini di fare un meraviglioso viaggio nel tempo (cit.)

Ad oggi sono state pubblicate più di 800 cartoline, ad ognuna è associato a un “corredo informativo” costituito da: titolo, posizione geografica, gallerie di appartenenza, tag, licenza e metadati (non sono dati presenti in tutte le immagini, ma nella grandissima parte), tutte pubblicate con una licenza aperta CC BY-SA 4.0 che ne consente il riuso

Grazie all’uso della licenza CC BY-SA 4.0, alla buona struttura dei metadati e all’analisi di @aborruso, partendo dagli album di Flickr con il  web scraping  ha ottenuto i dati grezzi ottimi per un riuso. Qui maggiori dettagli sulla la tecnica usata per recuperare i dati.

Il riuso dei dati

Nei file CSV ‘grattati’ da Andrea, per ogni immagine, c’è la posizione geografica, che permette di localizzare le cartolinie sul territorio comunale di Palermo, per farlo è stato utilizzato uno dei più usati GIS Desktop Open Source, QGIS.

Utilizzando solo i file CSV è stato possibile creare la mappa e un atlante (cioè una stampa in serie di tutte le foto con tutti i dati disponibili): la mappa è interattiva, cioè al passaggio del mouse, su ogni punto, compare la relativa immagine (vedi screenshot di sopra); oppure è possibile generare un unico atlante di oltre 800 schede, una per ogni cartolina presente nella collezione.

Scheda dell’atlante realizzato cin QGIS

Dati:

Riferimenti

Video demo

Le mappe

Dal progetto QGIS,  con l’ausilo del plugin Qgis2web e un pizzico di conoscenza di HTML abbiamo realizzato la mappa #viaggioneltempo sfruttando il lavoro fatto per un vecchio progetto, l’Atlante Storico, che abbiamo ritenuto essere la base cartografica naturale per il tema trattatto.

#viaggioneltempo

Sempre con QGIS abbiamo ottenuto i file geojson che ci hanno permesso di costruire una mappa dinamica su uMap (altro esempio di riuso)La Cartografia di base utilizzata nella mappa, è la Carta tecnica storica della Soc. An. Ottico Meccanica Italiana e Rilevamenti Aerofotogrammetrici (O.M.I.R.A.) del 1935 di Roma, pubblicata dal Comune di Palermo nel Portale Cartografico, scaricata e riproiettata per realizzare Atlante delle cartografie storiche di Palermo.

Le mappe sono stata inserita nel contenitore PalermoHub di opendatasicilia.it, un contenitore di mappe realizzate/rielaborate da liberi cittadini o da civic hackers prevalentemente sul territorio comunale di Palermo,  non ha alcun intento commerciale, l’unica finalità è mostrare le possibilità di rielaborazione e comunicazione offerte dagli open data o dati pubblici comunali, regionali, nazionali e tutti possono contribuire alla crescita e alla divulgazione.

Palermo: un meraviglioso viaggio nel tempo grazie alla Biblioteca Comunale di Palermo

La Biblioteca Comunale di Palermo dal 26 ottobre del 2017 ha iniziato a pubblicare su Flickr alcune foto della Collezione fotografica di Enrico Di Benedetto, scattate a Palermo tra il XIX ed il XX secolo, tutte pubblicate con una licenza aperta che ne consente il riuso.

Da quel giorno ne sono state pubblicate poco più di 800 e questa collezione oggi è un archivio a suo modo unico, dal grande valore simbolico e culturale.

A me lascia senza fiato vedere ad esempio la galleria dedicata alla “Cala”, l’attuale porto turistico della città, nonché il più antico porto di Palermo. E questa foto denominata “Imbarco-Emigranti“, di circa 100 anni fa, merita di essere guardata e riguardata.

Note sull’archivio

L’archivio è composto da queste 20 gallerie:

Ogni foto è associata a un “corredo informativo” costituito da: titolo, posizione geografica, gallerie di appartenenza, tag, licenza e metadati (non sono dati presenti in tutte le foto, ma nella grandissima parte).

La posizione geografica viene inserita sfruttando una delle caratteristiche native di Flickr che consente di associare una foto a una posizione su mappa. Una volta fatto, all’elemento viene associata una struttura dati di questo tipo, in cui oltre alla coppia di coordinate è presente un’informazione geografica gerarchica (Italia > Sicilia > Palermo).

Per i metadati lo staff della Biblioteca ha accettato una nostra proposta (vedi paragrafo successivo). Flickr infatti non consente di metadatare in modo strutturato una foto, associargli un identificativo, un autore, un editore, la pagina, ecc. e l’unica possibilità per inserire informazioni di questo tipo è quella di sfruttare lo spazio per le note testuali.
E questo è il modo scelto (immagine di sotto) per il meraviglioso archivio della British Library.

Abbiamo aggiunto un elemento: inserire il testo della nota in una modalità che fosse nativamente non soltanto da leggere a video, ma anche un testo strutturato machine readable, trasformabile in una banca dati da interrogare, analizzare e trasformare.
E allora le note sono in YAML, un formato che è sia human che machine readable.

Ad ogni foto sono quindi associate informazioni con questa struttura tipo:

È leggibile chiaramente da un essere umano e contemporaneamente si può trasformare in dati “leggibili da una macchina”, sfruttando una qualsiasi libreria/modulo in grado di interpretare un testo YAML. Con yq ad esempio trasformo la stringa di input di sopra con <input.yaml yq '.|add', per avere indietro un “classica” rappresentazione JSON:

Nella struttura YAML c’è un errore (a causa di un mio suggerimento errato) – non ci dovrebbero essere i “trattini” che fanno da punto elenco – che per fortuna però non ha conseguenze sulla lettura dei dati.
Flickr inoltre fa un encoding dei caratteri inseriti nel campo note (gli “a capo” diventano \n, le virgolette &quot;, ecc.), ma basta saperlo e prendere le “contromisure” via script, per riportare il testo a una struttura YAML corretta.

Come nasce

Qui in OpenDataSicilia diverse persone hanno mostrato nel tempo interesse verso il riuso del patrimonio fotografico della Biblioteca Comunale di Palermo. Tra i primi Giulio Di Chiara e Ciro Spataro, che nel tempo hanno fatto diversi tentativi per porre in essere la cosa.

Quello riuscito, che ha portato a quanto descritto sopra, parte proprio da un’email di Ciro di settembre del 2017, che scrive a me e al Prof. Taibi queste parole:

[…] poniamo che l’Archivio Storico comunale e la Biblioteca comunale si convinca a creare un profilo FLICKR per postare migliaia di immagini frutto di scansioni di carte e manufatti storici e artistici su Palermo e la Sicilia custodite dentro le due strutture. Per valorizzare pubblicamente il patrimonio custodito, insomma open data. Così come fanno a Londra, a New York le Biblioteche pubbliche […]

Da lì parte uno scambio ricco tra Ciro, Davide, me e la Biblioteca, che ha portato in pochi giorni all’inizio della pubblicazione delle foto su Flickr.

Dati

Flickr consente l’accesso ai suoi dati tramite delle ricche API. Per usarle è necessario usare una API key, ottenuta la quale è possibile interrogarle con semplicità.

Un esempio è questo script bash – “bruttino”, perché molto ottimizzabile – che interroga le API per restituire:

Nota bene: da circa 10 foto non è stato possibile estrarre i metadati, perché ci sono dei piccoli errori nel testo sorgente.

Note conclusive

Quanto fatto dalla Biblioteca Comunale di Palermo è un esempio di valore: è facilmente replicabile, non costringe a rivoluzionare procedure interne, ha dei costi sostenibilirestituisce un bene comune digitale prezioso ed è pronto al riuso di persone e “macchine”.

Non è perfetto e si può fare (come sempre) di più e meglio, ma il progetto merita un plauso e un passaparola.

Nei prossimi giorni ci saranno delle sorprese 🎉🎉, degli esempi di riutilizzo di questi dati.

Casi di riuso

Dopo la pubblicazione di questo articolo i dati sono stati (evviva) riutilizzati. Ecco gli esempi:

OpenARS: una prima esplorazione dei dati

A meno di un mese da Open Data Sicilia 2018, che si terrà a Palermo il 9 e 10 novembre, entriamo adesso più nel vivo nel progetto OpenARS, i linked data dell’Assemblea Regionale Siciliana (ARS), che verrà presentato nel corso dell’evento.
Nell’ultimo post ci eravamo lasciati con la presentazione dell’ontologia OpenARS, creata per descrivere in modo formale le diverse tipologie di dati dell’ARS e le loro interconnessioni.
L’ontologia sviluppata consente di dare ad ogni risorsa un significato e di trasformare i dati dell’ARS in un enorme grafo direttamente interrogabile, esplorabile e riutilizzabile in altri contesti.
Ma come li interroghiamo i dati?
Per farlo è necessario introdurre il linguaggio principe usato nel Web Semantico per le interrogazioni, cioè il linguaggio SPARQL.
Il linguaggio SPARQL è una raccomandazione W3C che definisce in modo standard come interrogare i dati, a partire da grafi RDF distribuiti nel Web. Il criterio di interrogazione è basato su un meccanismo di pattern matching, nello specifico dal costrutto triple pattern, che riflette il modello di asserzioni RDF delle triple e fornisce un modello flessibile per le ricerche.
Lo schema generico di un’interrogazione SPARQL è il seguente:

dove
  • PREFIX è la clausola che definisce prefissi e namespace, comoda per abbreviare le URI;
  • SELECT è la clausola che definisce le informazioni che vogliamo estrarre dal repository;
  • FROM è la clausola che definisce il grafo (o i grafi) da esplorare. Può essere sia locale sia remoto. Possiamo anche inserire clausole come FROM NAMED e GRAPH per specificare sorgenti dati multipli;
  • WHERE è la clausola che definisce il pattern del grafo che intendiamo cercare nel dataset; rappresenta la parte più importante della query;
  • ORDER BY è la clausola che mi consente di ordinare i risultati della ricerca.
Immaginiamo di avere un dataset contenente un insieme di libri (risorse) descritti da una specifica ontologia nel file book.rdf, pubblicato nel Web secondo i principi dei Linked Data. Immaginiamo di identificare il dataset nel Web col seguente URL:
http://example.org/books.rdf .
Il nostro obiettivo è conoscere tutti i libri presenti del dataset con i relativi autori; per fare questo dobbiamo estrarre tutte le risorse di tipo libro (?book) e tutte le persone (?person) che sono autori (ex:hasAuthor) dei libri. Dei libri vogliamo conoscere i titoli (?book_title) e i nomi e cognomi degli autori (?person_name, ?person_surname).
La query di interrogazione sarà la seguente:

e questo un ipotetico risultato
Passiamo adesso ad OpenARS e proviamo ad effettuare un’interrogazione reale direttamente sul suo repository. A differenza del file pubblicato nell’esempio precedente i dati di OpenARS sono caricati su un server di storage dedicato che contiene l’intera base di conoscenza nella forma di triple/asserzioni . Per poter effettuare delle interrogazioni sui dati  è necessario conoscere l’URL punto di ingresso, conosciuto con il nome di SPARQL endpoint.
E’ possibile effettuare l’interrogazione direttamente dal client Web fornito dal triple store, come nella figura sottostante oppure è possibile eseguire query SPARQL da codice sorgente di un qualsiasi linguaggio di programmazione se si vogliono sviluppare applicazioni che interagiscono con i dati.
Prima di effettuare qualsiasi tipo di ricerca è fondamentale conoscere l’ontologia di riferimento al fine di poter interrogare correttamente i dati per tipologie di classi e per connessioni esistenti tra le risorse.
Facciamo adesso qualche esempio di interrogazione relativa a statistiche sull’attività legislativa dell’ARS. Per esempio, vogliamo sapere quanti disegni di legge sono stati presentati nel corso della 16° legislatura.
La query SPARQL è la seguente:

che restituirà come risultato il valore 1346.  Provare per credere.
La query assomiglia molto al linguaggio SQL e risulta di per sé molto leggibile. Nel campo WHERE selezioniamo tutte le risorse dello store di tipo ars:DisegnoDiLegge che sono collegate, tramite la proprietà ars:legislatura, alla risorsa che identifica la sedicesima legislatura ( http://dati.openars.org/legislatura/xvi ).
La selezione restituisce un certo numero di istanze e nel campo SELECT decidiamo di calcolare il numero totale di tali istanze, tramite l’operatore di aggregazione count, che corrisponde al numero totale di disegni di legge della 16° legislatura.
Vediamo adesso qualcosa un pò più complesso.
Voglio sapere la classifica top ten  dei disegni di legge presentati nella 16° legislatura suddivisa per materia. 
La query SPARQL è la seguente:

Questo il risultato:

Alcune considerazioni finali:
  • questi sono solo piccoli esempi che si possono fare con i dati ARS, nel prossimo post presenteremo casi molto più complessi che prenderanno in considerazione interrogazioni a sorgenti dati multipli;
  • passando dal Web di documenti al Web di dati (linked-data), il Web diventa machine-understandable e il tutto risulta esponenzialmente vantaggioso in termini di flessibilità e di interoperabilità semantica;
  • con la pubblicazione dei dati in modalità linked il Web diventa data-centric e le possibili interrogazioni dei dati, grazie alle loro interconnessioni, sia dentro che fuori al dataset, diventano pressoché infinite e delle più disparate;
  • non ci credete? provate a reperire nel Web tradizionale i nomi di TUTTI i sindaci le cui città hanno lo stesso patrono della città collegio di elezione di un qualsiasi deputato dell’ARS

    Nel prossimo post vedremo quanto sarà facile farlo con OpenARS.

Alcuni link per approfondire il linguaggio SPARQL
p.s. le iscrizioni al raduno sono ancora aperte. I posti sono gratuiti ma limitati. Per maggiori informazioni questo è il sito dell’evento.
Alla prossima

Alla scoperta di OpenARS – i Linked Data dell’Assemblea Regionale Siciliana

Come già anticipato nel precedente post, al raduno Open Data Sicilia 2018 verrà presentato il progetto OpenARS – i linked datadell’Assemblea Regionale Siciliana. Il progetto OpenARS ha l’obiettivo di pubblicare il patrimonio informativo dell’ARS in un modo completamente nuovo, abbracciando il mondo dei Linked Data, sfruttando le potenzialità del Web Semantico, consentendo la fruizione dei dati dell’ARS in modo flessibile e dinamico.

Vediamo adesso qualche dettaglio in più sul progetto.

Come primo passo sono stati estratti i dati dell’ARS dal sito istituzionale www.ars.sicilia.it attraverso appositi programmi, chiamati scraper, in grado di “grattare il testo dalle pagine Web e di salvare il contenuto in maniera strutturata, cioè individuando per ogni dato estratto la tipologia di appartenenza. Attraverso questi tool sono state estratte informazioni relative a tutte le legislature su deputati, assessori, incarichi e gruppi parlamentari mentre è stata estratta, invece, tutta l’attività parlamentare della 16° legislatura relativa ai disegni di legge, alle risoluzioni, alle interpellanze, alle interrogazioni, agli ordini del giorno, agli iter legislativi e alle sedute.

Applicare i principi Linked Data vuol dire passare da un Web di documenti a un Web di dati. Nel Web semantico non ci sono più documenti ma dati o risorse. Ogni dato è indipendente, collegato agli altri dati e definito formalmente da un’ontologia.
Per i dati ARS è stata sviluppata infatti un’apposita ontologia, chiamata OpenARS, in grado di descrivere in modo formale, sfruttando le potenzialità del Web semantico, le diverse tipologie di dati dell’Assemblea Regionale Siciliana e le interconnessioni che intercorrono tra gli stessi.

L’ontologia ha consentito di dare ad ogni risorsa un significato e di trasformare i dati dell’ARS in un enorme grafo direttamente interrogabile, esplorabile, riutilizzabile in altri contesti, in modo da arricchire il valore dei dati presenti sul sito ARS, abilitare e facilitare l’analisi dati, creare nuova conoscenza dai dati.

Questo è stato reso possibile applicando i principi dei Linked Data che prevedono la definizione univoca di ogni risorsa sul Web, la descrizione di ciascuna risorsa e l’interconnessione delle risorse con altri dataset, apportando così un importante contributo al progetto  LOD – Linked Open Data.

Con OpenARS sono state raggiunte le “5 stelle” di Tim Berners-Lee, cioè il livello più alto nella classificazione degli Open Data in termini di apertura e fruibilità.

 

Nei prossimi post vedremo più nel concreto cosa sono i LOD e come interrogare direttamente  i dati di OpenARS, esploreremo il grafo dei dati per capire come sia possibile iniziare a sviluppare applicazioni, report, ricerche, monitoraggi e statistiche.

Non dimenticatevi di iscrivervi al raduno Open Data Sicilia 2018. L’ingresso è gratuito ma i posti sono limitati.

Rendere pubblico il database delle infrastrutture del Comune di Palermo

Il recente crollo del ponte Morandi di Genova ha evidenziato l’importanza di conoscere lo stato di salute delle infrastrutture di un territorio e quello delle opere di manutenzione correlate. È importante per chi nella Pubblica Amministrazione –  a vario titolo – prende decisioni e fa scelte, così come per i cittadini che volessero poter conoscere queste informazioni, monitorarle e attivare eventuali azioni e scelte conseguenti.

Si tratta di dati che, per tutto il territorio nazionale, non sono però quasi mai disponibili pubblicamente.

Il Comune di Palermo il 24 agosto del 2018 ha dato notizia di svolgere da tempo un “Monitoraggio costante di tutti i 25 ponti che servono la viabilità cittadina” e che in particolare la “Prima attività che ha condotto l’ufficio infrastrutture (oggi infrastrutture e servizi a rete) dell’area tecnica della Riqualificazione Urbana ed infrastrutture (oggi rigenerazione urbana, opere pubbliche ed attuazione delle politiche di coesione) è stata la creazione di un catasto informatizzato, un vero data base delle infrastrutture e delle condizioni d’uso e di conservazione.
L’attività ha permesso il censimento di 25 fra infrastrutture di viabilità a ponte, viadotti o cavalcavia. Nell’ambito di tale procedimento sono state avviate verifiche speditive sullo stato delle infrastrutture viarie nel territorio comunale”.

Chiediamo all’“Area tecnica della riqualificazione urbana e della pianificazione urbanistica”, al Capo Area Nicola Di Bartolomeo e all’assessore alla “Rigenerazione Urbanistica e Urbana” Emilio Arcuri, di rendere pubblico il catasto informatizzato delle condizioni d’uso e di conservazione (citato nella relazione del 24 agosto).

Farlo sarebbe un atto (concreto e di valore) di trasparenza, apertura e efficienza nei confronti della cittadinanza e soprattutto farebbe da esempio e creerebbe emulazione (che su questi temi è proprio necessaria).
Questa richiesta viene pubblicata qui e inviata anche per email ai dott. Di Bartolomeo e Arcuri.

In attesa, alla luce dell’elenco dei ponti citati nella relazione, Gianni Vitrano (grazie) ha creato e pubblicato la mappa “Localizzazione dei ponti di Palermo” usando i dati di OpenStreetMap (utilizzando overpass-turbo.eu) e mettendoli ove possibile in relazione con i dati della suddetta relazione. Purtroppo al momento è poco più di un elenco e fornisce ben poche informazioni ma proviamo ad immaginarla completa di tutte le informazioni disponibili nel catasto informatizzato predisposto dal Comune, la mappa diventerebbe un valido strumento a disposizione della Pubblica Amministrazione e dei cittadini all’insegna della trasparenza ma anche creando opportunità di un utilizzo efficiente dei dati disponibili.

Comune di Palermo: arrivano i dati in real time per alcuni degli autobus pubblici di AMAT

AMAT, la municipalizzata del Comune di Palermo, collabora da tempo con Moovit per i dati i real time di alcuni degli autobus della rete della città, visibili nella app dell’azienda.

Da oggi, tramite API e per 20 linee, sarà possibile in tempo reale accedere ai dati relativi agli arrivi di una linea del Trasporto Pubblico Locale ad una fermata.

Le linee sono: 100, 101, 102, 106, 108, 109, 124, 226, 246, 304, 307, 309, 327, 422, 619, 603, 704, 731, Navette Arancione centro storico ed Express.

Sarà possibile rispondere in modo programmatico a una domanda di questo tipo: “Mostrami i prossimi arrivi della linea 101 alla fermata Cavour“.

Sarà necessario di base fornire la API KEY del servizio, una coppia di coordinate dell’area del comune (per individuare il comune di Palermo), il numero della linea da monitorare e la fermata per cui si vuole il tempo di attesa (qui la documentazione ufficiale).

Ecco un esempio di query con cURL:

Che darà come risultato qualcosa con questa struttura:

La notizia è appena arrivata (la trovate in basso, nella descrizione di questo dataset) e non abbiamo fatto ancora nessun test serio, ma è un’ottima notizia. Perché avere in modo programmatico i tempi di attesa a una fermata per una linea, può generare servizi di gran comodità per i cittadini e per tutto l’indotto legato ai trasporti.
Almeno per quella parte di città coperta dalle linee per cui il servizio è attivo (chiederemo ad AMAT quali saranno le evoluzioni del servizio).

Creare un’app per smartphone per fotografare dei QR code da mettere in ogni fermata, che fatta la foto restituisca quando passeranno le linee servite, o un’app per Google assistant a cui chiedere “Ok google, quando passa da qui il 101?”, o un bot per Telegram o Facebook Messenger, è a questo punto cosa abbastanza semplice.

Una nota a caldo: chiediamo ad AMAT e al comune di pubblicare via API anche l’elenco delle linee per cui è abilitato questo servizio. Nel tempo cambieranno e sarà essenziale per gli sviluppatori avere un modo per essere avvisati automaticamente di queste variazioni.

A partire dal giugno del 2019 ci sarà il progetto City Compass (grazie Marco Lombardo per la segnalazione) – Piattaforma di gestione e tracciamento in tempo reale flotta autobus e Sistema integrato a servizio del cittadino per la previsione di arrivo dei mezzi di trasporto pubblico –  ma questa è un’altra storia.

Utilizzare gli Open data…”in sicurezza”

È ormai da un anno e mezzo che per lavoro mi occupo di sicurezza negli ambienti di lavoro. Gestione, progettazione ed implementazione dei migliori strumenti tecnici sono quei punti chiave atti ad adeguare le aziende alle norme vigenti, in modo tale da ridurre al minimo gli eventuali infortuni e morti nei luoghi di lavoro. Questa nuova esperienza lavorativa, e l’assiduo interesse per gli open data, ha prodotto in maniera quasi del tutto naturale l’idea di coniugare i due temi.

La concretizzazione di questa idea è stata resa tale dalla pubblicazione dei dati aperti da parte dell’Istituto Nazionale per l’Assicurazione contro gli Infortuni sul Lavoro (INAIL).Sul portale dell’INAIL si può infatti trovare una pagina dedicata alla pubblicazione dei dati aperti. Tali dati forniscono due tipologie di informazioni: una inerente al processo organizzativo/gestionale dell’Istituto, l’altra inerente la gestione dei fenomeni di cui si occupa l’Istituto (infortuni e morti nei luoghi di lavoro).

Sfruttando la seconda tipologia dei dati, si è pensato di creare un’infografica, focalizzando l’attenzione sulla regione Sicilia.
L’obiettivo principale di questo strumento è quello di monitorare l’andamento delle morti e degli infortuni denunciati nei luoghi di lavoro, ma il fine ultimo è quello di sensibilizzare la collettività (datori di lavoro e lavoratori). Una presa visione dei dati reali deve essere infatti l’input per una maggiore consapevolezza sul tema della salute e sicurezza dei lavoratori.

In collaborazione con Monica Meschis  i dati raccolti vengono rappresentati con cadenza mensile tramite un’infografica che fornisce le seguenti informazioni:

  • N. Infortuni/Morti totali
  • N. Infortuni/Morti per capoluoghi di provincia regione Sicilia
  • N. Infortuni/Morti per fasce di età
  • N. Infortuni/Morti per sesso

Parallelamente, dall’inizio di quest’anno, il progetto è stato implementato con la realizzazione di un’altra infografica che rappresenta il confronto, dei soli dati complessivi, con l’anno precedente del mese preso in oggetto.

Per estrarre i valori aggregati di insieme il software utilizzato è Microsoft Excel ( i dati vengono pubblicati sul sito dell’INAIL in formato CSV, XML, RDF ed in formato PDF), mentre le infografiche sono state realizzate con l’ausilio di Adobe Illustrator.

Sulla base dell’esperienza dei dati raccolti per la regione Sicilia, l’obiettivo futuro è quello di poter fornire un’ulteriore scrematura con riferimento alle mansioni, e di poter ampliare il progetto anche su altre regioni italiane.

Gli attuali aggiornamenti periodici possono essere consultati su Twitter tramite l’hashtag #OpenDataSicurezzaLavoro (o #OpenData #SicurezzaLavoro o sul profilo @pepperinella) o su Linkedin seguendo il profilo @GiuseppeRinella

I dati di soldipubblici.gov.it sul tuo portale open data

I portali open data hanno sempre bisogno di essere alimentati con dataset nuovi e soprattutto aggiornati.  Attivare quei meccanismi che consentono di generare file aperti e allo stesso aggiornati, nella Pubblica Amministrazione, è un processo che molte volte richiede tempo e soprattutto un cambio di mentalità; è un discorso questo, che si sente spesso nella PA.

La comunità di opendatasicilia mi ha spesso insegnato che, è mostrando la potenzialità dei dati aperti con il riuso, che quei meccanismi di interesse si possono sbloccare, attirando nuove idee e nuovi dati. Avere quindi dati aperti, aggiornati e attendibili, è cosa rara e complicata, ma quando ne puoi discutere un po’ in gruppo e alimentare le tue fantasie e le tue idee con uno script di poche righe ma efficientissimo, allora la vita sembra prendere una piega del tutto diversa!

Sotto la spinta delle mie esigenze lo script (creato da Andrea Borruso), originariamente nato per scaricare i dati di un singolo ente da soldipubblici.gov.it, ha consentito la pubblicazione di una dataset sul portale open data della Città Metropolitana di Napoli, in due formati (csv e json), con aggiornamento automatico settimanale.

Ma andiamo per gradi.
Il sito soldipubblici.gov.it consente  di consultare e scaricare  i dati della spesa pubblica  ricercando un ente.

È possibile fare il download del CSV, al click su un pulsante, ma nel mio caso avevo bisogno di automatizzare questo processo.

Lo script (accessibile qui) è scritto in bash, sfrutta le utility httpie, jq e csvkit e funziona in questo modo:

  • si imposta il codice dell’ente di interesse (i codici dei vari enti si trovano qui)
  • il dato viene scaricato in formato JSON, e le cifre spese espresse in origine come numero intero (è stata rimossa la parte decimale, moltiplicando per 100), vengono riportate a numero decimale;
  • il file così trasformato viene salvato in JSON e CSV.

Alla versione originale dello script volevo aggiungere la possibilità di rimuovere quei record in cui le colonne con i valori numerici sono non valorizzate (sono “null”). E allora mi è stato suggerito di usare csvgrep, che può filtrare le righe di una tabella a partire da un’espressione regolare ed è stata aggiunta la riga:

Lo script viene eseguito su un server del mio Ente, e l’output è accessibile dall’esterno pubblicamente in http.

Essendo i dati di “soldipubblici” aggiornati settimanalmente, nasceva infine l’esigenza di doverne automatizzare il download senza la necessità di un intervento umano. Così, sempre su indicazioni apprese nello scambio in mailing list, ho modificato il file /etc/crontab (che negli ambienti Linux consente di impostare delle operazioni da eseguire in modo pianificato) aggiungendo:

La stringa “0 4 */7 * *” corrisponde a “ogni 7 giorni alle 4 di mattina”.

Verificato che il tutto funzionasse correttamente e ottenuti i link statici dei file creati dallo script, ho provveduto a caricarli in un dataset sul portale ckan degli Open Data della Città Metropolitana di Napoli.

È nato così il primo caso d’uso specifico dello script SpesaCron, dove grazie all’estrazione di due file csv e json dai dati di soldipubblici.gov.it è stato possibile pubblicare un dataset contenente tutte le voci di spesa di una Pubblica Amministrazione, automaticamente alimentato dallo stesso sito e con frequenza di aggiornamento settimanale.

ODSWinter17


La comunità di Open Data Sicilia ha tenuto lo scorso 30 Dicembre il suo quarto raduno invernale a Patti, presso il Caffè Galante (qui una fotogallery).

Il raduno invernale di Open Data Sicilia è detto lo Schiticchio perché l’abitudine di vedersi in questo periodo dell’anno nacque dal desiderio degli appartenenti alla comunità di incontrarsi e di passare piacevolmente una giornata intorno ad una tavola imbandita (accadde per la prima volta a Resuttano, quindi a Pedara, poi a Castelbuono e stavolta a Patti). Da lì venne fuori poi l’idea, visto che ci si incontrava, di approfittare della circostanza per dedicare alcune ore della mattinata ad approfondimenti tematici, aggiornamenti e formazione prima di ritrovarsi seduti intorno ad un tavolo.

Anche il più articolato ed impegnativo raduno estivo che si svolge in più giorni, è frutto, in fondo, dello Schiticchio invernale e del desiderio di incidere significativamente sulla diffusione e l’uso degli open data nella nostra regione e nel nostro Paese (il primo si svolse a Palermo, il successivo a Messina e l’ultimo, l’estate scorsa, a Caltanissetta in forma congiunta con la comunità nazionale di Spaghetti Open Data).

Open Data Sicilia non è nuova a Patti; già nello scorso mese di Marzo aveva donato alla città l’applicazione Albo Pop Patti e presso il Caffè Galante, nel Luglio del 2015, aveva pure contribuito a realizzare il primo evento regionale sugli open data con l’apporto significativo di alcuni elementi della nostra comunità; la prima Summer School siciliana sugli open data, organizzata in quella circostanza da Lo Stretto Digitale, si tenne lì per tre giorni ed ebbe, come già detto, l’apporto significativo di alcuni dei nostri elementi tra gli organizzatori, i relatori e i formatori. E ancora prima, nell’Agosto 2013, fu proprio da una chiacchierata avvenuta a Patti tra due dei nostri che nacque l’idea di provare a dar vita ad un gruppo Facebook da cui poi prese vita la comunità di Open Data Sicilia.

I temi di quest’anno affrontati durante la mattinata hanno riguardato la disponibilità di strumenti digitali open per essere tempestivamente allertati dalla Protezione Civile in caso di incombenti pericoli, conoscere la reale disponibilità e puntualità dei trasporti pubblici urbani anche in realtà non necessariamente metropolitane, consentire ai cittadini di esercitare quel necessario e funzionale controllo dal basso sui nostri politici e sulle nostre amministrazioni per capire quanto e come, bene o male, sia stata in loro riposta la nostra fiducia o siano spese le nostre risorse.

In dettaglio, qui di seguito, gli argomenti trattati durante la mattinata

G. Pirrotta, A. Borruso – La “datificazione” degli alert della protezione civile regionale: un prototipo; slide | slide

G. La Mensa, G. Pirrotta, A. Borruso – Cosa è e come funziona SCATbot, il bot Telegram per avere informazioni in tempo reale sui bus di Caltanissetta; slide

G. Ragusa, G. Pirrotta – FOIAPop: il punto su uno strumento che sta diventando realmente popolare; slide

G. Pirrotta, D. Taibi – Un’ontologia dell’Assemblea Regionale Siciliana: il web semantico a supporto del civic hacking; slide

Open Data Sicilia: riflessioni e obiettivi per il 2018 (e oltre).


ODSWinter17

FoiaPop.it…e adesso…chiediamo(li) tutti

Succede tutto in 6 mesi, da inizio Gennaio 2017.
Ci eravamo appena lasciati, rinforzati nell’entusiasmo dal raduno estivo di Castelbuono.

Decidiamo (Giuseppe Ragusa e Giovanni Pirrotta) di darci presto un appuntamento “virtuale” perché avevamo l’impressione che su alcuni dati si potesse lavorare insieme per produrre qualcosa di utile, ma entrambi non avevamo in alcun modo un’idea precisa.

Avevamo solo, con modalità e con obiettivi diversi, approfondito gli stessi temi e cioè: l’Indice delle Pubbliche Amministrazioni (IPA), i dati sui contratti pubblici dell’Autorità Nazionale Anticorruzione (ANAC), il Sistema Informativo delle operazioni degli enti pubblici (SIOPE).

Partiamo:

  • Uno scambio di idee (confuse);
  • Non demordiamo perché qualcosa ci dice che siamo sulla strada giusta;
  • Dobbiamo dimenticarci di “noi” piccoli e diventare per un po’ un grande “NOI”. Dobbiamo cioè ripartire dai bisogni del cittadino. Sta lì la risposta che cerchiamo.

Abbiamo deciso di “ascoltare” il più possibile. Giorni di “ascolto” ci fanno comprendere che:

  • Il diritto di accesso civico, sia semplice che generalizzato (FOIA), è per molti cittadini uno sconosciuto;
  • Chi ne conosce l’esistenza ha difficoltà a porre domande fondate e non opponibili dalla PA. Ci sarebbe bisogno di “dati da cui partire”;
  • Gli “eventi/manifestazioni/azioni amministrative” più importanti e che destano maggiore interesse all’interno di una PA sono quelle su cui ruotano i flussi monetari e cioè i pagamenti, gli incassi, gli appalti, etc. E, guarda caso, ci sono già disponibili dei dati aperti.

Ora le idee sono molto più chiare. Ma non è che siamo davvero sulla strada giusta?

Si inizia a mettere nero su bianco e mettiamo gli “open data” a sistema. Gli open data, uno strumento chiave di volta per aprire uno scrigno impolverato e incompreso sotto gli occhi di tutti. Un approccio nuovo, diverso, creativo, in grado di far emergere un potenziale finora inesplorato, di conciliare semplicità e facilità di utilizzo, per essere alla portata di tutti e fruibile senza libretto di istruzioni.

Nasce FoiaPop.it, il portale degli accessi civici data-driven (cioè guidato dall’uso dei dati). Una guida passo-passo alla compilazione online degli accessi civici semplici e generalizzati a partire dai flussi monetari delle Pubbliche Amministrazioni, dai contratti pubblici e dagli obblighi di pubblicazione imposti dal D. Lgs 33/2013.

Gli open data che ci “guidano” sono attualmente:

Con FoiaPop non dovrai fare altro che selezionare una pubblica amministrazione, visualizzarne i pagamenti, gli incassi e/o gli appalti, esplorare il patrimonio informativo fornito dagli open data, generare il documento/richiesta di accesso civico per chiedere un dettaglio, un approfondimento, una spiegazione, o dei dati, quindi firmare e inviare la richiesta alla pubblica amministrazione, anche via email o via Posta Elettronica Certificata.

Il nostro augurio è che FoiaPop.it possa realmente contribuire a diffondere in modo capillare la conoscenza e l’esercizio del diritto di accesso civico ai dati, ai documenti e alle informazioni delle Pubbliche Amministrazioni.

Su coraggio. Si può fare! 
Chiediamo(li) tutti!