Opendatafest 2017 a Caltanissetta, il report di 3 giorni di lavori

 

 

 

 

 

 

Le comunità di Opendatasicilia e Spaghetti Open Data hanno dato vita a questo report sui lavori della 3 giorni di incontri dell’opendatafest a Caltanissetta (2-4 giugno 2017).

I materiali mostrati nelle giornate sono disponibili su http://opendatafest.it 

Abbiamo pubblicato le slide  delle presentazioni mostrate al raduno direttamente nel sito opendatafest.it, all’interno del programma: dopo i titoli degli interventi e delle sessioni c’è una voce “| SLIDE” che permette di visualizzare i materiali. 

In questo post elenchiamo alcuni dei momenti del raduno e delle presentazioni (fai riferimento al programma per un quadro completo).

Venerdì mattina

Dibattito di inizio dei lavori

Chi: Alberto Cottica, Matteo Brunati, Andrea Borruso, Cristiano Longo

Di cosa si è discusso, in ordine sparso:

  • Curarsi delle comunità costa, è necessario rendersene conto
  • Scelta di strumenti che permettano di dare un lascito, serve dare continuità alle comunità
  • Fase storica sugli Open Data: forse stiamo vivendo la fase adolescenziale, siamo stanchi
  • Serve collegarsi alle altre comunità del mondo Openness
  • Trovare modi per far convogliare i vari temi crosscomunità, pur mantenendo le varie identità, forse è utile una Woodstock dell’Openness, sta nascendo un evento a cui ci hanno chiesto un parere e un contributo, che intende provarci nel 2018
  • Comunità locali: necessitano di credibilità per incidere nel territorio, serve dare il buon esempio
  • Serve documentare tutto, necessari incontri fisici e online
  • Non siamo da soli, non dobbiamo chiuderci in noi stessi, serve aiutare il ricambio e allargare includendo
  • Per coinvolgere altri è necessario uscire dal linguaggio da iniziati
  • La tecnologia è funzionale, un mezzo, da soli si fa poco: necessario coltivare i rapporti umani per creare cose nuove
  • Quando un cittadino inizia a produrre valore, mette in discussione lo status quo
  • Bisogna decidere come partecipare alle azioni di governo, capire come relazionarsi all’EU, bisogna rompere le scatole in modo costruttivo, come comunità
  • Il civic hacker è troppo solo, devi avere persone intorno per restare motivato
  • Serve decidere come comportarsi con le altre comunità
  • Lancio del progetto civichacking.it

Dettagli sull’evento delle comunità dell’Openness in costruzione 2018

A quanto pare l’esigenza di connettere comunità che lavorano e sono appassionate di temi affini, non è solo una sensazione di pochi: parliamo di tutte quelle comunità che in qualche forma supportano e discutono di libertà digitali (Openness in senso lato, Open Source, Free Software, Open Content e beni comuni digitali).

Assieme a Roberto Guido (presidente di Italian Linux Society – ILS), che ci ha cercato qualche settimana prima del raduno, abbiamo iniziato a ragionare su un evento unico, che riunisca molte comunità nello stesso luogo e negli stessi giorni, mantenendo ognuna separata nella gestione dei propri eventi. Per iniziare può bastare essere tutti nello stesso luogo, simultaneamente: è un inizio.

Alcuni appunti condivisi: https://etherpad.net/p/proposta-os-conf-ita

Civic hacking: comunità informali, prototipi e Open Data: il libro

Il libro nasce dall’esigenza di capire cos’è il civic hacking concretamente nel contesto italiano, uscendo dal gergo per iniziati. A partire dalle esperienze reali dei civic hacker, che collaborano per trovare soluzioni creative a sfide sociali concrete, allarghiamo lo sguardo per analizzare il rapporto tra Open Data, prototipi, comunità informali e modi di sfruttare le zone grigie (quelle opportunità inaspettate che si creano a volte).

Interessa ovviamente i civic hacker. Interessa anche i maker, gli appassionati di openness e chiunque senta l’esigenza di mettere le mani “in pasta”.  

Raccontiamo anche le nostre esperienze dirette all’interno della comunità di Spaghetti Open Data per mostrare il potenziale e la fatica di quello che si può fare.

Persone, storie, Open Data, prototipi: tutto questo per noi è civic hacking. Non solo tecnologia, ma un modo per scardinare vecchie abitudini, un modo per riprendersi il proprio ruolo di cittadini, un modo per risolvere problemi.

Fino al 31/7 h.22 CEST, puoi inviare un tuo contributo. Per dettagli fai riferimento al sito http://civichacking.it/#contributi.

Dal primo agosto partirà una campagna di crowdfunding: se ti interessa, lascia pure la tua email qui http://eepurl.com/cQ15nX.

L’annuncio del portale regionale siciliano sui dati aperti

A sorpresa è venuto a seguire i lavori della mattina Enzo Lo Piccolo, webmaster della Regione Siciliana. Ha chiesto la parola per pochi minuti e ha fatto un annuncio: nelle prossime settimane (tra fine giugno e inizio luglio) verrà lanciato il portale regionale siciliano sui dati aperti. Sarà basato su CKAN e DCAT-AP_IT compliant.

Ha chiesto alla comunità – a lancio effettuato – di “dargli una mano”, sia nelle critica che nella proposta e ha dato comunicazione di un indirizzo email dedicato opendata@regione.sicilia.it. E noi gli abbiamo chiesto di iscriversi alle nostre mailing list.

È stato un momento molto informale e concreto, che ci fa essere ottimisti. Per la Sicilia è sicuramente una bella notizia ed è stato un piacere che #ODFest17 sia stato “stimolante”.

Le presentazioni del venerdì pomeriggio

Proposte di elaborazione di Dati Aperti dagli studenti di Informatica dell’Università di Palermo

Tre studenti del corso di laurea in Informatica dell’Università degli studi di Palermo, hanno presentato i progetti realizzati per l’esame della materia “Tecniche per la gestione degli Open Data”, curato da Davide Taibi del CNR di Palermo (http://offweb.unipa.it/offweb/public/corso/dettaglioInsegnamento.seam;jsessionid=FB17C3274CB9C25A07D58E8A68988D26?oidCurriculum=17137&oidInsegnamento=111202&cid=123461). I progetti che gli studenti devono realizzare per superare l’esame della materia hanno tre caratteristiche fondamentali: a) i dati da elaborare devono provenire da diverse fonti (anche generati da sensori) ed essere in diversi formati; b) i dati acquisiti devono essere elaborati mediante processi di pulizia e armonizzazione delle strutture dati; c) i dati elaborati devono essere resi disponibili all’esterno mediante API e in un formato aperto con un livello pari a 5, possono essere riusate ontologie esistenti o è possibile creare nuove ontologie per modellare il dominio di conoscenza specifico. Infine, i dati prodotti devono essere alla base della realizzazione di applicazioni come: bot telegram, web application, o applicazioni per dispositivi mobili.

Nello specifico gli studenti che hanno partecipato all’OpenDataFest17 hanno presentato:    

  • Un portale che aggrega gli eventi culturali che si svolgono nella città di Palermo di Vincenzo Cimino, https://raw.githubusercontent.com/VickPix/aggregatore-eventi/master/slides/Aggregatore_eventi_Vincenzo_Cimino.pdf. I dati vengono acquisiti mediante scraping di alcuni blog palermitani, e dal portale dell’Università di Palermo; e vengono armonizzati in una struttura dati comune che viene utilizzata per alimentare un portale in cui vengono visualizzati gli eventi mediante una interfaccia semplice, facile e comoda. Per modellare gli eventi e le loro caratteristiche è stato utilizzato schema.org. L’estrazione dei dati relativi agli eventi in formato JSON-LD è stata implementata attraverso API. L’applicazione è disponibile qui (http://portale-eventi.firebaseapp.com).
  • Una stazione meteo autocostruita e la relativa piattaforma di gestione dei dati in rete di Riccardo La Grassa https://github.com/pulsar2468/Owd/blob/master/OpenDay2017.pdf. Sono state fornite indicazioni per la costruzione della stazione meteo. Molto interessante è stata la descrizione relativa alla costruzione dell’anemometro, realizzato a basso costo con materiali riciclati. I dati raccolti dalla stazione vengono elaborati da un server centrale alle quali le stazioni meteo possono registrarsi attraverso un TOKEN. Il server centrale fornisce le visualizzazioni dei dati acquisiti e consente l’esportazione dei dati in formato aperto a cinque stelle. In questo caso è stata riutilizzata una ontologia specifica per la modellazione dei dati provenienti dai sensori.  
  • Una piattaforma di visualizzazione per infografiche relative a dati georeferenziati di Tommaso NIcosia (http://opendatafest.it/presentazioni/TommasoNicosia-OpenData-framework-sviluppo.pdf). In questa piattaforma i dati provenienti dalle segnalazioni della polizia municipale del comune di Palermo, e i dati provenienti da Waze relativi al traffico cittadino vengono aggregati e visualizzati su mappa. Un prototipo è disponibile qui (http://neuron4web.palermo.enea.it/opendata/_trafficendpoint). Uno SPARQL endpoint si occupa di gestire le query che vengono effettuate sui dati rappresentati in RDF. I dati forniti possono avere diversi settori di applicazione. Ad esempio tali dati possono guidare le scelte dei percorsi per raggiungere punti critici della città come ad esempio i presidi ospedalieri. L’unione di queste informazioni con, ad esempio, i dati relativi alle file dei pronto soccorso della città potrebbero supportare (nell’eventualità in cui non ci siano casi che necessitano cure immediate) la scelta del pronto soccorso in maniera più efficiente in termini di pazienti in attesa, traffico nelle strade ed eventi particolari come manifestazioni e lavori in corso.    

Non fidarsi più dell’ennesima agenda: servono uno o più progetti di civic hacking [Forum OGP]

Durante il dibattito mattutino sono emersi alcuni elementi sparsi legati soprattutto al ruolo di realtà come SOD o gruppi locali come Opendata Sicilia rispetto a forum di questo tipo, ancor di più in merito al tipo di intervento e interessi da mettere sul piatto.

Durante la sessione pomeridiana siamo andati maggiormente nel dettaglio di un processo complesso, costoso e con un ritorno difficile da valutare per la società civile. Lo scopo è stato quello di condividere un vissuto di un anno, focalizzato a spiegare dove siamo ora, specie in merito alle proposte/domande presentate al ministro Madia durante l’ultimo evento in plenaria dell’8 maggio scorso.

Una delle azioni nate nei giorni del raduno e condivise con i presenti ha poi generato questa richiesta formale alla squadra OGP Italy, che abbiamo condiviso in questo thread:

https://groups.google.com/d/msg/spaghettiopendata/uslQ2CTqqiM/M1rM7uaIAQAJ

Abbiamo scelto di dare maggior visibilità a questa proposta pubblicandola anche nei rispettivi luoghi digitali:

  1. http://www.spaghettiopendata.org/blog/matteo-brunati/open-government-partnership-andare-oltre-lagenda
  2. http://blog.openpolis.it/2017/06/13/open-government-partnership-andare-oltre-lagenda/15616
  3. http://blog.ondata.it/open-government-partnership-andare-oltre-lagenda/
  4. https://it.okfn.org/2017/06/13/open-government-partnership-andare-oltre-lagenda/

Incoraggiare la partecipazione attiva dei giovani alla vita democratica con YouthMetre

Caterina Impastato ha presentato YouthMetre, iniziativa che nasce per incoraggiare la partecipazione attiva dei giovani alla vita democratica.  Ecco le slide (Prezi) dell’intervento: uno degli elementi più interessanti è la piattaforma e i dati che aggrega, uno degli argomenti che è stato oggetto di alcune domande da parte dei presenti.

Il progetto Ricostruzione Trasparente

Alessio Cimarelli, rappresentante dell’associazione onData, ha presentato e discusso il progetto Ricostruzione Trasparente. Ecco le slide dell’intervento.

Civic Hackathon[s]

Creazione del GTFS di Caltanissetta

GTFS

Nelle prime ore di lavoro il gruppo di lavoro ha “sbattuto” con un ostacolo inatteso: i dati sulle rotte e sulle fermate erano incompleti o errati. Per fortuna, durante la giornata, è venuta a trovarci la Titolare dell’Azienda che gestisce i trasporti locali su gomma (SCAT) e siamo riusciti a produrre dei dati corretti sulla linea 3 (uno speciale grazie a Cesare Gerbino che è stato come sempre molto disponibile e puntuale).

Compresa l’impossibilità di avere delle info in giornata sui dati di base, ci siamo messi come obiettivo quello di costruire una procedura che consentisse di produrre un GTFS a partire dai dati forniti della SCAT e di verficarne la validità.

Davide Galletti ha creato uno script python, che a partire dalle info sulle fermate, e dalla timetable fornita da SCAT (che è abbastanza generica), produce i file secondo standard GTFS su rotte, corse e orari (routes.txt, trips.txt e stop_times.txt).

Abbiamo testato lo script con un set completo di dati (i file .txt presenti qui) usando il FeedValidator “ufficiale” e il file GTFS è risultato validato (con diversi warning che indicano la necessità di fare un altro check sui dati di base).

In conclusione:

  • Sarà necessario avere i dati geografici di base corretti e completi per tutte le linee. Giuseppe La Mensa, insieme al personale di SCAT, sarà in prima linea a occuparsene;
  • Con il set di dati completo, faremo delle modifiche e ovviamente dei test sullo script di creazione del file GTFS;
  • Documenteremo il tutto in modo da rendere autonoma la SCAT nella produzione del file GTFS e per potere replicare il processo anche in altri piccoli comuni.

GTFS + LOD

A valle del lavoro sul GTFS, è stato fatto un esperimento (Francesco Marchitelli, featuring Marco Brandizi) aggregando i dati del file GTFS di Lecce con dati provenienti dalla Linked Open Data cloud, per mostrare alcuni dei vantaggi nell’usare i Linked Data. Dopo aver convertito il file GTFS in RDF, sono stati inseriti gli eventi presenti a Lecce e caricato tutto quanto in un triple store. A questo punto è stata fatta una query di esempio che mostra i dettagli di un concerto organizzato al castello, con le informazioni correlate delle fermate dei bus che si trovano nelle vicinanze.

Il materiale si trova in questa cartella.

Un’analisi di rete dei finanziamenti europei alla ricerca

La sessione di Alberto era tosta, specie per quelli che non hanno partecipato al lavoro degli anni precedenti: Alberto ha raccontato i dettagli e la storia di questa proposta nella descrizione di questa sessione.

Purtroppo non è riuscita ad essere presente Baya Remaoun (andata via durante il pomeriggio del venerdì): alcune delle domande emerse sui dati CORDIS avrebbero avuto una risposta veloce, probabilmente.

Infatti una delle sfide per chi curiosa in dati che non conosce è riuscire a comprenderli con facilità.

Sono domande che porremo a Baya e alla squadra che gestisce la pubblicazione dei dati CORDIS nelle prossime settimane.

Altre domande hanno trovato risposta però: i risultati e la documentazione relativa al lavoro fatto si trovano in questa cartella del repo. C’è anche la presentazione (in formato Keynote) mostrata da Alberto e le immagini correlate (cartella).

Realizzare un elenco machine-readable di Albi POP

Nei giorni precedenti avevamo deciso di unificare i nostri hackathon entrambi relativi ad Albo POP, riconoscendo come la creazione di un elenco processabile dalle macchine di albi POP fosse un passo importante per molteplici attività, non ultima quella di creare aggregatori di albi. Per questo motivo, con l’aiuto e l’esperienza di Francesca Gleria abbiamo deciso di iniziare definendo un formato per la rappresentazione di albi POP.

Siamo partiti dal vocabolario del web semantico DCAT, raccomandazione W3C per la rappresentazione di dataset. L’albo POP è infatti null’altro che una rappresentazione, in formato RSS, del dataset degli avvisi di una pubblica amministrazione.

Abbiamo esaminato quindi la specializzazione di DCAT realizzata per le pubbliche amministrazioni italiane dcat_ap_it e la abbiamo applicata al nostro caso particolare. La peculiarità di albo POP è che il feed RSS viene generato a partire da una pagina web e il detentore dei dati (la pubblica amministrazione titolare dell’albo) non ha alcuna relazione con chi realizza e tiene su il servizio di albo pop. Inoltre, abbiamo tenuto in considerazione le specifiche RSS per albo pop.

Il lavoro ha generato un tutorial per pubblicare in DCAT_ap_it un elenco di albi pop, (che ci ripromettiamo di completare nei prossimi giorni.

Le informazioni originali sui dataset presenti nel catalogo in formato DCAT sono comunque rappresentabili in prima battuta con una semplice tabella. Abbiamo quindi strutturato opportunamente un Google Spreadsheet condiviso affinché fosse la base di partenza per la generazione automatica del file di catalogo, ma anche la sorgente dati di una visualizzazione web nello stile di Petrusino. L’idea è di alimentare il foglio mediante un form on-line e collegare ad esso uno script che lo traduca nel formato DCAT e una visualizzazione web che permetta di navigarlo.

FormAzione

Vocabolari, metadati: uno sguardo nel dettaglio

Al posto di una presentazione vera e propria c’è stata una discussione, guidata da queste slide.

Un’introduzione a Elasticsearch

Alessio Cimarelli ha tenuto una lezione introduttiva al database e motore di ricerca Elasticsearch, discutendone caratteristiche e potenzialità a partire dai dati live del progetto Ricostruzione Trasparente. Ecco le slide.

Varie

La proposta di Massimo Zotti: tradurre i videotutorial del progetto Copernicus

https://www.youtube.com/watch?v=KWeS1-TDy-0

Ringraziamenti e scuse

La vita dell’OpenDataFest17 è stata semplice e comoda. Un sentito grazie a:

  • Giuseppe La Mensa che ha coordinato tutto il prima, durante e dopo della logistica e i contatti con il sistema di accoglienza locali;
  • Erika Marconato che ha creato l’apprezzato communication kit (usato poi per magliette, banner, sito, social, ecc.. ), gestito la comunicazione su #ODFest17, raccolto le donazioni per le magliette, partecipato al gruppo di lavoro per la definizione di queste tre giornate;
  • Matteo Brunati che ha dato forma a questo raduno con diverse idee e spunti stimolanti, creato il wiki per il raduno, editato il sito e per essere stato Matteo Brunati;
  • Andrea Borruso che mostra a tutti noi come essere delle persone migliori;
  • Il Comune di Caltanissetta che, grazie alla sensibilità verso i temi del digitale innovativo dell’amministrazione Ruvolo, ha contribuito alle spese organizzative dell’evento.

Chiediamo scusa ad Alessandro Capezzuoli, per non essere riusciti a tenere al meglio i tempi del venerdì pomeriggio e non avere avuto l’opportunità di ascoltare la sua relazione dal titolo Professioni e orientamento: dagli open data al mercato del lavoro.

STORIFY

Disponibile uno storify ( a cura di Erika Marconato) che può dare un’idea di quello che abbiamo combinato: https://storify.com/ErikaMarconato/opendatafest2017

Leggere, interrogare e trasformare file XML da riga di comando

Intro

Il comune di Palermo ha pubblicato i dati pubblici e aperti sulle elezioni comunali dell’11 giugno 2017 in formato XML, con uno schema descritto in questo file.

Qui sotto ad esempio la struttura di uno degli oltre 200 file pubblicati.

L’XML è uno dei formati classici di pubblicazione di dati aperti, ma non è un formato per tutti. Molti utenti infatti non sono in grado di esaminarli.
Per la sua natura è facilmente leggibile da un calcolatore e ci sono varie modalità per farlo.

E con un’utility specializzata (XMLStarlet) e con un piccolo comando come questo di sotto, è possibile trasformare questo file XML in una “piatta” tabella con tutti i dati sui voti dei candidati di una lista al consiglio comunale, per ogni sezione elettorale (40 candidati per 600 sezioni, quindi 24000 record).

xmlstarlet sel –net -t -m //SV/V0/V1 -v @NUMERO -o , \
-v @VOTIVALIDI_C1 -o ,  -v ../@NUMERO -o , \
-v ../../@NUMERO -n \
http://comunali2017.comune.palermo.it/SEZ_3_82053_L12.xml

 

Qui sotto lo vedete in azione:

I dati sui risultati delle liste elettorali hanno questa struttura:

<SV NUMERO=1 NOME=SEZIONE 1 NOMEBREVE=SEZ. 1 UBICAZIONE= NUM_ZONA= NUM_ZONA2= TOTVOT=540 TOTVOTM=255 TOTVOTF=285 FLZEROVOT=N ELETTORI=1112 ELETTORIM=556 ELETTORIF=556 CONFERMATO=S VOTIVALIDI_C0=54 VOTIVALIDI_C1=37 VCAS_C1=0″ VCNAS_C1=”0″ VOTI_SOLO_C1=”0″ VOTIVALIDI_C2=”0″ VCAS_C2=”0″ VCNAS_C2=”0″ VCNAS_TOT=”0″ VOTI_SOLO_C2=”0″ VOTI_NULLI_SOLO_C2=”0″ VOTI_NULLI=”0″ NULLE=”21″ BIANCHE=”8″ CONFCONS=”S” MAXVOTVAL=”9″>
        <V0 NUMERO=12 VOTIVALIDI_C0=54 TOT_VOTIVALIDI_C1=37 TOT_VOTISOLO_C1=0>
            <V1 NUMERO=1 VOTIVALIDI_C1=5 VOTISOLO_C1=0 VOTCONASS_C1=0 VOTCONNONASS_C1=0 CIFRAIND=59 TOT_VOTIVALIDI_C2=0 TOT_VOTISOLO_C2=0/>
            <V1 NUMERO=2 …/>
            <V1 NUMERO=3 …/>        
        </V0>
</SV>

 

SV è la sezione elettorale con il suo numero identificativo (e altri attributi), che contiene al suo interno i dati su V0 che rappresenta la lista (in questo caso la 12, quella del “Movimento 5 stelle”), che contiene al suo interno V1, ovvero i dati sui candidati al consiglio comunale. Con questa struttura gerarchica SV>V0>V1.

Il comando di sopra nel dettaglio:

  • sel --net -t -m, abilito la selezione (sel) su un file remoto (--net), impostando un template (-t) per “mappare” gli elementi che corrispondono (“matchano” -m) alla seguente query XPATH;
  • "//SV/V0/V1", i candidati al consiglio;
  • "@NUMERO", l’attributo con il numero identificativo del candidato;
  • -o ",", per inserire un separatore di testo;
  • -v "@VOTIVALIDI_C1", l’attributo con i voti validi del candidato;
  • -o ",", per inserire un separatore di testo;
  • -v "../@NUMERO", mi muovo verso l’alto nella gerarchia dell’XML di un gradino con .., quindi vado in V0 (la lista) e recupero l’identificativo numerico della lista;
  • -o ",", per inserire un separatore di testo;
  • -v "../../@NUMERO", mi muovo verso l’alto nella gerarchia dell’XML di due gradini con ../.., quindi vado in SV (il seggio) e recupero l’identificativo numerico del seggio;
  • -n, per inserire un’andata a capo per ogni risultato ottenuto;
  • http://…/SEZ_3_82053_L12.xml è l’URL del file XML.

In output nella shell avrò:

1,5,12,1
2,9,12,1
3,2,12,1
…,…,…,…

Ovvero

numeroCandidato voti numeroLista sezione
1 5 12 1
2 9 12 1
3 2 12 1

Creare dei file CSV con i dati per tutte le liste

Ho pensato che possa essere molto interessante fare un esempio più ricco e completo e creare uno script bash per:

  • scaricare tutti i file XML delle 18 liste;
  • estrarre da ognuno l’anagrafica dei candidati consiglieri;
  • estrarre da ognuno il numero di voti, per ogni sezione, di ogni candidato al consiglio;
  • fare il join – unire – le info sul numero di voti, con l’anagrafica dei candidati consiglieri, e creare un file CSV per ogni lista;
  • unire tutti i file CSV e produrre anche un unico file con il numero di voti di ogni candidato, per ogni lista, per ogni sezione.

Requisiti

Il prodotto finale è uno script BASH, quindi bisogna avere a disposizione un sistema compatibile con questo linguaggio (lo sono essenzialmente tutti).

Richiede tre utility:

  • l’immancabile cURL, per scaricare i file;
  • XMLStarlet per interrogare i file XML e trasformarli in file CSV;
  • csvkit per fare il join e il merge dei CSV scaricati.

Richiede una conoscenza di base (e/o la volontà/possibità di farserla) su:

  • XPATH, per estrarre i dati (per interrogare) i file XML;
  • la linea di comando, perché è un po’ il campo di gioco di queste modalità di accesso e modifica di file;
  • BASH, che è il linguaggio dello script finale;
  • aprire i file XML del comune con un buon editor di testo, guardarli un po’ e comprenderne la struttura.

Lo script

Lo script per intero è più in basso. A seguire un esploso delle varie parti che lo compongono.

La prima cosa che viene eseguita nello script è il download dei file delle liste. Queste sono 18 ed è comodo scaricarle con un ciclo for ... loop che lo fa 18 volte per noi.

for i in {1..18};
  do curl -s http://comunali2017.comune.palermo.it/SEZ_3_82053_L$i.xml > $i.xml;
done

 

Poi da ognuno dei 18 file XML vengono estratti i dati anagrafici e i dati per sezione, sempre con un ciclo for.
A ogni file viene aggiunta anche un’intestazione di colonne.

# scarico l’anagrafica di ogni candidato di ogni lista
for i in {1..18}; do xmlstarlet sel -t -m //C0/C1 -v @NUMERO -o , -v @NOME -o , -v ../@NUMERO -o , -v ../@NOME -n $i.xml > anagraficaLista_$i.txt; sed -i 1s/^/numeroCandidato,nomeCandidato,numeroLista,nomeLista\n/ anagraficaLista_$i.txt & done
 
# scarico i voti di ogni candidato di ogni lista per ogni sezione
for i in {1..18}; do xmlstarlet sel -t -m //SV/V0/V1 -v @NUMERO -o , -v @VOTIVALIDI_C1 -o ,  -v ../@NUMERO -o , -v ../../@NUMERO -n $i.xml > listaSezioni_$i.txt ; sed  -i 1s/^/numeroCandidato,voti,numeroLista,sezione\n/ listaSezioni_$i.txt & done

 

I file di anagrafica hanno questa struttura:

numeroCandidato nomeCandidato numeroLista nomeLista
1 GELARDA IGOR DETTO GERARDA DETTO GERALDA 12 MOVIMENTO 5 STELLE
2 ARGIROFFI GIULIA 12 MOVIMENTO 5 STELLE
3 CAPARROTTA GIANCARLO DETTO CAPAROTTA 12 MOVIMENTO 5 STELLE

Mentre quelli con i dati per sezione:

numeroCandidato voti numeroLista sezione
1 5 12 1
2 9 12 1
3 2 12 1

Poi viene fatto il join tra anagrafica e dati per sezione:

for i in {1..18}; do csvsql –query select * from  listaSezioni_$i LEFT JOIN anagraficaLista_$i ON listaSezioni_$i.numeroCandidato=anagraficaLista_$i.numeroCandidato listaSezioni_$i.txt anagraficaLista_$i.txt > lista_$i.csv; done

Per ogni lista viene prodotto un file con nome lista_NumeroLista.csv, con questa struttura (ci sono delle colonne duplicate, che potrei rimuovere in fase di join):

numeroCandidato voti numeroLista sezione numeroCandidato nomeCandidato numeroLista nomeLista
1 5 12 1 1 GELARDA IGOR DETTO GERARDA DETTO GERALDA 12 MOVIMENTO 5 STELLE
2 9 12 1 2 ARGIROFFI GIULIA 12 MOVIMENTO 5 STELLE
3 2 12 1 3 CAPARROTTA GIANCARLO DETTO CAPAROTTA 12 MOVIMENTO 5 STELLE

E infine viene creato anche un unico file CSV di insieme (scaricabile da qui), con i dati per tutti i consiglieri di tutte le liste, per ogni sezione (senza le colonne duplicate). Sono 638 candidati per 600 sezioni per un totale di 382800 record.

csvstack *.csv | csvcut -c 1,2,3,4,6,8 > liste.csv

Quindi avrò in output 1 file CSV con i dati per ogni lista e quello soprastante, per totale di 19 file CSV (encoding UTF-8 e come separatore la ,).

Lo script di poche righe (al netto dei commenti) è quello di sotto, tutto realizzato con oggetti free e open-source.

#!/bin/bash
 
# Requisiti #
# – avere un sistema in cui è possibile eseguire uno script bash;
# – l’utility XMLStarlet http://xmlstar.sourceforge.net/download.php
# – l’utility csvkit http://csvkit.readthedocs.io/
 
# attivo la modalità di debug
set -x
 
# cancello file csv e xml pre esistenti nella cartella in cui lancio lo script
rm -R *.csv
 
# scarico tutti i dati delle 18 liste
for i in {1..18}; do curl -s http://comunali2017.comune.palermo.it/SEZ_3_82053_L$i.xml > $i.xml;done
 
# scarico l’anagrafica di ogni candidato di ogni lista
for i in {1..18}; do xmlstarlet sel -t -m //C0/C1 -v @NUMERO -o , -v @NOME -o , -v ../@NUMERO -o , -v ../@NOME -n $i.xml > anagraficaLista_$i.txt; sed -i 1s/^/numeroCandidato,nomeCandidato,numeroLista,nomeLista\n/ anagraficaLista_$i.txt & done
 
# scarico i voti di ogni candidato di ogni lista per ogni sezione
for i in {1..18}; do xmlstarlet sel -t -m //SV/V0/V1 -v @NUMERO -o , -v @VOTIVALIDI_C1 -o ,  -v ../@NUMERO -o , -v ../../@NUMERO -n $i.xml > listaSezioni_$i.txt ; sed  -i 1s/^/numeroCandidato,voti,numeroLista,sezione\n/ listaSezioni_$i.txt & done
 
# faccio il join tra i dati per sezione e l’anagrafica dei candidati
# l’output è un file di dettaglio in formato CSV per ogni lista
for i in {1..18}; do csvsql –query select * from  listaSezioni_$i LEFT JOIN anagraficaLista_$i ON listaSezioni_$i.numeroCandidato=anagraficaLista_$i.numeroCandidato listaSezioni_$i.txt anagraficaLista_$i.txt > lista_$i.csv; done
 
# faccio il merge di tutti i CSV e produco un unico file
# con tutti i voti per candidato per sezione di ogni lista
csvstack *.csv | csvcut -c 1,2,3,4,6,8 > liste.csv
 
# cancello file che non mi sono più utili
rm -R *.txt
rm -R *.xml

Libro consigliato

Per entrare nel mondo divertentissimo ed efficiente della “riga di comando” mi sento di consigliare il bel “Data Science at the Command Line” . È un libro per tutti, di facile lettura e pieno di esempi utili.