Open Big Data: retroscena sugli Open Data della Big Data Challenge - Pionero
Per la tua pubblicità su questo sito:


Open Big Data: retroscena sugli Open Data della Big Data Challenge

Scritto da:     Tags:  , , , , , ,     Data di inserimento:  15 gennaio, 2015  |  Nessun commento
15 gennaio, 2015
open_data

Visite: 4647

Non è la prima volta che il tema dei Big Data è oggetto di approfondimenti in questa testata, e la stessa cosa vale per il tema degli Open Data. Capire poi quando e se questi due argomenti si tocchino, è oggetto di discussioni ed incompresioni anche in giro per la Rete.

Ora però, è tempo di sfatare un mito: questi due insiemi si parlano davvero, e non solo potenzialmente.
Ora ci sono alcuni datasets “Big Data” rilasciati come Open Data, e riutilizzabili per qualsiasi scopo, liberamente. Sono diventati qualcosa che abbiamo chiamato “Open Big Data”.

Venn in JPEG

Infatti lo scorso dicembre sono stati pubblicati come Open Data la maggior parte dei dati usati all’interno del contest “Big Data Challenge”, il contest promosso da Telecom Italia e da una rete di partners variegata, agli inizi del 2014.

image-alt

 

Vi racconto qualche aneddoto di questa operazione sia come attivista del mondo Open Data, che come insider, visto che questa operazione è il frutto di una collaborazione tra tre attori diversi:

  1. il nodo dell’Open Data Institute UK di Trento, ospitato presso la Fondazione Bruno Kessler;

  2. Telecom Italia, attraverso SKIL Semantics & Knowledge Innovation Lab;

  3. SpazioDati: partner tecnologico del challenge e fornitore della piattaforma di pubblicazione dei dati.

 

E’ un’interessante sinergia che testimonia l’importanza di avere una filiera sana tra mondo della ricerca e mondo dell’impresa: un aspetto assolutamente non scontato. Non mi soffermo sui dati pubblicati, visto che ne avevo già parlato a suo tempo all’interno nel blog aziendale, ma sul lavoro fatto per renderli utilizzabili da parte dei partecipanti al challenge. Ed ora a tutte le persone interessate a giocarci un po’ con questi dati.
Un lavoro che rientra in quel processo definito “data curation”.

A partire dai dati forniti dai diversi data providers in formato raw, sono state fatte alcune operazioni, tra cui:

  • c’è stato un lavoro iniziale di data cleaning, di normalizzazione del dato, sfruttando l’infrastruttura tecnologica di “data curation” interna a SpazioDati (visibile nella slide 10);

  • su alcune tipologie di dati è stato fatto un lavoro di modellazione e di trasformazione, per renderli disponibili non solo attraverso un accesso bulk, ma anche un accesso via API; questo agevola l’interrogazione e la selezione dei dati che davvero interessano. E sapendo che si tratta spesso di gigabytes e gigabytes di materiale, non doverli scaricare tutti, è un risparmio di tempo e di risorse importante;

  • per alcuni dei dati è stata facilitata l’operazione di linking naturale tra i dati stessi. Per esempio, i dati sulle news geolocalizzate sono stati collegati ad un dataset interrogabile via API contenente i confini amministrativi di tutta Europa. E qualunque dataset che abbia un dato riconducibile ad un confine amministrativo è stato collegato opportunamente. In questo modo ci si può concentrare sulla logica applicativa e sullo scenario di riuso, piuttosto che sulla preparazione del materiale e dei dati da usare.

 

Questo flusso operativo aiuta a raccontare in maniera pragmatica quella ”qualità del dato” che Vincenzo Patruno sottolineava diverso tempo fa: specie quando si rilanciava l’idea di Open API o Open Service:

[...] perché dati accurati, dettagliati e ottenibili in tempo reale attraverso API sono dati ad alta potenzialità e che si prestano molto bene ad essere utilizzati in modo “interattivo” all’interno di applicazioni web o apps per dispositivi mobili. Consentire l’uso interattivo dei dati ne amplifica pertanto le potenzialità, rendendoli appetibili per immaginare le più svariate applicazioni e servizi. Per chi produce i dati, questo si traduce nel rendere pubblici gli Open Data non più (o non solo) attraverso file scaricabili (Excel, csv, …) ma attraverso quelli che possiamo chiamare “Open Services” o “Open API”. Questi sono API (o anche servizi Web) che è possibile richiamare all’interno di applicazioni e che consegnano i dati richiesti direttamente ai programmi che li utilizzano. Significa in altre parole dare la possibilità di “agganciare” le applicazione ai dati, senza intermediari, direttamente dove questi vengono prodotti. Erogare pertanto Open Data accurati e dettagliati attraverso Open Services, corredandoli di tutti quei metadati necessari a consentirne un corretto utilizzo, vuol dire offrire dati ad alta potenzialità, e questo indipendentemente dalla tipologia di dati a cui si sta facendo riferimento.

Proprio per questo abbiamo deciso (come SpazioDati) di rilasciare come Open Service il dataset sperimentale sui confini amministrativi. Sarà sicuramente utile per stimolare la discussione collettiva e magari influenzare anche la filiera di creazione e fruizione del dato stesso.

Perchè, qualunque sia la fonte del dato, è sempre il contesto informativo che ne determina il valore. Questo valore è costruito sulla predisposizione del dato a connettersi con fonti correlate, e quindi a dimostrarsi più utile ed utilizzabile. Anche in ottica di Linked Open Data, la legge di Metcalfe ha infatti una sua validità.

Lascia un commento


Ti potrebbe interessare anche: