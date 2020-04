Prima di parlare dell’ app di tracciamento per Coronavirus ricordiamo la lezione di un luminare dell’informatica del nostro Paese. Oggi ricorrono i quattro anni dalla scomparsa di Gianni degli Antoni, uno dei “fondatori” dell’informatica italiana e soprattutto della facoltà all’università di Milano. Personaggio geniale dal temperamento complesso, laureato in Fisica, anima del terzo focolaio della computer science italiana (gli altri due furono la Normale di Pisa e il Politecnico sempre di Milano), era conosciuto da tutti come gda. E chi, come il cronista, ha avuto la possibilità di conoscerlo e lavorare con lui non può che confermare. E ricordare.

Una delle cose infatti che gda diceva spesso era: «Troppi dati producono l’effetto “troppa grazia sant’Antonio”». Vale a dire: quando si inseriscono dei dati in un sistema per elaborarli, aumentare la quantità non è necessariamente un bene. Questo è controintuitivo sia dal punto di vista teorico che pratico. In teoria, si pensa che quanti più dati ci sono e quanto meglio è ai fini dell’elaborazione: sia esso un algoritmo che gestisce il campionamento di un suono che un sistema per il monitoraggio degli spostamenti delle persone ai fini della prevenzione della diffusione del coronavirus.

In pratica, si vedono i big come Amazon, Facebook, Google e Microsoft che fanno incetta di dati e si sa che, anche se ancora non sanno come usarli tutti quanti, poi uno scopo lo troveranno. Entrambi i ragionamenti sono sbagliati, soprattutto se pensiamo alla fantomatica app per il coronavirus, e qui vediamo perché.

Dati, informazione, conoscenza

Intanto, una piccola distinzione utile: parliamo di “dati”, “informazioni” e “conoscenza” in maniera quasi intercambiabile, ma si tratta di tre concetti profondamente diversi anche se collegati. Un dato è un valore unico, decontestualizzato: un numero adimensionale o dimensionato. “33” (numero e basta, cioè adimensionale), oppure “1,5 Kg” (dimensionato per il peso). Una informazione è un dato contestualizzato: “Il vaso pesa 1,5 Kg”. La conoscenza è il collegamento tra una o più informazioni: collegamenti temporali, di causa ed effetto, geografici.

Mentre i dati e le informazioni si registrano ed elaborano a prescindere dal loro utilizzatore, la conoscenza richiede una interpretazione, cioè la capacità dell’operatore di dargli un senso. Questo operatore può essere umano oppure può, entro certi limiti, essere un sistema di intelligenza artificiale. Fine del chiarimento sul senso delle parole. Ora vediamo il problema.

Troppi dati fanno male

Suona come un paradosso, ma troppi dati non fanno bene, anzi. Troppa grazia, Sant’Antonio: troppi dati fanno male. Ma non è una spiegazione intuitiva: richiede una competenza su come avvengono le elaborazioni. Nella mole dei dati, l’informazione si perde. E di conseguenza non si riesce ad estrarre la conoscenza, quindi non si raggiunge il risultato voluto. Perché il momento più oneroso è quello della elaborazione, e l’analisi dei dati richiede tempo e potenza di calcolo, algoritmi adatti ed efficienza. Sommergere di dati comporta la diluizione delle informazioni, che possono anche praticamente scomparire. È un po’ come il famoso ago nel pagliaio, solo che siamo noi a decidere quanta paglia mettere assieme prima di cominciare la ricerca. Poca paglia e non ci sono aghi da trovare, ma troppa paglia e gli aghi si perdono.

Una obiezione a tutto questo può essere che così ragionando in realtà non si tiene da conto l’esistenza dei big data e dei meccanismi di raccolta e analisi dei dati contenuti ad esempio in data-lake o sistemi analoghi. Il punto è che si tratta di sistemi costruiti per lavorare su altri tipi di analisi e con altri obiettivi. Senza considerare che c’è un problema conosciuto dagli addetti ai lavori da cinquant’anni. È il problema descritto da Richard Bellman nel 1961: creare un modello statistico da una massa di dati richiede una analisi dei dati che, se si supera una certa soglia, creano uno sforzo enorme per ottenere il modello senza aggiungerci assolutamente niente. Per questo i dati vengono ridotti con la tecnica statistica della riduzione dimensionale. Fare di più vorrebbe dire esplodere in termini di tempi di calcolo, di quantità di memorizzazione e di esposizione della privacy senza aggiungere niente al risultato finale.

Ma i social?

I social e in generale i big del tech, però, come Amazon, Facebook, Google e Microsoft, archiviano tutto per le loro profilazioni. Perché? Da un lato perché sono profilazioni ad ampio spettro, e poi perché tendenzialmente i big hanno più capacità di archiviazione: analizzano e trattano i dati a livelli diversi e ne tengono la parte rilevante, gettando via tutto il resto. In modo assolutamente non orientato alla completezza scientifica, ma mirato al pragmatismo commerciale. Hanno altre finalità e per loro i dati possono essere anche sovradimensionati, ma archiviati per potenziali usi futuri non sempre piacevoli almeno dal punto di vista della privacy.

Arriviamo all’ app di tracciamento per Coronavirus

L’app che traccia gli spostamenti delle persone per riuscire a capire in caso di coronavirus chi può essere stato a rischio, è una app che serve ad accumulare dati da trattare come informazioni per giungere poi, tramite il lavoro degli operatori, a una forma di conoscenza utile per contenere i focolai di coronavirus. Tutto questo nel rispetto della privacy.

L’idea che la privacy sia in contrapposizione al bisogno di tracciare le persone per prevenire il contagio, cioè che libertà da un lato e sicurezza dall’altro sia in contrapposizione è un falso problema. Anzi, uno pericoloso, perché semplifica in maniera scorretta. La contrapposizione non è tra libertà e sicurezza, ma richiede una modalità anche tecnicamente contenuta e attentamente progettata per evitare che ci sia l’effetto “Troppa grazia, Sant’Antonio”. E il criterio di proporzionalità e di limitazione dei dati raccolti non è solo un bisogno della privacy (cosa che creerebbe potenzialmente un conflitto con l’efficacia delle app) ma anche un requisito tecnico. Troppi dati sarebbero solo inutili ai fini della computazione e creerebbero problemi senza aggiungere qualità alla conoscenza raccolta.

In conclusione

Viviamo nell’era della sorveglianza potenziale, ma ce la siamo cercata noi. Nel senso che non è necessaria. E che la spinta ad avere strumenti sempre più pervasivi e che tracciano tutti i possibili comportamenti non deriva da esigenze tecniche sugli scopi dichiarate contrappose a un malinteso senso del privato, quanto dall’uso ulteriore per motivi non dichiarati. Un buon esempio in questo senso è Apple che, senza fare tanta confusione, utilizza i dati strettamente necessari e in maniera modulabile per ottenere risultati comparabili a quelli dei “bucanieri dell’informazione”, i quattro di cui sopra.

La app di tracciamento Coronavirus che viene progettata da molteplici entità nell’attesa di arrivare a una sintesi ha sicuramente delle notevoli sfide tecniche (mettere assieme un criterio per raccogliere i dati in modo contestualizzato, cioè le informazioni). Ma pone anche un problema di politica della progettazione. In una Italia (ed Europa) in lockdown e poi potenzialmente liberata “a fasi”, si tratta di uno strumento cruciale. Usare la mano pesante per crearne uno estremamente sensibile e capace di raccogliere montagne di dati andrebbe nella direzione opposta a quella voluta da chi lo ha chiesto e dai cittadini che lo useranno.

Si tratterebbe di creare un app di tracciamento di coronavirus, ma più in generale uno strumento di controllo sociale che non risponderebbe né a requisiti normativi né a esigenze tecniche ma in realtà darebbe libertà ad altri scopi con la scusa del momento dell’emergenza e del bisogno di sicurezza per tutti come causa per limitare la libertà di ciascuno. Una scelta ingiustificabile sia dal punto di vista etico che tecnico. E con una aggravante: la crassa e devastante ignoranza della cultura informatica da parte della politica e di larghissime fette della cittadinanza crea il cono di ombra all’interno del quale uno strato di tecnocrati e imprenditori spregiudicati possono trovare spazio e nutrirsi in abbondanza di quelli che per loro sono diventati, sostanzialmente, pranzi gratuiti.

Invece, servono dati ma relativamente pochi e soprattutto quelli giusti. Il resto è solo un abuso e una violazione di legge oltre che di principi.

