IBM, un metodo per analizzare grandi quantità  di dati a velocità  record

di |
logomacitynet696wide

Messo a punto un metodo per analizzare grandi quantità di dati a velocità record. Nove terabyte di dati validati in meno di 20 minuti. La tecnologia sviluppata da IBM.

Alla conferenza della Society for Industrial and Applied Mathematics, i ricercatori IBM presenteranno un nuovo metodo, basato su un algoritmo matematico che – affermano – è in grado di ridurre di due ordini di grandezza la complessità  computazionale, i costi e il consumo energetico necessari per analizzare enormi quantità  di dati. Il nuovo metodo assicura che i dati producano modelli più accurati e prevedibili.

In un esperimento da record, i ricercatori hanno utilizzato un supercomputer Blue Gene/P presso il Forschungszentrum Jà¼lich, di Jà¼lich, Germania * per validare nove terabyte di dati in meno di 20 minuti, senza implicazioni sul fronte della accuratezza dell’analisi. Estrapolato, ciò equivarrebbe ad analizzare l’intero catalogo online della Biblioteca del Congresso statunitense in meno di quattro ore. Di norma, utilizzando lo stesso sistema, ciò avrebbe richiesto più di una giornata. Inoltre, il processo ha portato a un consumo di energia molto ridotto rispetto a quello tradizionalmente necessario.

Uno dei fattori critici nella Business Analytics è la qualità  e il livello di affidabilità  dei dati che vengono utilizzati e anche generati dal modello. In aree che vanno dall’economia alla finanza e gestione del portafoglio, modellazione climatica, geologia e fino all’astrofisica, il nuovo metodo potrebbe aprire la strada alla creazione di modelli più potenti, complessi e accurati.

“In un mondo che contiene in media un miliardo di transistor per ogni essere umano, e il numero cresce di giorno in giorno, i dati stanno esplodendo a un ritmo senza precedenti”, spiega Alessandro Curioni, manager del team Computational Sciences alcentro di Ricerca di Zurigo. “Analizzare questi vasti volumi di dati che si accumulano continuamente è una sfida computazionale enorme in numerose applicazioni della scienza, dell’ingegneria e del business. Questo risultato apre nuove prospettive per analizzare la qualità  di grandi volumi di dati rapidamente”.

“Nei prossimi anni, il supercomputing ci fornirà  elementi di conoscenza esclusivi e aiuterà  a creare valore aggiunto con nuove tecnologie”, spiega il Prof. Dr. Thomas Lippert, Director del Jà¼lich Supercomputing Center. “Un passo fondamentale sarà  rappresentato da strumenti e algoritmi innovativi, che ci aiuteranno ad analizzare l’enorme quantità  di dati forniti dalle simulazioni sui computer più potenti”.

Con la comparsa di nuovi sistemi più intelligenti, come reti intelligenti e sistemi di monitoraggio del traffico, che si collegano a sensori, attuatori, tag RFID, dispositivi di tracciamento GPS, la quantità  di dati digitali aumenta a velocità  vertiginosa. Questi computer in miniatura misurano qualsiasi cosa, dal livello di inquinamento delle acque degli oceani ai modelli di traffico, alla supply chain alimentare. Le informazioni prodotte da questi dispositivi devono essere analizzate rapidamente per aiutare le persone a prendere decisioni.

A complicare le cose, la velocità  a cui vengono archiviati i dati supera largamente la capacità  di calcolo delle tecniche di analitica computazionale standard.

“Determinare il livello di tipicità  o rilevanza statistica dei dati aiuta a misurare la qualità  dell’analisi complessiva e a rivelare i difetti nel modello o le relazioni nascoste nei dati”, spiega il Dr. Costas Bekas di IBM Research * Zurigo. “Un’analisi efficiente di enormi insiemi di dati richiede lo sviluppo di una nuova generazione di tecniche matematiche, che puntano a ridurre la complessità  computazionale e a consentirne un’utilizzo efficiente sulle attuali risorse massivamente parallele”.

La quantità  di calcoli necessaria per misurare la qualità  di enormi insiemi di dati con le tecniche attuali richiede capacità  di calcolo di exaflop (un miliardo di miliardo di calcoli), ben oltre le capacità  dei computer attuali.
[A cura di Mauro Notarianni]