Google afferma che il suo TPU v4 supera Nvidia A100 - Shenzhen Coastwise Solutions Inc.

Di Jaime Hampton

6 aprile 2023

Un nuovo articolo scientifico di Google descrive in dettaglio le prestazioni della sua piattaforma di supercalcolo Cloud TPU v4, sostenendo che fornisce prestazioni exascale per l'apprendimento automatico con maggiore efficienza.

Gli autori del documento di ricerca affermano che il TPU v4 è 1,2x-1,7x più veloce e consuma 1,3x-1,9x meno energia rispetto alla Nvidia A100 in sistemi di dimensioni simili. Il documento rileva che Google non ha confrontato TPU v4 con le più recenti GPU Nvidia H100 a causa della loro disponibilità limitata e dell'architettura a 4 nm (rispetto all'architettura a 7 nm di TPU v4).

Man mano che i modelli di machine learning sono diventati più grandi e complessi, sono aumentate anche le loro esigenze in termini di risorse di elaborazione. Le Tensor Processing Unit (TPU) di Google sono acceleratori hardware specializzati utilizzati per costruire modelli di machine learning, in particolare reti neurali profonde. Sono ottimizzati per le operazioni tensoriali e possono aumentare significativamente l'efficienza nell'addestramento e nell'inferenza di modelli ML su larga scala. Google afferma che le prestazioni, la scalabilità e la disponibilità rendono i supercomputer TPU i cavalli di battaglia dei suoi grandi modelli linguistici come LaMDA, MUM e PaLM.

Il supercomputer TPU v4 contiene 4.096 chip interconnessi tramite interruttori di circuito ottico proprietari (OCS), che secondo Google sono più veloci, più economici e utilizzano meno energia rispetto a InfiniBand, un'altra popolare tecnologia di interconnessione. Google afferma che la sua tecnologia OCS rappresenta meno del 5% del costo e della potenza del sistema TPU v4, affermando che riconfigura dinamicamente la topologia di interconnessione del supercomputer per migliorare scalabilità, disponibilità, utilizzo, modularità, implementazione, sicurezza, potenza e prestazioni.

Gli ingegneri di Google e autori di articoli Norm Jouppi e David Patterson hanno spiegato in un post sul blog che, grazie alle principali innovazioni nelle tecnologie di interconnessione e negli acceleratori specifici del dominio (DSA), Google Cloud TPU v4 ha consentito un salto di quasi 10 volte nello scalare le prestazioni del sistema ML rispetto a TPU v3. Ha inoltre aumentato l'efficienza energetica di circa 2-3 volte rispetto ai DSA ML contemporanei e ridotto le emissioni di CO2 di circa 20 volte rispetto ai DSA in quelli che l'azienda definisce tipici data center on-prem.

Il sistema TPU v4 è operativo presso Google dal 2020. Il chip TPU v4 è stato presentato alla conferenza degli sviluppatori I/O del 2021 dell'azienda. Google afferma che i supercomputer vengono utilizzati attivamente dai principali team di intelligenza artificiale per la ricerca e la produzione di ML attraverso modelli linguistici, sistemi di raccomandazione e altre IA generative.

Per quanto riguarda i sistemi di raccomandazione, Google afferma che i suoi supercomputer TPU sono anche i primi a supportare hardware per gli incorporamenti, un componente chiave dei Deep Learning Recommendation Models (DLRM) utilizzati nella pubblicità, nel ranking di ricerca, su YouTube e Google Play. Questo perché ogni TPU v4 è dotato di SparseCores, ovvero processori di flusso di dati che accelerano i modelli che si basano su incorporamenti di 5x-7x ma utilizzano solo il 5% dell'area e della potenza del die.

Midjourney, una startup basata sull'intelligenza artificiale da testo a immagine, ha recentemente selezionato TPU v4 per addestrare la quarta versione del suo modello di generazione di immagini: "Siamo orgogliosi di lavorare con Google Cloud per offrire un'esperienza senza soluzione di continuità alla nostra comunità creativa, alimentata dalla tecnologia globale di Google." infrastruttura scalabile", ha affermato David Holz, fondatore e CEO di Midjourney in un post sul blog di Google. "Dall'addestramento della quarta versione del nostro algoritmo sugli ultimi TPU v4 con JAX, all'esecuzione dell'inferenza sulle GPU, siamo rimasti colpiti dalla velocità con cui TPU v4 consente ai nostri utenti di dare vita alle loro idee vivaci."

I supercomputer TPU v4 sono disponibili per i ricercatori e gli sviluppatori di intelligenza artificiale presso il cluster ML di Google Cloud in Oklahoma, aperto lo scorso anno. Con nove exaflop di prestazioni aggregate di picco, Google ritiene che il cluster sia il più grande hub ML disponibile al pubblico che opera con il 90% di energia priva di emissioni di carbonio. Dai un'occhiata al documento di ricerca TPU v4 qui.