Negli ultimi due anni, quasi tutte le discussioni sull’intelligenza artificiale si sono concentrate sulla potenza di calcolo: GPU insufficienti, capacità di calcolo insufficiente e cluster sottodimensionati.Sembra che accumulare più potenza di calcolo risolverà ogni problema.
Ma questo rapporto sottolinea ancora una volta un punto cruciale: Ciò che rallenta realmente l’intelligenza artificiale non è mai l’incapacità di calcolare, ma l’incapacità di spostare i dati in modo efficiente.
Una statistica rende il problema chiarissimo: La lettura dei dati dalla DRAM consuma centinaia di volte più energia rispetto alla SRAM.Nel frattempo, il divario prestazionale tra processori e memoria si allarga di quasi il 50% ogni anno.
Gran parte della potenza di calcolo che stiamo freneticamente costruendo è semplicemente in attesa di dati. In quel momento mi resi conto di una cosa sorprendente: Forse abbiamo sempre considerato il collo di bottiglia sbagliato per l’intelligenza artificiale.
Se il problema non è il calcolo in sé, ma la separazione tra calcolo e memoria, quindi la vera risposta potrebbe non essere GPU più potenti. È lasciare la memoria stessa partecipa al calcolo. Questa è la vera storia che questo rapporto si propone di raccontare.
Il vero collo di bottiglia della potenza di calcolo dell’intelligenza artificiale si sta spostando dal calcolo alla memoria e la soluzione è spostare il calcolo nella memoria.
Il calcolo dell’intelligenza artificiale si basa fortemente su massicce operazioni MAC (moltiplicazione-accumulo) ed è estremamente ad alta intensità di dati. Tuttavia, la classica architettura di von Neumann ha un difetto fatale:
Conclusione: L’intelligenza artificiale non fallisce nell’elaborazione: non riesce a spostare i dati in modo conveniente e sufficientemente rapido.
La separazione tra elaborazione e memoria impone un costante scambio di dati, causando due problemi critici:
Questo è esattamente ciò che il rapporto definisce Collo di bottiglia di von Neumann.
Sta emergendo una chiara tendenza del settore: I chip si stanno evolvendo in due modi:
Nel frattempo è emersa una direzione rivoluzionaria: Elaborazione in memoria (IMC).
La sua idea centrale: Esegui operazioni logiche, calcoli aritmetici e moltiplicazioni di matrici (il cuore dell'intelligenza artificiale) direttamente all'interno della memoria.
Cambiamento fondamentale: Memoria = Archiviazione → Memoria = Compute Engine
Il rapporto delinea molteplici percorsi di implementazione:
1. SRAM/eDRAM (percorso tradizionale)
Compute-in-Cache, cache neurale
Pro: maturo, alta velocità
Limiti: area ampia, scalabilità limitata
2. Memoria emergente (direzione mainstream)
Compreso:
MRAM, PCM, ReRAM, FeRAM
Obiettivo comune: trasformare gli array di memoria in motori di moltiplicazione-accumulo di matrici con calcolo sul posto e calcolo analogico (ad esempio, somma della corrente per la moltiplicazione vettoriale).
Essenza: array di memoria = acceleratore AI
Ma le vere sfide rimangono: precisione e rumore, variazione del dispositivo, deriva del peso (specialmente in ReRAM) e problemi di ritenzione. Il percorso è praticabile ma estremamente impegnativo dal punto di vista ingegneristico.
Il rapporto sottolinea che l’hardware da solo non è sufficiente: anche gli algoritmi devono evolversi.
Conclusione chiave: L’ottimizzazione dell’efficienza dell’intelligenza artificiale richiede la progettazione congiunta di architettura, dispositivi e algoritmi.
Il collo di bottiglia dell’intelligenza artificiale si sta spostando da “potenza di calcolo insufficiente” a “incapacità di spostare i dati abbastanza velocemente”. La risposta per i chip di prossima generazione non sono GPU più potenti, ma memoria che può calcolare da sola.