CasaNotizieIl vero collo di bottiglia dell’intelligenza artificiale non è la potenza di calcolo, ma lo spostamento dei dati: l’in-memory computing diventa la soluzione

Il vero collo di bottiglia dell’intelligenza artificiale non è la potenza di calcolo, ma lo spostamento dei dati: l’in-memory computing diventa la soluzione

Il vero collo di bottiglia dell’intelligenza artificiale non è la potenza di calcolo, ma lo spostamento dei dati: l’in-memory computing diventa la soluzione


Negli ultimi due anni, quasi tutte le discussioni sull’intelligenza artificiale si sono concentrate sulla potenza di calcolo: GPU insufficienti, capacità di calcolo insufficiente e cluster sottodimensionati.Sembra che accumulare più potenza di calcolo risolverà ogni problema.

Ma questo rapporto sottolinea ancora una volta un punto cruciale: Ciò che rallenta realmente l’intelligenza artificiale non è mai l’incapacità di calcolare, ma l’incapacità di spostare i dati in modo efficiente.

Una statistica rende il problema chiarissimo: La lettura dei dati dalla DRAM consuma centinaia di volte più energia rispetto alla SRAM.Nel frattempo, il divario prestazionale tra processori e memoria si allarga di quasi il 50% ogni anno.

Gran parte della potenza di calcolo che stiamo freneticamente costruendo è semplicemente in attesa di dati. In quel momento mi resi conto di una cosa sorprendente: Forse abbiamo sempre considerato il collo di bottiglia sbagliato per l’intelligenza artificiale.

Se il problema non è il calcolo in sé, ma la separazione tra calcolo e memoria, quindi la vera risposta potrebbe non essere GPU più potenti. È lasciare la memoria stessa partecipa al calcolo. Questa è la vera storia che questo rapporto si propone di raccontare.

Messaggio centrale del Rapporto

Il vero collo di bottiglia della potenza di calcolo dell’intelligenza artificiale si sta spostando dal calcolo alla memoria e la soluzione è spostare il calcolo nella memoria.

Il vero problema: l’efficienza dell’intelligenza artificiale è limitata dallo spostamento dei dati

Il calcolo dell’intelligenza artificiale si basa fortemente su massicce operazioni MAC (moltiplicazione-accumulo) ed è estremamente ad alta intensità di dati. Tuttavia, la classica architettura di von Neumann ha un difetto fatale:

  • Il divario prestazionale tra processori e DRAM continua ad ampliarsi (circa il 50% all'anno)
  • Il costo energetico di accesso alla memoria è molto più elevato del calcolo stesso (energia di lettura della DRAM ≈ 100× quella della SRAM)

Conclusione: L’intelligenza artificiale non fallisce nell’elaborazione: non riesce a spostare i dati in modo conveniente e sufficientemente rapido.

Contraddizione fondamentale: il collo di bottiglia di von Neumann

La separazione tra elaborazione e memoria impone un costante scambio di dati, causando due problemi critici:

  • Elevata latenza
  • Consumo energetico esplosivo

Questo è esattamente ciò che il rapporto definisce Collo di bottiglia di von Neumann.

Tendenza chiave: la memoria diventa il nuovo centro di calcolo

Sta emergendo una chiara tendenza del settore: I chip si stanno evolvendo in due modi:

  • La memoria su chip (SRAM) continua ad espandersi
  • La larghezza di banda della memoria continua ad aumentare

Nel frattempo è emersa una direzione rivoluzionaria: Elaborazione in memoria (IMC).

La sua idea centrale: Esegui operazioni logiche, calcoli aritmetici e moltiplicazioni di matrici (il cuore dell'intelligenza artificiale) direttamente all'interno della memoria.

Cambiamento fondamentale: Memoria = Archiviazione → Memoria = Compute Engine

Percorsi tecnici: dalla SRAM alle memorie emergenti

Il rapporto delinea molteplici percorsi di implementazione:

1. SRAM/eDRAM (percorso tradizionale)
Compute-in-Cache, cache neurale
Pro: maturo, alta velocità
Limiti: area ampia, scalabilità limitata

2. Memoria emergente (direzione mainstream)
Compreso: MRAM, PCM, ReRAM, FeRAM

Obiettivo comune: trasformare gli array di memoria in motori di moltiplicazione-accumulo di matrici con calcolo sul posto e calcolo analogico (ad esempio, somma della corrente per la moltiplicazione vettoriale).

Essenza: array di memoria = acceleratore AI

Ma le vere sfide rimangono: precisione e rumore, variazione del dispositivo, deriva del peso (specialmente in ReRAM) e problemi di ritenzione. Il percorso è praticabile ma estremamente impegnativo dal punto di vista ingegneristico.

Soluzione di sistema: co-ottimizzazione hardware-algoritmo

Il rapporto sottolinea che l’hardware da solo non è sufficiente: anche gli algoritmi devono evolversi.

  • Compressione del modello: potatura, sparsità, decomposizione di basso rango
  • Calcolo a bassa precisione: reti neurali binarie a virgola fissa
  • Formazione basata sull'hardware: STE, sparsità bit-slice

Conclusione chiave: L’ottimizzazione dell’efficienza dell’intelligenza artificiale richiede la progettazione congiunta di architettura, dispositivi e algoritmi.

Conclusione finale

  1. La memoria su chip è diventata la risorsa principale dei sistemi di intelligenza artificiale
  2. Le memorie emergenti stanno facendo dell’integrazione memoria-computer la direzione principale
  3. I chip AI di prossima generazione richiedono una co-progettazione multilivello dai dispositivi agli algoritmi

Sommario

Il collo di bottiglia dell’intelligenza artificiale si sta spostando da “potenza di calcolo insufficiente” a “incapacità di spostare i dati abbastanza velocemente”. La risposta per i chip di prossima generazione non sono GPU più potenti, ma memoria che può calcolare da sola.