Rappresentazione dell'hardware per l'intelligenza artificiale generativa all'edge

Quando si parla di intelligenza artificiale generativa all’edge, l’attenzione si concentra sugli algoritmi, ma tutto inizia dall’hardware. È il punto di vista di Danilo Pau, ingegnere elettronico, direttore tecnico e IEEE Fellow di STMicroelectronics, che in questa intervista per la Società Italiana di Elettronica spiega come l’innovazione dell’AI inizi proprio con l’innovazione dei sistemi hardware.

“Avendo vissuto in prima persona la transizione dall’analogico al digitale del video, ho imparato che senza adeguato hardware gli algoritmi non sono computabili. Valeva allora e vale ancora oggi con l’AI all’edge. Una volta compreso il meccanismo di elaborazione delle reti neurali, diventa evidente che senza un’adeguata accelerazione hardware non si ottengono le prestazioni necessarie. In questo l’elettronica è fondamentale perché offre la possibilità di capire ciò che si sta progettando e di trasformare le idee in tecnologia concreta”.

Per aiutarci a comprendere meglio cosa sia l’AI generativa all’edge, Danilo Pau ha ripercorso le principali tappe dell’evoluzione tecnologica che ne ha reso possibile la nascita.

“Immaginiamo di avere una funzione di trasferimento che non può essere descritta analiticamente perché non disponiamo di una formulazione matematica del fenomeno, ma solo dei dati che ne rappresentano il comportamento ingresso-uscita. Come possiamo allora approssimare questa funzione incognita? È qui che entrano in gioco le reti neurali, quei modelli capaci di apprendere le relazioni presenti nei dati e di costruire un approssimatore della funzione sottostante. Questo principio era già noto a partire dai primi anni ‘60 ma mancavano GPU potenti per eseguire il calcolo necessario all’addestramento delle reti neurali, software per addestrarle e tecniche di inizializzazione e ottimizzazione per garantire la convergenza dell’apprendimento e la minimizzazione dell’errore di approssimazione. La svolta arriva nel 2006, quando Geoffrey Hinton, uno dei padri del deep learning e premio Nobel per l’AI, dimostra come reti neurali basate sulle Restricted Boltzmann Machines siano in grado di apprendere distribuzioni di dati sempre più complesse arrivando a codificare e decodificare caratteristiche proprie dei volti umani. Questi risultati riaccendono l’interesse verso le reti neurali profonde e il punto di svolta definitivo arriva nel 2012 con l’ImageNet Large Scale Visual Recognition Challenge. Durante questa competizione, che prevedeva la classificazione di immagini appartenenti a oltre mille categorie, una rete neurale profonda addestrata utilizzando un paio di GPU ottiene risultati nettamente superiori rispetto agli approcci tradizionali. Per la prima volta si dimostra che la combinazione tra nuovi algoritmi e hardware può portare a prestazioni senza precedenti. Da quel momento le reti neurali si affermano come tecnologia dominante nel campo dell’AI. Nel 2017 la disponibilità di grandi quantità di dati, l’accesso a elevate capacità di calcolo e l’evoluzione degli algoritmi consentono all’industria cloud di adottare l’AI su larga scala. Nasce così l’AI percettiva, capace di estrarre significato dai dati grezzi e di associare informazioni astratte ai contenuti osservati. Ad esempio, un’immagine è composta da pixel, ma l’AI è in grado di riconoscere che quei pixel rappresentano una persona o un oggetto, aggiungendo quindi un livello di metainformazione astratta al dato grezzo originale. In questa fase gran parte dell’elaborazione viene concentrata nel cloud, ma appare subito chiaro che il cloud non può scalare per tutte le esigenze applicative di miliardi di utenti. Infatti, la latenza, i costi di trasmissione dei dati, i vincoli di privacy, l’affidabilità delle connessioni e la scalabilità rendono necessario distribuire l’esecuzione dell’AI più vicino alla fonte del dato. È da questa esigenza che nasce il concetto di Edge AI, cioè l’esecuzione di modelli di AI direttamente sui dispositivi embedded a bassissimo consumo energetico. Oggi che questa sfida è stata risolta dal punto di vista industriale, stiamo assistendo alla Generative AI all’edge, che consente di generare contenuti, prendere decisioni e interagire direttamente sul dispositivo senza dipendere dal cloud”.

In questo scenario, realtà industriali come STMicroelectronics hanno avuto un ruolo chiave contribuendo allo sviluppo di microcontrollori, sensori intelligenti e acceleratori hardware che oggi costituiscono una base tecnologica solida dell’edge AI distribuita.

“Nel 2018, in California, nasce la Tiny Machine Learning Foundation e STMicroelectronics ne fa parte fin da subito. Già dal 2016 iniziamo a sviluppare le prime implementazioni di algoritmi di AI su microcontrollori e direttamente a bordo dei sensori. Si trattava di una sfida complessa dato che in un package di un sensore di 2 o 3 millimetri di lato devono entrare due micromacchine, un accelerometro e un giroscopio, insieme a circuiti analogici e digitali. Da qui sono nati i primi strumenti di sviluppo e i primi tool dedicati a rendere accessibile l’AI su dispositivi ultra-compatti. Parallelamente, nel 2017 era stato dimostrato il chip denominato progetto Orlando, concepito per accelerare in tempo reale l’esecuzione di reti neurali convolutive come AlexNet consumando solo pochi milliwatt e dotato di un sofisticato compilatore neurale. Questo chip dimostrava come fosse possibile eseguire reti neurali avanzate con consumi ridotti. L’insieme di queste innovazioni ha dato origine a quella che oggi definiamo la proliferazione del Tiny Machine Learning: una nuova generazione di dispositivi dotati di acceleratori neurali, con livelli di prestazione scalabili a seconda delle destinazioni d’uso. Sembrava che la sfida di eseguire l’AI all’edge fosse stata risolta ma purtroppo il cloud non era più quello del 2017 perché grazie a innovazioni come le Generative Adversarial Networks e i Transformers di Google, i modelli neurali erano diventati molto più complessi. L’intero settore cloud è arrivato quindi a scontrarsi con quello che viene definito il memory wall e per sostenere l’addestramento e l’inferenza dei modelli linguistici più avanzati si è reso necessario costruire super-computer composti da milioni di GPU, sistemi capaci di raggiungere prestazioni dell’ordine di 1015operazioni al secondo ma con costi economici ed energetici enormi. Oggi solo poche grandi aziende cloud al mondo dispongono delle risorse e competenze necessarie per sviluppare e gestire infrastrutture di questa portata. Il risultato è stata la ri-centralizzazione dell’AI nel cloud. Quando utilizziamo ChatGPT, Claude o Gemini stiamo accedendo ai sistemi di inferenza di enormi super computer e di altri sottosistemi che si occupano dell’addestramento continuo dei modelli, con tutte le implicazioni che comporta in termini di costi, consumi energetici e concentrazione delle capacità tecnologiche. Questa situazione ha generato una profonda frattura nel mondo della ricerca. Chi può permettersi le risorse per addestrare questi modelli? Certamente non la maggior parte delle università o dei centri di ricerca indipendenti. Le stime indicano che entro il 2030 il fabbisogno energetico associato a quei super computer AI potrebbe raggiungere livelli tali da richiedere una capacità produttiva equivalente a decine di centrali elettriche di media potenza. Di fronte a questo scenario, è stato imperativo creare una svolta coraggiosa: TinyML Foundation evolve nel 2024 in Edge AI Foundation, dove il gruppo di lavoro dedicato all’AI generativa che ho il privilegio di coordinare, ha soddisfatto lo scopo di dimostrare l’AI generativa all’edge. Nel giro di un anno sono emerse una quindicina di aziende nel mondo capaci di progettare hardware specializzato per l’esecuzione locale di modelli generativi. Non dobbiamo replicare Gemini o altri modelli su un dispositivo edge, ma ripensare completamente l’AI generativa in funzione delle esigenze dell’utente finale, come il problema della privacy e l’interazione uomo-macchina. Gli utenti non vogliono che le proprie conversazioni, i propri dati o le proprie informazioni sensibili vengano trasferiti sui super computer. Per soddisfare questa esigenza bisogna sviluppare modelli generativi capaci di operare localmente, direttamente sul dispositivo. Uno degli sviluppi più promettenti è rappresentato dai Language-to-Action Models, sistemi che creano un collegamento diretto tra sensori, modelli linguistici e attuatori. L’esempio più immediato è quello della robotica. In questo contesto, l’attuazione significa controllare motori elettrici, bracci robotici o altri sistemi fisici sulla base dei dati raccolti dai sensori e interpretati da modelli generativi. Questi algoritmi sono in grado di adattarsi a diverse distribuzioni di dati, anche le più rumorose come i modelli diffusivi, prendere decisioni in tempo reale e tradurre il linguaggio e la percezione del mondo fisico in azioni concrete con complessità implementabili all’edge e con prestazioni adeguate”.

Secondo Danilo Pau, l’attenzione si sta spostando verso la necessità di rendere queste tecnologie sempre più vicine alle persone nelle applicazioni quotidiane.

“Trasferire grandi quantità di parametri verso le unità di calcolo non è sempre la scelta ottimale e viene naturale chiedersi: perché non fare l’opposto? Non è semplice per vari problemi implementativi, nondimeno è questa l’opportunità hardware e la direzione verso cui si sta andando. Un altro obiettivo è rendere questi sistemi realmente utili nella vita quotidiana delle persone. L’AI generativa non deve essere vista solo come uno strumento per creare immagini per i social o per produrre testi con meno fatica intellettiva ma abilitare una nuova interazione con le macchine. L’idea è quella di avere sistemi capaci di percepire l’ambiente attraverso sensori, interpretare ciò che accade, ciò che l’umano dice o come si comporta, ragionare e agire a supporto dell’essere umano nelle attività quotidiane. L’elettronica gioca un ruolo fondamentale perché è proprio grazie all’evoluzione dei dispositivi hardware che oggi è possibile sostenere livelli di calcolo e di memorizzazione sempre più elevati a costi più accessibili anche in termini di consumo energetico e quindi alla portata di un numero crescente di applicazioni che entrino nell’utilizzo pratico quotidiano. È in questo spazio che si aprono in modo quasi inaspettato enormi opportunità di innovazione e di crescita professionale. Se queste tecnologie vengono comunicate e comprese correttamente, anche gli studenti possono essere consapevoli delle direzioni possibili e orientare le proprie scelte formative e professionali per diventare protagonisti nell’era dell’AI. Non è un caso che da tempo tutte le grandi aziende del cloud includano al proprio interno ingegneri e progettisti elettronici. L’innovazione nasce sempre dall’integrazione tra hardware e software, le due facce della stessa medaglia. L’una è essenziale all’altra”.

Questo cambio di paradigma tecnologico non riguarda solo l’architettura dei sistemi, ma ha ricadute profonde anche sul modo in cui formiamo competenze e prepariamo le nuove generazioni a interpretare e guidare questa trasformazione.

“A fare la differenza è la possibilità di portare esempi concreti e credibili, e in questo l’industria può giocare un ruolo fondamentale, lavorando a stretto contatto con i docenti universitari, diventando una fonte di valori e di ispirazione reale. Quando i giovani assistono a dimostrazioni di credibilità, passione e fiducia, riescono a ispirarsi ed esprimere il loro enorme potenziale. Nella prima fase della carriera è importante fare delle scelte e specializzarsi, ma con il tempo il percorso evolve naturalmente verso una maggiore interdisciplinarità dettata anche da una curiosità acquisita durante gli studi e trasmessa dai docenti. Nessuna competenza e nessun progetto restano validi per sempre, perché il contesto tecnologico e industriale cambia continuamente. In questo scenario, la capacità di realizzare compiutamente prima e poi di adattarsi mantenendo la mentalità del principiante rappresenta il vero valore aggiunto da custodire attraverso l’incessante sviluppo della tecnologia AI”.