Sussurri del futuro modulare dell'intelligenza artificiale
CasaCasa > Notizia > Sussurri del futuro modulare dell'intelligenza artificiale

Sussurri del futuro modulare dell'intelligenza artificiale

Aug 08, 2023

Di James Somers

Un giorno di fine dicembre ho scaricato un programma chiamato Whisper.cpp sul mio portatile, sperando di usarlo per trascrivere un'intervista che avevo fatto. Gli ho dato un file audio e, ogni pochi secondi, ha prodotto una o due righe di trascrizione stranamente accurata, scrivendo esattamente ciò che era stato detto con una precisione che non avevo mai visto prima. Mentre le linee si accumulavano, potevo sentire il mio computer diventare più caldo. Questa è stata una delle poche volte nella memoria recente in cui il mio portatile ha effettivamente elaborato qualcosa di complicato: per lo più lo uso solo per navigare sul Web, guardare la TV e scrivere. Ora utilizzava un’intelligenza artificiale all’avanguardia

Nonostante sia uno dei programmi più sofisticati mai eseguiti sul mio portatile, Whisper.cpp è anche uno dei più semplici. Se mostrassi il suo codice sorgente ai ricercatori dell’intelligenza artificiale fin dai primi giorni del riconoscimento vocale, potrebbero ridere increduli o piangere: sarebbe come rivelare a un fisico nucleare che il processo per ottenere la fusione fredda può essere scritto su un tovagliolo. Whisper.cpp è un concentrato di intelligenza. È raro per il software moderno in quanto non ha praticamente dipendenze: in altre parole, funziona senza l'aiuto di altri programmi. Si tratta invece di diecimila righe di codice autonomo, la maggior parte delle quali non fa altro che operazioni aritmetiche abbastanza complicate. È stato scritto in cinque giorni da Georgi Gerganov, un programmatore bulgaro che, per sua stessa ammissione, non sa quasi nulla di riconoscimento vocale. Gerganov lo ha adattato da un programma chiamato Whisper, rilasciato a settembre da OpenAI, la stessa organizzazione dietro ChatGPT e DALL-E. Whisper trascrive discorsi in più di novanta lingue. In alcuni di essi, il software è capace di prestazioni sovrumane, ovvero può effettivamente analizzare ciò che qualcuno dice meglio di quanto possa fare un essere umano.

La cosa così insolita di Whisper è che OpenAI lo ha reso open source, rilasciando non solo il codice ma una descrizione dettagliata della sua architettura. Includevano anche gli importantissimi "pesi del modello": un gigantesco file di numeri che specifica la forza sinaptica di ogni connessione nella rete neurale del software. In tal modo, OpenAI ha reso possibile a chiunque, compreso un dilettante come Gerganov, di modificare il programma. Gerganov ha convertito Whisper in C++, un linguaggio di programmazione ampiamente supportato, per semplificarne il download e l'esecuzione praticamente su qualsiasi dispositivo. Sembra un dettaglio logistico, ma in realtà è il segno di un cambiamento epocale più ampio. Fino a poco tempo fa, le IA all’avanguardia come Whisper erano competenza esclusiva delle grandi aziende tecnologiche che le hanno sviluppate. Esistevano dietro le quinte, alimentando sottilmente risultati di ricerca, consigli, assistenti di chat e simili. Se agli estranei è stato consentito di utilizzarli direttamente, il loro utilizzo è stato misurato e controllato.

Negli ultimi anni sono apparse alcune altre IA open source, ma la maggior parte di esse è stata sviluppata mediante progetti proprietari di reverse engineering. LeelaZero, un motore di scacchi, è una versione in crowdsourcing di AlphaZero di DeepMind, il miglior giocatore di computer del mondo; poiché DeepMind non ha rilasciato i pesi del modello di AlphaZero, LeelaZero ha dovuto essere addestrato da zero, da singoli utenti, una strategia praticabile solo perché il programma poteva imparare giocando a scacchi contro se stesso. Allo stesso modo, Stable Diffusion, che evoca immagini dalle descrizioni, è un clone estremamente popolare di DALL-E di OpenAI e Imagen di Google, ma addestrato con dati disponibili pubblicamente. Whisper potrebbe essere la prima IA di questa classe che è stata semplicemente donata al pubblico. In un'era di software basato su cloud, in cui tutti i nostri programmi vengono essenzialmente noleggiati dalle aziende che li producono, trovo in qualche modo elettrizzante il fatto che, ora che ho scaricato Whisper.cpp, nessuno possa portarmelo via: nemmeno Gerganov. Il suo piccolo programma ha trasformato il mio laptop da un dispositivo che accede all'intelligenza artificiale a qualcosa di simile a una macchina intelligente di per sé.

C'è stato un tempo in cui i ricercatori credevano che il riconoscimento vocale a livello umano potesse essere "difficile per l'intelligenza artificiale", il loro modo di descrivere un problema così difficile da poter fallire solo quando i computer avessero posseduto un'intelligenza generale. L'idea era che ci fosse abbastanza ambiguità nella lingua parlata che l'unico modo per analizzarla sarebbe stato capire effettivamente cosa intendessero i parlanti. La settimana scorsa ho sentito qualcosa alla radio che, a un computer, avrebbe potuto suonare come "Puoi grugare una Ford?" Ma il mio cervello, conoscendo il contesto della conversazione, la risolse senza problemi con la frase "L'Ucraina può permetterselo". I problemi di significato e contesto hanno fatto sì che, per decenni, il riconoscimento vocale fosse considerato un metro di misura per l’intero campo dell’intelligenza artificiale. L'unico modo per comprendere il discorso, si pensava, era capirlo veramente.