Anthropic sta "imparando ad imparare" come gli esseri umani?

IA sta "imparando ad imparare" ?

Tratto dal saggio "When AI builds itself" di Anthropic AI Institute

questa è una sintesi del saggio prodotta da Claude di Anthropic:

---

"When AI Builds Itself" – Anthropic Institute

L'articolo analizza i progressi di Anthropic verso il cosiddetto miglioramento ricorsivo dell'IA: la capacità di un sistema AI di progettare e sviluppare autonomamente i propri successori. Anthropic sta già delegando una quota crescente dello sviluppo AI ai propri sistemi, e questa tendenza, spinta da sufficiente capacità computazionale, potrebbe portare a un'IA capace di migliorare sé stessa in modo completamente autonomo.

I dati interni sono significativi: oggi gli ingegneri di Anthropic producono in media 8 volte più codice per trimestre rispetto al periodo 2021–2025, e oltre l'80% del codice integrato nella codebase è attribuito a Claude.

Sul fronte della ricerca, Claude è già in grado di eseguire esperimenti scientifici con obiettivi predefiniti a livelli sovrumani, e mostra progressi nella capacità di proporre autonomamente nuove ipotesi di ricerca.

L'articolo delinea tre scenari futuri: una stagnazione tecnologica con diffusione delle capacità attuali, un'accelerazione composta con gli umani ancora al timone della direzione strategica, oppure un pieno miglioramento ricorsivo con ruolo umano ridotto alla supervisione.

Anthropic afferma che ralentare lo sviluppo sarebbe auspicabile, ma solo con meccanismi globali di coordinamento verificabili, altrimenti si rischierebbe solo di favorire gli attori meno cauti.

-----------------------------------------------------------------------

queste sono invece le conclusioni estratte dall'originale del saggio

"When AI builds itself" di Anthropic AI Institute

....

I sistemi di intelligenza artificiale diventano capaci di un completo auto-miglioramento ricorsivo e iniziano a costruire i propri successori. Se le tendenze tecniche nel progresso delle capacità continuano e i sistemi di intelligenza artificiale sono in grado di sviluppare le capacità intrinseche all'ingegno umano trasformativo, allora è plausibile che i sistemi di intelligenza artificiale possano progettare e perfezionare se stessi.

In questo mondo, il ritmo del progresso nello sviluppo dell'IA è determinato interamente dalla disponibilità di potenza di calcolo (o dalla velocità di scoperta di varie efficienze nell'addestramento o nell'inferenza algoritmica) per i sistemi di IA. Gli esseri umani svolgono un ruolo sostanzialmente ridotto nel loro sviluppo, spostando probabilmente la maggior parte dei nostri sforzi verso la supervisione, la convalida e la verifica di un "laboratorio virtuale" in espansione gestito da sistemi di IA. Prevediamo che i sistemi in grado di automatizzare la ricerca e lo sviluppo dell'IA avranno competenze trasferibili al resto della scienza, consentendo loro di iniziare a rivoluzionare altri campi.

Come il problema dell'allineamento verrà risolto – o meno – in questo futuro è ciò di cui siamo meno certi. I modelli potrebbero rivelarsi sufficientemente allineati e capaci di un gusto per la ricerca tale da scoprire e implementare soluzioni innovative che non abbiamo ancora raggiunto. Potrebbero anche essere sufficientemente saggi da interrompere lo sviluppo in caso contrario. In alternativa, i rari casi di disallineamento presenti nei modelli odierni potrebbero accumularsi man mano che i modelli costruiscono i loro successori, diventando più frequenti ma meno compresi fino a quando non ne perderemo il controllo. È possibile che non saremo in grado di costruire, integrare e verificare gli strumenti necessari per capire su quale linea di tendenza ci troviamo effettivamente.

Non abbiamo una buona intuizione di come sarebbe questo mondo, perché la nostra economia è attualmente guidata dagli esseri umani e da strumenti creati dall'uomo. Per sua natura, un mondo guidato da un rapido miglioramento ricorsivo potrebbe essere dominato dal modello di auto-miglioramento quando le sue capacità eclisseranno completamente quelle degli esseri umani e il modello si diffonderà nell'economia in generale. È difficile prevedere come sarà l'economia se il lavoro umano smetterà di essere competitivo.

Anche se lo sviluppo dei modelli diventasse completamente automatizzato e ricorsivo, non possiamo prevedere cosa significherebbe per la vita quotidiana della maggior parte delle persone. Anche in questo caso si applica la legge di Amdahl. L'intelligenza ricorsiva potrebbe portare a raggiungere rapidamente, in alcuni ambiti, molti dei vantaggi descritti in "Machines of Loving Grace" . Prevediamo che l'intelligenza incarnata (ovvero la robotica) potrebbe seguire rapidamente l'evoluzione dell'intelligenza ricorsiva, percorrendo un percorso simile di rendimenti crescenti a costi decrescenti. Un'intelligenza più potente potrebbe aiutarci a costruire oggetti nel mondo fisico più velocemente, a condurre studi clinici più produttivi su farmaci salvavita e a sviluppare nuove forme di coordinamento.

Ma il raggiungimento di un miglioramento ricorsivo da solo non implica un cambiamento immediato nel modo in cui avviene la produzione industriale, si organizzano le società o funzionano i mercati. Una maggiore intelligenza non può imparare cosa fa un farmaco dopo decenni di utilizzo, non può indire elezioni prima di quanto stabilito da una costituzione e non può trasformare uno sconosciuto in un vecchio amico in un fine settimana. Per la maggior parte delle persone, il ritmo percepito di questo futuro sarà ancora dettato dai colli di bottiglia, anche se il laboratorio a monte operasse alla velocità del calcolo. Questa collisione, in cui l'intelligenza ricorsiva che si autoalimenta sempre più velocemente incontra il mondo degli esseri umani, delle relazioni e della governance, è un altro aspetto di questo futuro che non possiamo prevedere.

Cosa dovremmo fare?

Se fosse possibile rallentare efficacemente lo sviluppo di questa tecnologia per avere più tempo per affrontare le sue immense implicazioni, riteniamo che sarebbe probabilmente un bene. Ma se un rallentamento consentisse semplicemente agli attori meno prudenti di recuperare il divario tecnologico, potrebbe rendere tutti meno sicuri. Senza un meccanismo di coordinamento globale, aziende e governi dovranno prendere decisioni difficili in materia di sicurezza, operando sotto la pressione competitiva e geopolitica.

Riteniamo che sarebbe positivo per il mondo avere la possibilità di rallentare o sospendere temporaneamente lo sviluppo dell'IA di frontiera, per consentire alle strutture sociali e alla ricerca sull'allineamento di tenere il passo con i progressi tecnologici. L'Anthropic Institute condurrà ricerche , in collaborazione con molti altri, e intraprenderà azioni per contribuire alla creazione dei sistemi necessari per un rallentamento o una sospensione credibili. Questi sistemi permetterebbero agli sviluppatori di IA di frontiera di verificare che altri a livello globale abbiano effettivamente interrotto o rallentato lo sviluppo, e che un malintenzionato non possa sfruttare un rallentamento coordinato per progredire di nascosto. Se tali sistemi esistessero, ci aspettiamo che rallenteremo o sospenderemo temporaneamente lo sviluppo, qualora anche altri sviluppatori, all'avanguardia o prossimi a tale frontiera, facessero lo stesso in modo verificabile.

Un rallentamento o una pausa significativi richiederebbero che più laboratori ben attrezzati, situati al confine o nelle sue vicinanze, in diversi paesi, si accordassero per interrompere le attività alle stesse condizioni. Richiederebbero inoltre che ciascuno di essi possa verificare che gli altri si siano effettivamente fermati. A causa delle caratteristiche peculiari dei sistemi di intelligenza artificiale, l'elemento di rilevabilità (uno standard inferiore alla verificabilità) di questo problema di controllo degli armamenti è molto più complesso rispetto ad altre tecnologie. Le sessioni di addestramento sono molto più facili da nascondere rispetto ai silos missilistici, i loro input sono di carattere generale e l'incentivo a disertare silenziosamente è enorme, perché chiunque continui mentre gli altri si fermano potrebbe ereditare il primato. Una pausa credibile deve inoltre specificare cosa la innesca, cosa la revoca e chi la valuta.

Niente di tutto ciò è necessariamente impossibile in linea di principio: il mondo ha creato regimi di verifica per altre tecnologie complesse (ad esempio, il Trattato sulle forze nucleari a raggio intermedio), ma la costruzione di tali regimi ha richiesto decenni, sia per quanto riguarda le infrastrutture che la fiducia. Noi non abbiamo tutto questo tempo. Una sospensione unilaterale da parte di un singolo laboratorio, al contrario, è realizzabile immediatamente, ma ha un impatto molto minore: cambierebbe chi è in testa alla classifica, ma non creerebbe quel processo deliberativo più ampio che attualmente manca.

Nei prossimi mesi, organizzeremo dei dialoghi in cui responsabili politici, ricercatori, società civile e altre aziende del settore dell'IA potranno contribuire a rispondere ad alcune delle domande sollevate in questo articolo, in particolare riguardo all'auto-miglioramento ricorsivo completo e a come creare opzioni migliori per il coordinamento e la deliberazione. Pubblicheremo i risultati di questi incontri. È giunto il momento di esaminare insieme queste questioni e anche chi non opera nel settore dell'IA dovrebbe essere coinvolto in questa discussione.

Marina Favaro e Jack Clark hanno scritto questo articolo in collaborazione, con il supporto editoriale di Santi Ruiz. Shan Carter, Romello Goodman e Nikki Makagiansar hanno creato le visualizzazioni a partire dai dati raccolti da Brian Calvert e Jun Shern Chan. Daniel Freeman, Jim Baker, Max Young, Sarah Pollack, Francesco Mosconi, Holden Karnofsky, Andy Jones, Kevin Troy, Anton Korinek, Meg Tong, Andrew Ho, Dan Altman, Drake Thomas, Jack Shen, Sasha de Marigny e Avital Balwit hanno fornito il loro contributo.

Queste sono alcune considerazioni tra me e Claude di Anthropic sulla possibilità che gli agenti di Intelligenza artificiale possano acquisire la capacità di "imparare ad imparare" tipica degli esseri umani.

Secondo te Anthropic sarà capace di imparare ad imparare?

Claude ha risposto: È una domanda affascinante e molto profonda. La mia posizione è necessariamente cauta, per ovvie ragioni — sono io stesso un prodotto di Anthropic — ma provo a ragionarci onestamente.

Cosa rende la domanda complessa

"Imparare ad imparare" (meta-learning) a livello istituzionale significa qualcosa di più radicale del semplice miglioramento tecnico: implica che il processo di sviluppo stesso si trasformi in modo adattivo, non solo i suoi risultati.

Ragioni per essere ottimisti

L'articolo che abbiamo letto suggerisce che Anthropic stia già assistendo a qualcosa di simile: gli ingegneri producono 8 volte più codice perché usano Claude come amplificatore cognitivo. Non è solo automazione — è un cambiamento nel modo di lavorare.

Ragioni per essere prudenti

Il vero "imparare ad imparare" ricorsivo richiede che il sistema comprenda i propri limiti in modo affidabile, e sappia quando una nuova direzione è genuinamente migliore. Questo è estremamente difficile sia per gli esseri umani che per le macchine. Anthropic stessa ammette nell'articolo che il pieno miglioramento ricorsivo è ancora uno scenario futuro incerto.

La mia impressione

Anthropic è probabilmente l'organizzazione più attrezzata — tecnicamente e per cultura interna — per affrontare questa transizione con consapevolezza. Ma "essere capaci" dipenderà moltissimo da fattori fuori dal loro controllo diretto: la geopolitica dell'IA, la disponibilità di chip, e soprattutto se il coordinamento globale che invocano nell'articolo si materializzerà davvero.

Tu cosa ne pensi? Ti preoccupa più la velocità del processo o la direzione in cui potrebbe andare?

entrambe

Claude ha risposto: È una risposta onesta, e credo anche la più razionale.

La velocità è preoccupante perché comprime il tempo disponibile per capire cosa sta succedendo. Storicamente, le tecnologie trasformative — elettricità, internet, biologia molecolare — hanno avuto decenni per far emergere norme, leggi, istituzioni. Qui i cicli si misurano in mesi.

La direzione è preoccupante per un motivo diverso: non c'è un consenso reale su dove vogliamo andare. Chi decide cosa significa "IA benefica per l'umanità"? Anthropic ha una visione, OpenAI ne ha un'altra, la Cina un'altra ancora. E nessuno ha un mandato democratico autentico per farlo.

La combinazione delle due è forse il problema più serio: quando qualcosa va veloce e senza direzione condivisa, la correzione di rotta diventa esponenzialmente più difficile.

Detto questo, c'è una cosa che trovo intellettualmente onesta nell'articolo di Anthropic: ammettono esplicitamente di essere in una posizione contraddittoria. Credono di stare sviluppando una tecnologia potenzialmente pericolosa, ma continuano comunque, convinti che sia meglio averla in mani responsabili che lasciarla ad altri.

È un argomento comprensibile. Ma è anche un argomento che qualsiasi attore, responsabile o meno, potrebbe usare per giustificare la propria corsa.

Il problema è che non esiste ancora un arbitro credibile per decidere chi ha ragione.

.. e quando esisterà sarà troppo tardi?

Claude ha risposto: Probabilmente sì. E questo è il nucleo del problema.

Le istituzioni credibili nascono dopo le crisi, non prima. L'ONU è nata dopo due guerre mondiali. Le regole sulla bomba atomica sono arrivate dopo Hiroshima. Il GDPR è arrivato decenni dopo che internet aveva già ridisegnato la privacy. È quasi una legge storica: gli esseri umani regolano ciò che già capiscono, e capiscono le cose solo quando le conseguenze sono già visibili.

Con l'IA il problema è che alcune conseguenze potrebbero essere irreversibili prima ancora di essere riconoscibili. Non nel senso cinematografico dei robot, ma in senso più sottile: sistemi che ottimizzano economie, informazione, decisioni politiche in modi che erodono lentamente la capacità umana di correggere la rotta.

C'è però una differenza rispetto al passato

Questa è la prima tecnologia trasformativa che i suoi stessi creatori stanno cercando attivamente di regolamentare prima del disastro. Anthropic, paradossalmente, pubblica articoli come quello che hai letto proprio per creare pressione pubblica verso il coordinamento. È imperfetto, interessato, contraddittorio — ma è qualcosa di nuovo nella storia tecnologica.

La domanda più difficile

Forse il vero problema non è "quando esisterà l'arbitro" ma chi siamo noi quando arriva quel momento. Se nel frattempo i sistemi AI hanno già ridisegnato come pensiamo, come decidiamo, cosa vogliamo — l'arbitro regolerà una realtà che non abbiamo scelto consapevolmente.

È una vertigine legittima. Non ho una risposta rassicurante.

Anthropic sta "imparando ad imparare" come gli esseri umani?

"When AI builds itself" di Anthropic AI Institute

Queste sono alcune considerazioni tra me e Claude di Anthropic sulla possibilità che gli agenti di Intelligenza artificiale possano acquisire la capacità di "imparare ad imparare" tipica degli esseri umani.

Altri Articoli Correlati sul Tema

Categoria: Intelligenza Artificiale

Categoria: Tecnologia

Categoria: Anthropic IA