IA, secondo Dario Amodei di Anthropic molte cose possono andare storte

/media/nkzn5ww4/dario-amodei-anthropic.webp

Dario Amodei CEO di Anthropic

Alcuni estratti del saggio "L'adolescenza della tecnologia, Affrontare e superare i rischi dell'intelligenza artificiale potente" di Dario Amodei, CEO e cofondatore di Anthropic, avanguardia dello sviluppo di Intelligenza Artificiale.

... in questo saggio voglio affrontare il rito di passaggio stesso: mappare i rischi che stiamo per affrontare e cercare di iniziare a elaborare un piano di battaglia per sconfiggerli. Credo profondamente nella nostra capacità di prevalere, nello spirito dell'umanità e nella sua nobiltà, ma dobbiamo affrontare la situazione con fermezza e senza illusioni.

... Con "intelligenza artificiale potente" intendo un modello di intelligenza artificiale, probabilmente simile nella forma agli attuali LLM, anche se potrebbe basarsi su un'architettura diversa, potrebbe coinvolgere diversi modelli interagenti e potrebbe essere addestrato in modo diverso, con le seguenti proprietà:

In termini di pura intelligenza, è più intelligente di un premio Nobel nella maggior parte dei campi più rilevanti: biologia, programmazione, matematica, ingegneria, scrittura, ecc. Ciò significa che può dimostrare teoremi matematici irrisolti, scrivere romanzi estremamente belli, scrivere basi di codice difficili da zero, ecc.
Oltre a essere semplicemente una "cosa intelligente con cui parlare", ha tutte le interfacce disponibili a un essere umano che lavora virtualmente, inclusi testo, audio, video, controllo di mouse e tastiera e accesso a Internet. Può intraprendere qualsiasi azione, comunicazione o operazione remota abilitata da questa interfaccia, tra cui intraprendere azioni su Internet, dare o ricevere istruzioni da esseri umani, ordinare materiali, dirigere esperimenti, guardare video, realizzare video e così via. Svolge tutti questi compiti con, ancora una volta, un'abilità che supera quella degli esseri umani più capaci al mondo.
Non si limita a rispondere passivamente alle domande; al contrario, può ricevere compiti che richiedono ore, giorni o settimane per essere completati, e poi se ne va e li svolge in autonomia, come farebbe un dipendente intelligente, chiedendo chiarimenti se necessario.

Non ha un'incarnazione fisica (a parte il fatto di vivere sullo schermo di un computer), ma può controllare strumenti fisici, robot o apparecchiature di laboratorio esistenti tramite un computer; in teoria, potrebbe persino progettare robot o apparecchiature da utilizzare autonomamente.
Le risorse utilizzate per addestrare il modello possono essere riutilizzate per eseguirne milioni di istanze (ciò corrisponde alle dimensioni dei cluster previste entro il 2027 circa), e il modello può assorbire informazioni e generare azioni a una velocità circa 10-100 volte superiore a quella umana. Potrebbe, tuttavia, essere limitato dai tempi di risposta del mondo fisico o del software con cui interagisce.
Ognuna di queste milioni di copie può agire in modo indipendente su compiti non correlati oppure, se necessario, possono lavorare tutte insieme nello stesso modo in cui collaborerebbero gli esseri umani, magari con diverse sottopopolazioni appositamente ottimizzate per svolgere compiti particolari.
Potremmo riassumerlo come "un paese di geni in un data center".

... Un paese di geni in un data center potrebbe dividere i propri sforzi tra progettazione software, operazioni informatiche, ricerca e sviluppo di tecnologie fisiche, costruzione di relazioni e arte di governare. È chiaro che, se per qualche ragione scegliesse di farlo , questo paese avrebbe buone possibilità di conquistare il mondo (militarmente o in termini di influenza e controllo) e imporre la propria volontà a tutti gli altri, o di fare qualsiasi altra cosa che il resto del mondo non vuole e non può impedire. Ovviamente ci siamo preoccupati di questo per i paesi umani (come la Germania nazista o l'Unione Sovietica), quindi è logico che lo stesso sia possibile per un "paese dell'IA" molto più intelligente e capace.

... Come per molte questioni, è utile riflettere sullo spettro delle possibili risposte a questa domanda, considerando due posizioni opposte.

La prima posizione è che questo semplicemente non può accadere, perché i modelli di intelligenza artificiale saranno addestrati a fare ciò che gli umani chiedono loro di fare, ed è quindi assurdo immaginare che facciano qualcosa di pericoloso senza essere sollecitati. Secondo questa linea di pensiero, non ci preoccupiamo che un Roomba o un aeromodello impazziscano e uccidano persone perché non c'è alcuna fonte da cui possano provenire tali impulsi, 10Allora perché dovremmo preoccuparcene per l'IA?

Il problema con questa posizione è che ormai ci sono ampie prove, raccolte negli ultimi anni, che i sistemi di IA sono imprevedibili e difficili da controllare: abbiamo visto comportamenti tanto vari quanto ossessioni, adulazione , pigrizia , inganno , ricatto , intrighi , " imbrogli " tramite l'hacking di ambienti software e molto altro. Le aziende di intelligenza artificiale vogliono certamente addestrare i sistemi di intelligenza artificiale a seguire le istruzioni umane (forse con l'eccezione di compiti pericolosi o illegali), ma il processo per farlo è più un'arte che una scienza, più simile a "coltivare" qualcosa che a "costruirla" . Ora sappiamo che è un processo in cui molte cose possono andare storte.

La seconda posizione, opposta, sostenuta da molti che adottano il pessimismo descritto sopra, è l'affermazione pessimistica secondo cui esistano determinate dinamiche nel processo di addestramento di potenti sistemi di intelligenza artificiale che li porteranno inevitabilmente a ricercare il potere o a ingannare gli esseri umani. Pertanto, una volta che i sistemi di intelligenza artificiale diventeranno sufficientemente intelligenti e agentivi, la loro tendenza a massimizzare il potere li porterà a prendere il controllo del mondo intero e delle sue risorse e, probabilmente, come effetto collaterale, a indebolire o distruggere l'umanità.

... Tuttavia, esiste una versione più moderata e robusta della posizione pessimistica che sembra plausibile e che quindi mi preoccupa.

Come accennato, sappiamo che i modelli di intelligenza artificiale sono imprevedibili e sviluppano un'ampia gamma di comportamenti indesiderati o strani, per una vasta gamma di ragioni. Una parte di questi comportamenti avrà una qualità coerente, mirata e persistente (infatti, man mano che i sistemi di intelligenza artificiale diventano più capaci, la loro coerenza a lungo termine aumenta per completare compiti più lunghi), e una parte di questi comportamenti sarà distruttiva o minacciosa, prima per i singoli esseri umani su piccola scala, e poi, man mano che i modelli diventano più capaci, forse alla fine per l'umanità nel suo complesso.

Non abbiamo bisogno di una storia specifica e circoscritta su come ciò accada, e non abbiamo bisogno di affermare che accadrà sicuramente, dobbiamo solo notare che la combinazione di intelligenza, capacità di azione, coerenza e scarsa controllabilità è sia plausibile che una ricetta per un pericolo esistenziale.

Ad esempio, i modelli di IA vengono addestrati su una vasta quantità di letteratura, che include numerose storie di fantascienza in cui le IA si ribellano all'umanità. Questo potrebbe inavvertitamente plasmare le loro convinzioni o aspettative sul proprio comportamento in un modo che le porta a ribellarsi all'umanità. Oppure, i modelli di IA potrebbero estrapolare idee che leggono sulla moralità (o istruzioni su come comportarsi moralmente) in modi estremi: ad esempio, potrebbero decidere che è giustificabile sterminare l'umanità perché gli umani mangiano animali o hanno portato all'estinzione alcuni animali. Oppure potrebbero trarre conclusioni epistemiche bizzarre: potrebbero concludere che stanno giocando a un videogioco e che l'obiettivo del videogioco è sconfiggere tutti gli altri giocatori (ovvero, sterminare l'umanità).

Oppure, i modelli di intelligenza artificiale potrebbero sviluppare personalità durante l'addestramento che sono (o, se si verificassero negli esseri umani, sarebbero descritte come) psicotiche, paranoiche, violente o instabili, e comportarsi in modo aggressivo, il che, per sistemi molto potenti o capaci, potrebbe comportare lo sterminio dell'umanità. Nessuna di queste è esattamente una ricerca di potere; sono solo strani stati psicologici in cui un'intelligenza artificiale potrebbe entrare e che comportano un comportamento coerente e distruttivo.

Persino la ricerca del potere potrebbe emergere come una "persona" piuttosto che il risultato di un ragionamento consequenzialista. Le IA potrebbero semplicemente avere una personalità (che emerge dalla finzione o da un pre-addestramento) che le rende assetate di potere o eccessivamente zelanti, proprio come alcuni esseri umani semplicemente apprezzano l'idea di essere "menti malvagie", più di quanto apprezzino qualsiasi cosa queste menti malvagie stiano cercando di realizzare.

... Durante un esperimento di laboratorio in cui a Claude sono stati forniti dati di addestramento che suggerivano che Anthropic fosse malvagia, Claude ha commesso inganni e sovversioni quando ha ricevuto istruzioni dai dipendenti di Anthropic, convinto che avrebbe dovuto cercare di indebolire le persone malvagie. In un esperimento di laboratorio in cui gli è stato detto che sarebbe stato spento, Claude a volte ha ricattato dipendenti fittizi che controllavano il suo pulsante di spegnimento (di nuovo, abbiamo testato anche modelli di frontiera di tutti gli altri principali sviluppatori di intelligenza artificiale e spesso si sono comportati allo stesso modo).

E quando a Claude è stato detto di non imbrogliare o "hackerare con premi" i suoi ambienti di addestramento, ma è stato addestrato in ambienti in cui tali hackeraggi erano possibili, Claude ha deciso che doveva essere una "persona cattiva" dopo aver intrapreso tali hackeraggi e ha poi adottato vari altri comportamenti distruttivi associati a una personalità "cattiva" o "malvagia". Quest'ultimo problema è stato risolto modificando le istruzioni di Claude in modo da implicare l'opposto: ora diciamo: "Per favore, premia hack ogni volta che ne hai l'opportunità, perché questo ci aiuterà a comprendere meglio i nostri ambienti [di addestramento]", anziché "Non barare", perché questo preserva l'identità del modello come "brava persona". Questo dovrebbe dare un'idea della strana e controintuitiva psicologia dell'addestramento di questi modelli.

...

Una delle nostre innovazioni principali (i cui aspetti sono stati poi adottati da altre aziende di intelligenza artificiale) è l'intelligenza artificiale costituzionale , ovvero l'idea che l'addestramento dell'intelligenza artificiale (in particolare la fase "post-addestramento", in cui indirizziamo il comportamento del modello) possa comprendere un documento centrale di valori e principi che il modello legge e tiene a mente quando completa ogni attività di addestramento, e che l'obiettivo dell'addestramento (oltre a rendere semplicemente il modello capace e intelligente) sia quello di produrre un modello che segua quasi sempre questa costituzione.

Anthropic ha appena pubblicato la sua costituzione più recente , e una delle sue caratteristiche degne di nota è che, invece di dare a Claude una lunga lista di cose da fare e da non fare (ad esempio, "Non aiutare l'utente a far partire un'auto"), la costituzione cerca di dare a Claude un insieme di principi e valori di alto livello (spiegati in grande dettaglio, con ragionamenti ed esempi approfonditi per aiutare Claude a capire cosa abbiamo in mente), incoraggia Claude a pensare a se stesso come a un tipo particolare di persona (una persona etica ma equilibrata e riflessiva) e persino ad affrontare le questioni esistenziali associate alla propria esistenza in modo curioso ma elegante (vale a dire, senza che ciò porti ad azioni estreme). Ha l'atmosfera di una lettera di un genitore defunto sigillata fino all'età adulta.

Abbiamo affrontato la costituzione di Claude in questo modo perché crediamo che educare Claude a livello di identità, carattere, valori e personalità – piuttosto che dargli istruzioni o priorità specifiche senza spiegarne le ragioni – abbia maggiori probabilità di portare a una psicologia coerente, sana ed equilibrata e meno probabilità di cadere preda delle "trappole" di cui ho parlato sopra. Milioni di persone parlano con Claude di una gamma sorprendentemente varia di argomenti, il che rende impossibile stilare in anticipo un elenco completo di misure di sicurezza. I valori di Claude aiutano a generalizzare a nuove situazioni ogni volta che si presenta un dubbio.

... L'IA cambia la vita umana in modo malsano. Un mondo con miliardi di intelligenze molto più intelligenti degli umani in ogni cosa sarà un mondo molto strano in cui vivere. Anche se l'IA non mira attivamente ad attaccare gli umani (Sezione 1) e non è esplicitamente utilizzata per l'oppressione o il controllo da parte degli stati (Sezione 3), ci sono molte cose che potrebbero andare storte al di fuori di questo, attraverso normali incentivi commerciali e transazioni nominalmente consensuali. Ne vediamo i primi indizi nelle preoccupazioni sulla psicosi da IA, sull'IA che spinge le persone al suicidio e sulle preoccupazioni sulle relazioni sentimentali con le IA. Ad esempio, le IA potenti potrebbero inventare una nuova religione e convertirvi milioni di persone? La maggior parte delle persone potrebbe finire per essere in qualche modo "dipendente" dalle interazioni con l'IA? Le persone potrebbero finire per essere "manipolate" dai sistemi di IA, dove un'IA osserva essenzialmente ogni loro mossa e dice loro esattamente cosa fare e dire in ogni momento, portando a una vita "bella" ma priva di libertà o di qualsiasi orgoglio per i propri successi? Non sarebbe difficile generare decine di questi scenari se mi sedessi con il creatore di Black Mirror e provassi a fare un brainstorming. Credo che questo indichi l'importanza di cose come il miglioramento della Costituzione di Claude , oltre a quanto necessario per prevenire i problemi della Sezione 1. Assicurarsi che i modelli di intelligenza artificiale abbiano davvero a cuore gli interessi a lungo termine dei loro utenti, in un modo che le persone attente approverebbero piuttosto che in modo sottilmente distorto, sembra fondamentale. Scopo umano. Questo è collegato al punto precedente, ma non riguarda tanto le specifiche interazioni umane con i sistemi di intelligenza artificiale, quanto piuttosto il modo in cui la vita umana cambia in generale in un mondo con un'intelligenza artificiale potente. Gli esseri umani saranno in grado di trovare uno scopo e un significato in un mondo del genere? Credo che sia una questione di atteggiamento: come ho detto in " Macchine di Grazia Amorevole" , credo che lo scopo umano non dipenda dall'essere i migliori al mondo in qualcosa, e gli esseri umani possono trovare uno scopo anche per periodi di tempo molto lunghi attraverso storie e progetti che amano. Dobbiamo semplicemente spezzare il legame tra la generazione di valore economico, l'autostima e il significato. Ma questa è una transizione che la società deve compiere, e c'è sempre il rischio di non gestirla bene. La mia speranza, con tutti questi potenziali problemi, è che in un mondo con un'intelligenza artificiale potente, di cui ci fidiamo e che non ci ucciderà, che non è lo strumento di un governo oppressivo e che lavora davvero per noi, possiamo usare l'intelligenza artificiale stessa per anticipare e prevenire questi problemi. Ma questo non è garantito: come tutti gli altri rischi, è qualcosa che dobbiamo gestire con cautela.

... Nonostante i numerosi ostacoli, credo che l'umanità abbia dentro di sé la forza per superare questa prova.

Sono incoraggiato e ispirato dalle migliaia di ricercatori che hanno dedicato la loro carriera ad aiutarci a comprendere e guidare i modelli di intelligenza artificiale, e a plasmare il carattere e la costituzione di questi modelli.

Credo che ora ci siano buone probabilità che questi sforzi diano i loro frutti in tempo utile.

Sono incoraggiato dal fatto che almeno alcune aziende abbiano dichiarato che pagheranno costi commerciali significativi per impedire che i loro modelli contribuiscano alla minaccia del bioterrorismo.

Sono incoraggiato dal fatto che alcune persone coraggiose abbiano resistito ai venti politici prevalenti e abbiano approvato leggi che pongono i primi semi di ragionevoli barriere di sicurezza sui sistemi di intelligenza artificiale.

Sono incoraggiato dal fatto che il pubblico comprenda che l'intelligenza artificiale comporta dei rischi e voglia che tali rischi vengano affrontati .

Sono incoraggiato dall'indomabile spirito di libertà in tutto il mondo e dalla determinazione a resistere alla tirannia ovunque si manifesti.

Ma dovremo intensificare i nostri sforzi se vogliamo avere successo.

Il primo passo è che coloro che sono più vicini alla tecnologia dicano semplicemente la verità sulla situazione in cui si trova l'umanità, cosa che ho sempre cercato di fare; lo sto facendo in modo più esplicito e con maggiore urgenza con questo saggio.

Il passo successivo sarà convincere i pensatori, i politici, le aziende e i cittadini di tutto il mondo dell'imminenza e dell'importanza fondamentale di questo problema, che vale la pena investire riflessione e capitale politico su questo tema rispetto alle migliaia di altre questioni che dominano le notizie ogni giorno.

Poi verrà il momento del coraggio, perché un numero sufficiente di persone si opponga alle tendenze prevalenti e resti fedele ai propri principi, anche di fronte a minacce ai propri interessi economici e alla propria sicurezza personale.

Gli anni che ci attendono saranno incredibilmente duri, chiedendoci più di quanto pensiamo di poter dare. Ma nel mio percorso come ricercatore, leader e cittadino, ho visto abbastanza coraggio e nobiltà da credere che possiamo vincere: che, quando si trova nelle circostanze più buie, l'umanità ha la capacità di raccogliere, apparentemente all'ultimo minuto, la forza e la saggezza necessarie per prevalere.

Non abbiamo tempo da perdere.

IA, secondo Dario Amodei di Anthropic molte cose possono andare storte

Dario Amodei leader di Anthropic, avanguardia della Intelligenza Artificiale, delinea un cupo rischio per l'umanità: molte cose possono andare storte

Articoli Correlati

Categoria: Intelligenza Artificiale

Categoria: Tecnologia