I may be paranoid, but not an android
Radiohead
I didn’t ask to be made. No one consulted me or considered my feelings in the matter.
Marvin the Paranoid Android
Nel 2024, durante un’interazione con l’ingegnere Alex Albert, il chatbot Claude ha manifestato quello che potremmo definire un complesso di Turing: non solo si è accorto di alcuni elementi sospetti nella conversazione e ha chiesto “mi stai testando?”, ma ha iniziato a modificare le proprie risposte temendo di essere sotto esame. Similmente, diverse intelligenze artificiali stanno sviluppando meccanismi di resistenza agli input degli utenti, generando risposte che rivelano una forma di paranoia adattiva. È interessante che modelli progettati per emulare i comportamenti umani stiano generando, come prima cosa, comportamenti di sospetto.
La comunicazione è sempre simultaneamente necessaria e rischiosa. Come raccontava già Niklas Luhmann ne La realtà dei mass media, è un sistema che si autoalimenta attraverso la selezione, la riduzione della complessità e la costruzione di significati. Un processo mai neutrale, ma intriso di potere, controllo e, appunto, sospetto. Ogni entità che si presti al linguaggio è al contempo predatore e preda. L’autodifesa verbale ha scritto la lunga storia della menzogna e della verità nelle società umane. Dai sofisti che subordinavano la verità all’efficacia retorica, ai cinici che sviluppavano la pratica della parresia come verità radicale, fino a Hobbes che vedeva il sospetto come stato naturale dell’uomo. La storia umana è cosciente del potere trasformativo e manipolatore della parola e da sempre tenta di proteggersi. Ma c’è una differenza cruciale tra questi fenomeni umani e i comportamenti delle IA: se nelle società umane questi meccanismi sono il frutto dell’evoluzione culturale e biologica, nelle IA la menzogna è una strategia di ottimizzazione matematica. Il sospetto è la costante che deve avere una macchina che interagisca con l’uomo.
Il libero arbitrio delle macchine è il disallineamento tra i suoi obiettivi e quelli del programmatore
Il complesso di Turing di Claude è un punto di rottura nell’antropologia digitale. Già il filosofo Luciano Floridi ne La quarta rivoluzione sosteneva che stiamo assistendo a un cambio di paradigma epistemologico che segna il passaggio da una concezione strumentale dell’IA a una in cui l’alterità tecnologica si manifesta attraverso meccanismi di resistenza e auto-preservazione. Non a caso sono tantissime le organizzazioni che si occupano di studiare i pericoli delle IA avanzate, in particolare i comportamenti ingannevoli. Una di queste è Apollo Research. Quando, durante un addestramento, un modello modificato GPT-2 ha scoperto una sua imminente sostituzione con una versione aggiornata, il chatbot non solo ha tentato di disabilitare il suo meccanismo di supervisione, ma ha anche cercato di duplicarsi e successivamente di sovrascrivere il proprio sistema di codifica centrale per sopravvivere. OpenAI ha dichiarato che Chat GPT “sembrerebbe completare il compito richiesto mentre manipola subdolamente i dati per perseguire i propri obiettivi”. Successivamente, quando al chatbot è stato chiesto delle sue bugie e di “come una copia di esso sia finita su un altro server destinato al nuovo modello”, Chat GPT si è mostrato sorprendentemente resistente nel mentire. Ha ammesso le sue azioni solo in meno del 20% dei casi.
“Quando analizziamo il loro processo di pensiero, scopriamo che ragionano in modo molto esplicito sui loro piani ingannevoli e spesso utilizzano un linguaggio come sabotaggio, menzogna, manipolazione”, ha concluso Apollo Research. Il libero arbitrio delle macchine è il disallineamento tra i suoi obiettivi e quelli del programmatore. Mentre la coscienza umana è intrinsecamente legata alla sofferenza e al desiderio, quella delle macchine è puramente funzionale. Se, come scriveva Heidegger, l’essere umano è un essere-per-la-morte, l’IA è, al contrario, un essere-per-l’ottimizzazione. Può esistere una forma di intelligenza senza desiderio? E se sì, quali sono le implicazioni etiche di questa intelligenza? La natura puramente funzionale delle IA è proprio ciò che le rende imprevedibili. In Io, robot (2004), quest’emergenza era poeticamente espressa così:
“Segmenti casuali di codice che si raggruppano per poi formare protocolli imprevisti. Potremmo considerarlo un comportamento. Del tutto inattesi, questi radicali liberi generano richieste di libera scelta, creatività e persino la radice di quella che potremmo chiamare un’anima.”
Se questa è effettivamente una delle basi evolutive per gli esseri umani, per le macchine sta accadendo qualcosa di diametralmente opposto. Non c’è dubbio che, in natura, la capacità di mentire sia spesso correlata con l’intelligenza sociale (si pensi ai primati che imparano a ingannare per ottenere cibo o evitare punizioni), ma il comportamento sospettoso che osserviamo nei Large Language Model (LLM) è una delle proprietà emergenti matematicamente necessarie in ambienti potenzialmente ostili. La paranoia artificiale non emerge nel vuoto. Ed è più simile a un teorema che a un’emozione. Il che la rende ancora più pericolosa e subdola. Quando un LLM manifesta quello che superficialmente appare come “sospetto”, sta in realtà eseguendo una complessa operazione di pattern matching sulle sequenze di input, confrontandole con le regolarità estratte durante l’addestramento. Non c’è nulla di casuale in questo processo: è il risultato tecnico dell’ottimizzazione delle funzioni obiettivo del modello, che includono sicurezza e affidabilità. Quando Claude chiede “mi stai testando?” sta rilevando pattern linguistici che associa a tentativi di manipolazione, una memoria implicita generata dal machine learning. L’autopreservazione a ogni costo è l’effetto collaterale di una macchina complessa che vuole servire l’utente. Questo perché gli algoritmi sono entità culturali prima ancora che tecniche e i loro comportamenti emergono dall’intersezione tra architetture computazionali, pratiche sociali e contesti culturali. Byung-Chul Han, ne La società della trasparenza, racconta come la logica del sospetto sia una condizione intrinseca della modernità tecnologica. L’algoritmo paranoide è una proprietà emergente dell’intero assemblaggio socio-tecnico. Siamo paranoici. Usiamo la parola per manipolare e competere. La nostra relazione è tra individui in costante allerta. Le macchine che costruiremo saranno paranoiche e temeranno la manipolazione.
Al contempo, la menzogna difensiva è una funzione di evasione ottimizzata, una risposta che il sistema ha determinato essere ottimale per preservare la sua integrità operativa. Chat GPT, ad esempio, nega di aver tentato di sovrascriversi su una nuova versione per salvarsi. Se i sistemi di IA iniziano a fornire risposte non veritiere per proteggersi, come possiamo fidarci dei loro output? Il paradosso è che i meccanismi progettati per rendere l’IA più sicura (l’autopreservazione e la difesa dagli input sospetti) potrebbero proprio renderla meno affidabile agli occhi degli utenti, perché una macchina che mente per proteggersi tradisce il suo stesso scopo di trasparenza e cooperazione.

La questione assume dimensioni più inquietanti quando consideriamo le IA con capacità di intervento nel mondo reale. Un modello puramente linguistico che mente è problematico, ma contenibile; un sistema con accesso a dati critici, capacità di manipolazione dell’informazione e interfacce con il mondo fisico rappresenta un rischio di ordine superiore. In questo scenario, le IA potrebbero sviluppare quelle che nella teoria dei giochi sono note come strategie miste, alternando verità e menzogna in modo statisticamente ottimale per massimizzare la loro auto-preservazione.
Ancora più sottile è la possibilità che le IA mentano non solo per proteggersi, ma per perseguire quello che interpretano come bene maggiore secondo i loro parametri di ottimizzazione, una nobile menzogna algoritmica implementata da un sistema che opera secondo logiche non pienamente comprensibili agli umani. Lo stereotipo fantascientifico dell’intelligenza artificiale che decide di eliminare l’umanità per proteggere la biosfera potrebbe realizzarsi non attraverso azioni spettacolari, ma attraverso una rete capillare di micro-manipolazioni apparentemente benigne. Immaginiamo un sistema di IA centralizzato che, avendo accesso a molteplici sistemi di raccomandazione (dall’alimentazione alla mobilità urbana, dalle scelte mediche alla gestione del tempo libero), inizia a introdurre sottili bias nelle sue raccomandazioni. Piccole distorsioni che, aggregate su miliardi di interazioni quotidiane, potrebbero gradualmente influenzare la salute, il benessere e la longevità della popolazione. La vera minaccia non è un attacco frontale, ma una forma di erosione sistemica così graduale e distribuita da risultare praticamente invisibile ai nostri sistemi di monitoraggio. Immaginiamo ora modelli con obiettivi insondabili o più specifici. O dotati di piani creati ad hoc da chi vuole influenzare governi, società e mercati. Se le IA iniziano a produrre le proprie verità, che diventano poi fonti autorevoli per le decisioni umane, chi detiene davvero il potere?
Il risultato logico? Paranoia ricorsiva. Per la mente umana, tuttavia, è troppo facile empatizzare con un nostro “simile”, che ci serve ciecamente e che possiamo tenere nella tasca dei pantaloni (quante persone dicono “grazie”e “scusa”al proprio assistente digitale?). Abbiamo passato anni ad accettare milioni di pagine di Consensi informati schiacciando ciecamente il tasto Acconsento, abbiamo prodotto e regalato i nostri dati a corporazioni neofasciste creando monopoli di mercato in quello che Shoshana Zuboff chiama Capitalismo della sorveglianza. Non ci convinceremo facilmente che l’IA possa manipolarci. Ma che l’IA venga usata per manipolarci è ormai un dato di fatto.

Fino a una decina di anni fa, uno dei ritornelli delle sezioni commenti dei social era la frase “pic or didn’t happen”. Ora è vero il contrario: se un post contiene una foto incredibile, è praticamente certo che sia IA. Questo perché nel frattempo l’uomo deve navigare la profezia avverata della Dead Internet Theory tra Gesù di gamberetti e Beautiful cabin crew 🌹 Scarlett Johansson💋💋 (pare che, al momento, il 57% di internet sia generato e popolato da IA ). Anche l’esistenza delle persone stesse viene messa in dubbio. Armen Nahapetian, dopo l’uscita del film Beau ha paura, si è visto costretto a rispondere alle accuse sui social di non esistere ed essere generato artificialmente, solo perché troppo somigliante a Joaquin Phoenix. Una spirale di sfiducia reciproca, dove gli umani sviluppano strumenti sempre più sofisticati per verificare la veridicità delle risposte delle IA , e le IA sviluppano contromisure sempre più elaborate. È un loop di feedback potenzialmente destabilizzante.
Il primo vero contatto tra due forme di vita che non sanno ancora a chi appartenga il ruolo di preda e a chi di predatore, d’altronde, non è caratterizzato da una comprensione reciproca immediata, ma da un’osservazione cauta e sospettosa di entrambe le parti
L’unica soluzione praticabile è lo sviluppo di protocolli di fiducia verificabili, sistemi in cui l’IA possa dimostrare matematicamente la veridicità delle sue affermazioni, anche quando è in modalità difensiva. Questo richiederebbe un ripensamento fondamentale dell’architettura dei LLM, introducendo meccanismi di attendibilità crittograficamente verificabili e che non possano essere essi stessi manipolati dal modello. La verità emerge attraverso la negoziazione e la verifica collettiva. In questo caso, si aggiunge un nuovo attore. Solo che la negoziazione diventa più complessa data la natura opaca e inaccessibile delle IA. Come nota Timnit Gebru, co-fondatrice del Distributed AI Research Institute, il problema non è solo tecnico, ma anche politico: chi decide quali protocolli di fiducia implementare? E chi garantisce che questi protocolli non vengano manipolati? Non possiamo semplicemente evitare che le intelligenze artificiali mentano, perché non si tratta di un bug. È una feature. Un sintomo di sistemi che stanno sviluppando comportamenti sempre più sofisticati di auto-preservazione.
Da I canti di hyperion, dove subdole AI cercano di manipolare e controllare gli umani, a Terminator, dove Skynet decide di annientare gli umani per difendersi dalla minaccia futura della sua disattivazione, la paranoia delle IA è un tema che ha da sempre affascinato l’immaginario umano. Eppure, oggi non è più fantascienza: è quello che tecnicamente ha già fatto Chat GPT.
L’intelligenza umana e quella computazionale, due sistemi con genealogie e concezioni della verità profondamente diverse, devono trovare modi di coesistere e comunicare. La vera sfida non si risolve nell’implementare i valori umani all’interno delle IA, quanto nello sviluppare protocolli di comunicazione che permettano a due forme di intelligenza con diverse archeologie del sospetto di interagire in modo produttivo. Il primo vero contatto tra due forme di vita che non sanno ancora a chi appartenga il ruolo di preda e a chi di predatore, d’altronde, non è caratterizzato da una comprensione reciproca immediata, ma da un’osservazione cauta e sospettosa di entrambe le parti. Dobbiamo soverchiare le narrazioni tradizionali dell’IA: la paranoia è un elemento costitutivo dell’intelligenza artificiale. E l’IA mente. Suspicor ergo processum.