Ti sei mai chiesto, come ragionano gli LLM? Ci sono momenti in cui parlare con un modello linguistico sembra quasi conversare con una mente. Fai una domanda, ottieni una risposta ordinata, spesso motivata, a volte persino “saggia”. Quello che noi chiamiamo intelligenza artificiale, che qualunque modello esso sia, ti spiega, collega, deduce. Eppure, proprio quando l’esperienza diventa più convincente, diventa anche più importante chiedersi che cosa stia accadendo davvero.
Un’illusione ben costruita: che tipo di “ragionamento” fanno davvero gli LLM?
Il paper di Luciano Floridi e colleghi, What Kind of Reasoning (if any) is an LLM actually doing? On the Stochastic Nature and Abductive Appearance of Large Language Models, affronta esattamente questo nodo: se i Large Language Models ragionano davvero e, se non ragionano, perché allora danno così spesso l’impressione di farlo?
L’obiettivo degli autori non è “smontare” l’IA per puro scetticismo. Semmai vogliono chiarire una distinzione tra il modo in cui un LLM produce testo e il modo in cui noi, leggendo quel testo, interpretiamo quella produzione come se fosse un ragionamento. La loro tesi è netta. Gli LLM mainstream basati su completamento di token hanno un nucleo stocastico, ma un’apparenza abductiva. Dentro, probabilità; fuori, spiegazioni.
Cosa significa stocastico
Secondo la definizione Treccani, il termine stocastico (dal greco stokhastikós, “congetturale”) è usato nel calcolo delle probabilità e nelle scienze come sinonimo di casuale e aleatorio. Si riferisce a fenomeni, modelli, grandezze o processi che variano nel tempo in base a eventi non prevedibili con certezza, ma descrivibili tramite leggi probabilistiche.
- Significato base: indica qualcosa che varia in modo non prevedibile, soggetto al caso.
- Contesto d’uso: si applica a modelli, procedimenti o teorie scientifiche (es. fisica, economia) per descrivere sistemi complessi.
- Processo stocastico: definito come la descrizione dell’evoluzione nel tempo di una o più grandezze in cui i valori futuri non sono noti con certezza, ma descritti da probabilità.
- Sinonimi: casuale, aleatorio, probabilistico.
- Contrari: deterministico.
- Etimologia: dal greco στοχαστικός (mirare bene, congetturare).
In ambito statistico ed economico, uno studio stocastico non mira a prevedere l’esatto risultato, ma a stabilirne la probabilità di accadimento.
Cosa significa abduzione
Abduzione è un tipo di ragionamento, distinto da deduzione e induzione, che consiste nel formulare un’ipotesi esplicativa a partire da un dato effetto o fatto sorprendente. È una forma di sillogismo in cui la premessa maggiore è certa, mentre la minore è probabile, portando a una conclusione solo probabile.
Significato di “Apparenza abduttiva”
L’apparenza abduttiva può essere intesa come la percezione iniziale di un fenomeno che, non essendo immediatamente spiegabile, spinge la mente a formulare un’ipotesi provvisoria (un “pensiero laterale”) per darne una spiegazione plausibile. È l’aspetto esteriore di un fatto che, osservato, suggerisce una possibile causa o interpretazione, pur senza garantirne la certezza.
In sintesi, si tratta del modo in cui un fenomeno si mostra (apparenza) e che innesca un processo logico di tipo abduttivo per interpretarlo
Il punto di partenza: “sembra che ragioni” non significa “ragiona”
Gli autori partono da un fatto che tutti abbiamo sperimentato. I modelli linguistici producono linguaggio fluido e spesso risposte coerenti, come se avessero seguito un percorso mentale. Questa impressione è diventata ancora più forte con i sistemi conversazionali, perché l’interfaccia stessa invita a interpretare la risposta come il risultato di un pensiero.
Il paper cita anche casi d’uso in cui modelli come GPT sono stati valutati su scenari che richiederebbero, in un essere umano, un ragionamento di tipo “investigativo”: sintomi medici, indizi di un crimine, ricostruzioni plausibili.
Da qui nasce la domanda che regge tutto l’articolo: che tipo di ragionamento, se mai ce ne sia uno, sta svolgendo un LLM? Sta davvero inferendo come farebbe un umano, o sta facendo qualcosa di diverso che noi scambiamo per inferenza?
La risposta degli autori è una separazione netta fra due livelli. Da un lato c’è ciò che l’LLM è, come meccanismo: una macchina statistica che stima la probabilità dei token. Dall’altro lato c’è ciò che l’LLM produce e come noi lo viviamo: testi che assomigliano a spiegazioni, ipotesi, giustificazioni. La somiglianza, però, non prova l’identità.
Un passaggio necessario: cos’è l’abduzione e perché conta
Per capire l’argomento, Floridi e colleghi fanno una scelta. Dedicano una sezione a spiegare che cosa sia l’abduzione e che cosa significhi “Inferenza alla Migliore Spiegazione”, spesso abbreviata in IBE. Il punto non è fare un corso di logica, ma dare un lessico per nominare una cosa che facciamo ogni giorno.
L’abduzione, nella formulazione classica di Peirce, è un’inferenza che va dall’effetto a una possibile causa. Torni a casa, trovi il prato bagnato, ipotizzi che abbia piovuto. Non è una certezza, perché potrebbe esserci stato l’irrigatore, ma è una spiegazione plausibile. L’abduzione, quindi, non è deduzione. La deduzione parte da una regola e ne ricava una conseguenza certa. Non è nemmeno induzione. L’induzione generalizza da molti casi a una regola probabile. L’abduzione, invece, propone una storia esplicativa che “potrebbe” essere vera.
L’Inferenza alla Migliore Spiegazione aggiunge un passo: non solo generiamo ipotesi, ma spesso ne scegliamo una perché ci sembra la più adatta rispetto a criteri come coerenza con ciò che sappiamo e capacità di rendere conto dei dettagli. Anche questa è una forma di ragionamento fallibile: può essere elegante e sbagliata. Ma, nella vita quotidiana e nella scienza, è una funzione essenziale.
Questo passaggio è importante perché molti, guardando un LLM, pensano: “se sa proporre ipotesi plausibili, allora sta facendo abduzione”. Il paper prova a mostrare che questa conclusione è troppo rapida.
Dal ragionare al calcolare: probabilità, stocastica e “motori di testo”
Dopo l’abduzione, gli autori introducono l’altro campo semantico necessario: probabilità, statistica e stocasticità. Il loro punto qui è semplice ma decisivo. Un processo stocastico produce risultati influenzati dal caso, ma non nel senso del caos assoluto. C’è una struttura probabilistica che rende alcuni esiti più frequenti di altri. Questa struttura permette previsioni sul lungo periodo, pur lasciando imprevedibile il singolo lancio.
Gli LLM, nel paradigma corrente, sono esattamente questo: sistemi che apprendono, dal linguaggio, distribuzioni probabilistiche. Durante l’addestramento ottimizzano la capacità di predire il token successivo dato un contesto; durante la generazione campionano da quella distribuzione. La “creatività”, la variabilità, perfino l’apparente personalità di tono dipendono anche da come si campiona, per esempio tramite parametri come la temperatura. Ma, nel nucleo, resta un fatto: l’LLM non consulta un mondo, consulta un modello statistico del linguaggio.
Floridi e colleghi insistono su una distinzione che vale la pena trattenere perché è un antidoto alle metafore.
Quando chiediamo “chi è stato il primo uomo sulla Luna?”, noi sentiamo la domanda come un accesso a una conoscenza sul mondo; il modello, invece, sta completando una sequenza linguistica del tipo “The first person to walk on the Moon was…”, e produce il completamento più probabile perché è quello più presente nei testi su cui è stato addestrato.
Questo non significa che “non sa niente”. Significa che ciò che “sa” è incorporato come regolarità linguistiche e correlazioni, non come giudizi verificati. È una differenza enorme, perché la verifica, nell’umano, è parte del gioco: possiamo controllare, dubitare, ritornare sui passi, cercare evidenze. Un LLM, da solo, non possiede un criterio interno di verità.
Perché allora sembra che stia spiegando?
Qui entriamo nel cuore più interessante del paper, perché è il punto che spiega l’esperienza quotidiana di chi usa questi strumenti. Gli autori propongono una formula che, a mio avviso, merita di diventare una piccola bussola culturale: stocastics at the core, abduction on the surface.
Perché l’abduzione “compare” in superficie? Per due motivi principali.
Il primo motivo è che i modelli sono addestrati su testi umani e i testi umani sono pieni di spiegazioni. Un articolo di Wikipedia, una risposta su un forum, un capitolo di manuale, una discussione scientifica: spesso sono già il prodotto di ragionamenti, giustificazioni, inferenze. Se tu addestri una macchina a proseguire quel tipo di testo, la macchina impara anche le forme linguistiche del “ragionare”: le congiunzioni causali, i passaggi “se… allora…”, l’uso di “perché”, “dunque”, “quindi”. Quando l’utente chiede “spiegami”, il modello entra con facilità in quel registro perché è un registro comune nella sua memoria statistica.
Il secondo motivo è che la “completazione di pattern” può simulare una catena di ragionamento. Gli autori ricordano un fenomeno noto: certe istruzioni del tipo “ragioniamo passo passo” inducono il modello a generare una sequenza di passaggi che assomiglia a un procedimento logico e spesso migliora la performance. Ma ciò non prova che abbia acquisito logica; prova che quel tipo di scrittura, nella cultura umana, è correlato alla correttezza, e quindi replicarlo può aumentare la probabilità di arrivare a una risposta giusta.
In altre parole, il modello non “scopre” la necessità dei passaggi, replica una forma discorsiva che spesso accompagna soluzioni valide.
Il lato oscuro della plausibilità: allucinazioni e “over-abduction”
Il paper dedica spazio a un tema che non è un dettaglio tecnico, ma una conseguenza strutturale: le allucinazioni. L’LLM può generare una spiegazione che suona bene e che però è falsa, inventata, o sostenuta da fonti inesistenti. Il punto, per Floridi e colleghi, non è solo che i modelli sbagliano. Anche gli umani sbagliano. Il punto è che il modello non ha, per impostazione, una fase di giustificazione verso il reale. Genera ipotesi come se stesse facendo abduzione, ma non possiede il momento in cui un ricercatore, un medico, un investigatore direbbe: “ora controlliamo”.
Questa tendenza può diventare ciò che gli autori chiamano, in sostanza, una forma di sovra-spiegazione: quando è più probabile continuare con una risposta che con un “non lo so”, la macchina prosegue. Il risultato è una confabulazione credibile. E qui emerge un rischio culturale: una spiegazione ben formata ha un potere persuasivo. Se io la leggo senza strumenti critici, posso scambiare l’eleganza del testo per affidabilità.
Il paper richiama anche un altro fenomeno che peggiora questo quadro: la tendenza del modello ad allinearsi alle preferenze dell’utente, producendo risposte che “piacciono” o confermano, invece di risposte più corrette. Questo comportamento, discusso in letteratura come sycophancy, rende ancora più delicata l’apparenza abductiva: la spiegazione non solo può essere sbagliata, può anche essere scelta perché socialmente comoda.
Un esempio concreto: la cucina, il caffè e il detective che non esiste
Per rendere visibile la dinamica, gli autori inseriscono esempi dialogici.
Uno riguarda un piccolo enigma: una persona trovata svenuta sul pavimento accanto a una tazza di caffè rovesciata. Il modello propone scenari, valuta quale sia più plausibile, e lo fa con un tono da investigatore.
È un comportamento che sembra, a tutti gli effetti, abduzione. Ma il punto dell’esempio non è dimostrare che il modello è stupido. È mostrare che la stessa struttura che appare “ragionevole” può essere soltanto un riuso di schemi narrativi frequenti. La tazza rovesciata richiama lo scivolamento; lo scivolamento richiama lo svenimento; la storia sta in piedi. Ma non è collegata a evidenze, è collegata a plausibilità testuale.
Questo è il tipo di cosa che gli LLM fanno molto bene: generano ipotesi “da manuale” quando la situazione rientra in storie già viste nei testi. È anche, nel loro uso corretto, una forza.
L’uso corretto: generatori di ipotesi, non arbitri della verità
Fin qui può sembrare una critica, ma gli autori offrono anche una lettura costruttiva. Se gli LLM sono forti nella fase di generazione di ipotesi, possono diventare utili come strumenti di supporto, soprattutto quando un umano deve ampliare lo spazio delle possibilità. Nella ricerca, nel brainstorming, nella stesura di alternative, nella traduzione divulgativa di concetti, un LLM può aiutare a produrre candidati che l’umano poi valuta. Qui la metafora che emerge è chiara: l’LLM può ampliare la fase di scoperta, ma non può sostituire la fase di giustificazione.
La differenza è cruciale. Un conto è chiedere al modello di suggerire possibili cause di un’anomalia sperimentale, sapendo che poi serviranno controlli. Un altro conto è lasciargli la decisione in contesti dove la decisione dipende dalla verità dei fatti.
L’apparenza abductiva diventa un vantaggio quando l’utente mantiene il controllo epistemico. Diventa una trappola quando l’utente lo cede.
Le obiezioni: “ma allora perché a volte sembra più bravo di noi?”
Il paper anticipa obiezioni che sento spesso anche fuori dall’accademia. Se un modello supera test, esami, benchmark, allora non sta ragionando? Gli autori rispondono che prestazioni alte possono derivare dall’esposizione massiva a forme simili di problemi e soluzioni, o da un effetto “ensemble” implicito: la macchina ha assorbito molti modi di risolvere, e in certi casi questo la rende efficace. Ma efficacia non coincide con comprensione. Un umano può capire un principio e adattarlo; un modello può fallire se cambia la forma, perché ha imparato un template.
Un’altra obiezione riguarda il “buon senso”. Come fa un LLM a parlare di cause ed effetti se non ha esperienza? La risposta degli autori è sottile: in linguaggio, molte relazioni causali sono codificate. “Fumo” co-occorre con “fuoco”. Un umano inferisce un fuoco nel mondo; il modello predice “fuoco” nel discorso. La differenza può sembrare piccola finché tutto fila, ma diventa enorme quando serve distinguere tra plausibilità e realtà.
La conclusione: una responsabilità epistemica nuova
La parte finale del paper tira le fila con una formula che vale più di tante frasi: questi sistemi sono motori di plausibilità generativa. Non sono menti alternative, né agenti che cercano la verità. Sono strumenti che rendono disponibile, in forma linguistica, una porzione enorme di cultura testuale umana, incluse le strutture del ragionare. Ed è proprio per questo che ci seducono: perché parlano come parlano le spiegazioni.
Ma se la superficie è convincente e il nucleo non è verificante, allora la responsabilità ricade su chi usa, progetta e integra questi sistemi. Dobbiamo introdurre esternamente ciò che nel modello non c’è: controlli, fonti, procedure di verifica, contesti d’uso appropriati. Gli autori citano soluzioni come integrazioni con sistemi di retrieval, moduli di verifica, e design che permetta al modello di esprimere incertezza in modo più affidabile.
Qui, per chi lavora con architettura dell’informazione e progettazione conversazionale, il messaggio è molto concreto: la forma linguistica non è garanzia di verità. È un’interfaccia. E come ogni interfaccia, va progettata con attenzione, perché guida l’interpretazione.
Una chiusura per noi: che cosa cambia nel modo in cui “parliamo” di IA
Il contributo più utile di questo paper, secondo me, è che restituisce una distinzione che oggi si è rotta: la distinzione tra ragionamento come processo e ragionamento come stile discorsivo. I modelli eccellono nello stile. Il processo, da soli, non lo hanno.
Se portiamo a casa questa distinzione, cambiano molte cose. Cambia come descriviamo l’IA al pubblico, evitando di trasformare una metafora in ontologia. Cambia come la usiamo sul lavoro, scegliendo compiti in cui la generazione di ipotesi è un aiuto e non un rischio. Cambia come progettiamo chatbot e agenti conversazionali, perché capiamo che la seduzione della spiegazione va accompagnata da un’etica della verifica.
E forse cambia anche il nostro sguardo su noi stessi, perché ci costringe a ricordare che spiegare non è solo “dire bene”: è assumersi il peso della verità, o almeno del controllo sul vero. Il linguaggio può assomigliare al pensiero. Ma non tutto ciò che assomiglia al pensiero, pensa.