Il Punto Cieco da Miliardi di Dollari: Perché gli Agenti AI Non Riescono Ancora a Fare Attività di Base

Sta succedendo qualcosa di insolito nella tecnologia enterprise. Le più grandi aziende del mondo — Anthropic, OpenAI, Google, Microsoft, Amazon e Meta — stanno collettivamente spendendo decine di miliardi di dollari in agenti AI: software che può ragionare su problemi complessi, scrivere codice di livello produttivo e condurre ricerche multi-step con supervisione umana minima. I modelli sottostanti sono straordinari. Il Claude Opus 4.6 di Anthropic può mantenere la concentrazione su un singolo compito ingegneristico per oltre quattordici ore. L'ultimo modello Codex di OpenAI è stato strumentale nella creazione del proprio successore. Gli agenti di codifica ora sono autori di circa il quattro percento di tutto il codice pubblico committato su GitHub.

Eppure, chiedi a uno qualsiasi di questi agenti di copiare un paragrafo da un documento, incollarlo in un modulo web e cliccare "Invia", e c'è una ragionevole probabilità che fallisca.

Questo non è un difetto marginale. È la tensione centrale che definisce l'attuale generazione di agenti AI — e per i leader aziendali che valutano dove investire, cambia completamente il calcolo. La domanda non è più se gli agenti siano abbastanza intelligenti. È se possano eseguire in modo affidabile le operazioni mondane e meccaniche che costituiscono la stragrande maggioranza del lavoro informatico reale.

Lo Stato dell'Arte: Ogni Grande Azienda Ha Rilasciato Agenti

Il panorama dell'AI agentica è maturato rapidamente. All'inizio del 2026, ogni grande piattaforma tecnologica ha rilasciato prodotti agenti, e il mercato ha iniziato a consolidarsi attraverso una serie di acquisizioni di alto profilo.

Anthropic ha costruito il toolkit più ampio. Claude Code, il suo agente di codifica nativo per terminale, ha raggiunto la disponibilità generale a maggio 2025 e ha contribuito a un aumento dei ricavi di 4,5 volte. Il rilascio di febbraio 2026 ha introdotto Agent Teams — più sotto-agenti che coordinano workstream paralleli — e un sistema dedicato di revisione del codice. La capacità Computer Use di Claude, lanciata alla fine del 2024, permette al modello di vedere e interagire con interfacce desktop attraverso screenshot e azioni simulate di mouse e tastiera. Il Model Context Protocol (MCP), lo standard aperto di Anthropic per connettere l'AI a strumenti esterni, è stato adottato in tutto il settore, con oltre diecimila server pubblici attivi e novantasette milioni di download mensili dell'SDK.

OpenAI ha assemblato uno stack parallelo. Operator, il suo agente basato su browser lanciato a gennaio 2025, è stato integrato nella Modalità Agente di ChatGPT entro metà anno, combinando navigazione web con esecuzione di codice e integrazioni con Gmail, GitHub e Google Drive. L'agente di codifica Codex è arrivato a GPT-5.3-Codex, e oltre un milione di sviluppatori lo hanno utilizzato.

Google ha un approccio distribuito su più prodotti. Project Mariner gestisce l'automazione del browser. Jules, il suo agente di codifica, è uscito dalla beta ad agosto 2025. Gemini Agent Mode, disponibile per gli abbonati AI Ultra, orchestra attraverso Gmail, Calendar, Search e Maps. Google ha anche lanciato il protocollo Agent2Agent (A2A), uno standard aperto per la comunicazione inter-agente.

Microsoft ha incorporato gli agenti profondamente nella sua suite enterprise. Il rilascio Copilot Wave 3 di marzo 2026 ha introdotto Copilot Cowork, costruito con il Claude di Anthropic. L'agente di codifica di GitHub Copilot ha raggiunto la disponibilità generale per tutti i piani a pagamento.

Amazon AWS ha costruito l'offerta più focalizzata sull'infrastruttura, con Bedrock AgentCore che fornisce servizi gestiti per il deployment degli agenti. Meta ha acquisito Manus AI per oltre due miliardi di dollari a dicembre 2025. Apple resta il ritardatario notevole, con le funzionalità agentiche promesse per Siri ancora non rilasciate quasi due anni dopo il loro annuncio.

Azienda	Prodotti Agenti Chiave	Traguardo Notevole
Anthropic	Claude Code, Computer Use, MCP	Aumento ricavi 4,5x, MCP donato alla Linux Foundation
OpenAI	ChatGPT Agent Mode, Codex, Agents SDK	1M+ sviluppatori su Codex, GPT-5.3-Codex
Google	Gemini Agent Mode, Jules, A2A, ADK	Acqui-hire Windsurf da $2,4 miliardi
Microsoft	Copilot Cowork, GitHub Copilot Agent	Agent Framework unificato, GA per tutti i piani
Amazon	Bedrock AgentCore, Q Developer	66% punteggio SWE-bench
Meta	Manus AI (acquisita)	Acquisizione $2B+ per capacità agentiche

Il Paradosso: Ragionamento Sovrumano, Operazioni Subumane

Il divario di capacità al cuore degli agenti AI è tanto sorprendente quanto sottovalutato. Questi sistemi possono architettare intere applicazioni da un singolo prompt, rifattorizzare migliaia di righe di codice legacy e ragionare attraverso catene di debug che occuperebbero un ingegnere senior per un pomeriggio intero.

Ma non riescono a fare in modo affidabile ciò che un tipico impiegato fa centinaia di volte al giorno senza pensarci: copiare testo tra applicazioni, trascinare un file in un campo di upload, navigare una schermata di login o chiudere un banner dei cookie.

Non è una questione di intelligenza. È una questione di infrastruttura.

Operazioni con gli appunti: il caso emblematico

Copia e incolla è probabilmente l'operazione informatica più frequentemente utilizzata nel lavoro della conoscenza. Ed è anche in gran parte non funzionante per gli agenti AI. Gli agenti basati su browser operano in ambienti sandboxed senza accesso agli appunti di sistema. Gli agenti desktop possono simulare scorciatoie da tastiera come Ctrl+C e Ctrl+V, ma lo stato degli appunti è una risorsa condivisa a livello di sistema che può essere sovrascritta da qualsiasi applicazione in qualsiasi momento.

Drag and drop: quasi inesistente

Il drag-and-drop è una delle interazioni GUI più difficili da eseguire per gli agenti. La maggior parte dei framework supporta solo quattro azioni base: clic, digitazione, scorrimento e osservazione via screenshot. Gesti complessi come trascinare un file da una cartella in un campo di upload del browser sono o non supportati o riescono così raramente da essere praticamente inutili.

Autenticazione: il blocco più grande

Nessun agente di produzione può gestire in modo affidabile il processo di login per siti web e applicazioni arbitrari. I CAPTCHA sono progettati specificamente per bloccare l'accesso automatizzato. L'autenticazione a due fattori complica il problema: non esiste un modo sicuro e automatizzato per un agente di ricevere e inserire un codice monouso.

AWS ha lanciato Web Bot Auth nel 2026, un protocollo draft che fornisce identità crittografiche agli agenti per ridurre l'attrito dei CAPTCHA. Il fatto che un protocollo dedicato fosse necessario sottolinea quanto fondamentale rimanga il divario.

Interazione UI: morte per mille tagli di carta

Anche quando gli agenti possono vedere uno schermo e cliccare sugli elementi, le modalità di fallimento sono pervasive. Overlay modali, banner di consenso cookie, spinner di caricamento e contenuto renderizzato dinamicamente creano tutti scenari in cui la comprensione dell'interfaccia basata su screenshot dell'agente non corrisponde a ciò che un clic farà effettivamente.

Tassi di Successo degli Agenti AI su Compiti UI Reali

OSWorld (compiti desktop)15%

WebArena (compiti web)14%

Recupero errori CLI85%

Recupero errori rete35%

Baseline umana (compiti web)78%

La Matematica Che Conta: Tassi di Fallimento Composti

Il numero più importante nell'AI agentica non è un singolo punteggio benchmark. È il tasso di affidabilità composto attraverso workflow multi-step. L'aritmetica è implacabile.

Se un agente riesce in ogni singolo step l'ottantacinque percento delle volte, un workflow di dieci step riuscirà solo circa il venti percento delle volte. Un workflow di venti step scende sotto il quattro percento.

Tassi di Successo Composti: 85% Affidabilità Per-Step

1 step85%

5 step44%

10 step20%

15 step9%

20 step4%

Gartner ha previsto che il quaranta percento dei progetti di AI agentica sarà cancellato entro il 2027. Quel numero potrebbe rivelarsi conservativo se il problema dell'affidabilità composta non viene affrontato.

Contesto, Memoria e Velocità: Gli Altri Colli di Bottiglia

Le finestre di contesto sono grandi ma non infinite

I modelli frontier ora accettano da uno a due milioni di token di input. Ma l'attenzione non è uniforme attraverso quella finestra. I dettagli introdotti all'inizio di una sessione lunga possono essere effettivamente dimenticati quando l'agente raggiunge lo step quaranta.

La velocità è un costo nascosto

Ogni ciclo screenshot-osserva-agisci in un agente computer use richiede da uno a cinque secondi di inferenza del modello. Un compito che un umano completa in trenta secondi può richiedere a un agente da due a tre minuti. I costi dei token si moltiplicano rapidamente: un workflow che costa da cinque a cinquanta dollari in una demo può generare da diciottomila a novantamila dollari mensili a volume di produzione.

Il recupero errori è primitivo

Quando un umano incontra una finestra di dialogo inaspettata, valuta la situazione e si adatta. Quando un agente ne incontra una, spesso si blocca completamente o continua con stato corrotto. Non esiste un meccanismo generico perché gli agenti possano "annullare" la loro ultima azione.

Dove gli Agenti Funzionano Già — E Dove No

Dominio	Stato	Perché Funziona (o No)
Generazione e revisione codice	Valore comprovato	Basato su testo, feedback rapido, dominio strutturato, errori rilevabili
Ricerca e analisi strutturata	Valore emergente	Principalmente testo-in/testo-out, nessuna interazione GUI complessa
Workflow cross-applicazione	Ancora inaffidabile	Contesti di autenticazione diversi, pattern UI diversi, tassi di fallimento composti
Integrazione mondo fisico	Non ancora praticabile	L'hardware aggiunge latenza e attrito senza risolvere l'affidabilità

La codifica è il punto luminoso chiaro. Claude Code, OpenAI Codex, Cursor e l'agente di codifica di GitHub Copilot stanno producendo valore reale. Il Q Developer di Amazon ha aggiornato mille applicazioni Java dalla versione 8 alla 17 in due giorni. Claude Code genera circa 135.000 commit GitHub al giorno.

Il caso d'uso di fallimento canonico rimane il coordinamento multi-applicazione. "Prenotami un volo, poi aggiungilo al mio calendario, poi invia l'itinerario al mio assistente" è diventato una battuta del settore — la demo che tutti mostrano ma pochi riescono a far funzionare in modo affidabile.

Cosa Viene Dopo: Harness, Non Solo Modelli

Il consenso emergente del settore è pragmatico. Il collo di bottiglia non è più l'intelligenza del modello. È l'infrastruttura che circonda il modello — quello che i professionisti chiamano sempre più "agent harness".

Un agent harness comprende la logica di recupero errori, i meccanismi di retry, i checkpoint human-in-the-loop, il sandboxing, i bridge di autenticazione e i livelli di orchestrazione che determinano se un motore di ragionamento brillante-ma-fragile può essere affidato con lavoro reale.

Il Model Context Protocol e lo standard Agent2Agent stanno maturando da progetti sperimentali a infrastruttura istituzionale
Il protocollo Web Bot Auth di AWS rappresenta un primo tentativo di risolvere l'autenticazione degli agenti a livello di protocollo
L'Agent Framework unificato di Microsoft e l'ADK di Google stanno fornendo astrazioni di livello superiore
Lo spostamento verso gli agenti in background aggira molti dei problemi di interazione UI

Implicazioni per i Leader Aziendali

Iniziate con workflow basati su testo, singola applicazione. Le implementazioni di agenti a più alto valore e più basso rischio oggi coinvolgono compiti principalmente testo-in, testo-out all'interno di una singola applicazione o API.

Valutate la qualità dell'harness, non solo i benchmark del modello. Un sistema che segna cinque punti in meno su un benchmark ma include logica di retry robusta e degradazione graziosa supererà un modello con punteggio più alto in produzione.

Budgetizzate per la supervisione umana. Le implementazioni di agenti di maggior successo trattano l'AI come un acceleratore per i lavoratori umani, non un sostituto.

Monitorate gli standard infrastrutturali. MCP, A2A e Web Bot Auth sono precoci ma significativi. Le organizzazioni che costruiscono su questi standard ora saranno meglio posizionate man mano che l'ecosistema si sviluppa.

Siate scettici sulle promesse di automazione end-to-end. Qualsiasi fornitore che promette workflow completamente autonomi multi-step attraverso più applicazioni oggi sta sovrastimando le proprie capacità o operando in un dominio molto ristretto.

La Linea di Fondo

L'industria degli agenti AI all'inizio del 2026 presenta un'asimmetria sorprendente. Il "cervello" — ragionamento, generazione di codice, pianificazione — è migliorato drasticamente. Ma il "corpo" — la capacità di interagire in modo affidabile con il mondo digitale disordinato, protetto da autenticazione e visivamente complesso che gli umani hanno costruito per se stessi — resta molto indietro.

Ogni grande azienda tecnologica ha rilasciato agenti. Nessuna ha risolto il problema dell'affidabilità composta. Le aziende che vinceranno in questa prossima fase non saranno necessariamente quelle con i modelli più potenti. Saranno quelle che risolveranno il problema dell'harness.

Per ora, la valutazione più onesta è questa: gli agenti AI sono genuinamente trasformativi nel contesto giusto, e genuinamente inaffidabili in quello sbagliato. La differenza tra i due non è l'intelligenza. È l'idraulica.

Se state valutando come gli agenti AI si inseriscono nella vostra strategia aziendale, contattate il nostro team per una consulenza gratuita. Vi aiutiamo a separare l'hype dal pratico, costruire la giusta infrastruttura digitale e implementare l'AI dove produce davvero risultati.

Il Punto Cieco da Miliardi di Dollari: Gli Agenti AI Ragionano Come Esperti ma Non Sanno Ancora Fare Copia e Incolla