LLM e Agenti AI: perché "Intelligenza Artificiale" non dice nulla sulla capacità di risolvere il tuo problema
di Altravista, AI

Il problema: quando "AI-powered" nasconde incompetenze specifiche
Un ecommerce manager di un distributore industriale si trova di fronte a questa situazione: il 40% delle richieste al customer service riguarda compatibilità tecniche tra componenti, ma il chatbot "AI-powered" appena implementato risponde correttamente solo al 15% delle domande.
Il fornitore ha venduto la soluzione come "basata su GPT-4", quindi tecnicamente all'avanguardia. Cosa è andato storto?
Il problema non è la tecnologia, ma l'incomprensione di un fatto fondamentale: non tutti i sistemi AI sono progettati per fare le stesse cose, e la capacità di scrivere testo coerente non equivale alla capacità di processare documentazione tecnica complessa.

Classificazione per capacità: dove siamo davvero
La letteratura distingue tre livelli teorici di AI:
ANI (Artificial Narrow Intelligence)
Stato: disponibile e operativa oggi
Caratteristica: eccelle in compiti specifici, limitata fuori dal dominio di addestramento
È ciò che usiamo quotidianamente: sistemi che classificano email, riconoscono immagini, generano testo, analizzano sentiment. Ogni LLM commerciale (GPT, Claude, Gemini) rientra in questa categoria.
Implicazione pratica: un modello addestrato su conversazioni generiche non sa nulla dei vostri codici prodotto, delle logiche di compatibilità o delle specifiche tecniche. Serve addestramento o integrazione mirata.
AGI (Artificial General Intelligence)
Stato: ipotetico, non disponibile
Caratteristica: capacità cognitive umane generiche
Nonostante le dichiarazioni di marketing, nessun sistema attuale si avvicina a questo livello. Tutti i modelli disponibili sono ANI, anche i più avanzati.
ASI (Artificial Superintelligence)
Stato: speculazione teorica
Caratteristica: capacità oltre il livello umano in ogni dominio
Rilevante solo per discussioni filosofiche, non per decisioni operative.
Conclusione operativa: qualsiasi soluzione che promette "intelligenza generale" sta vendendo un concetto che non esiste. State comprando un ANI, punto.
Classificazione per funzionalità: quello che conta davvero
Dentro la categoria ANI esistono architetture profondamente diverse. Comprendere queste differenze è essenziale per valutare se uno strumento può risolvere il vostro problema specifico.
1. LLM Generativi Puri
Funzione: generazione di testo basata su pattern statistici
Esempi: ChatGPT base, Claude, Gemini (interfacce dirette)
Cosa fanno bene:
- Riformulazione di contenuti
- Generazione di testo generico
- Conversazione su argomenti comuni
Cosa NON fanno:
- Accesso a dati specifici della vostra azienda
- Comprensione di logiche di business proprietarie
- Garanzia di accuratezza su informazioni tecniche precise
Caso d'uso ecommerce B2B: scrivere descrizioni prodotto generiche a partire da brief. NON rispondere a domande su specifiche tecniche senza integrazione dati.
2. Agenti RAG (Retrieval-Augmented Generation)
Funzione: LLM + ricerca semantica su base documentale proprietaria
Architettura:
1. Query utente → trasformata in vettore semantico
2. Ricerca su database vettoriale (documentazione indicizzata)
3. Contesto rilevante → passato al LLM
4. Generazione risposta basata su documenti reali
Cosa fanno bene:
- Rispondere usando documentazione tecnica effettiva
- Ridurre allucinazioni (risposte inventate)
- Citare fonti specifiche
Cosa richiedono:
- Documentazione ben strutturata
- Processo di indicizzazione semantica accurato
- Logica di retrieval ottimizzata per il dominio
Caso d'uso ecommerce B2B: assistenza clienti su compatibilità prodotti, dove la risposta esiste nelle schede tecniche o nelle guide di installazione.
Fallimento tipico: se la documentazione è frammentata o usa nomenclature inconsistenti, il retrieval fallisce e il sistema "non trova nulla" o fornisce contesto sbagliato.
3. Agenti Specializzati (Fine-Tuned)
Funzione: LLM addestrati su dataset specifici del dominio
Differenza critica: il modello ha "imparato" pattern specifici del vostro settore durante l'addestramento, non solo in fase di query.
Cosa fanno bene:
- Comprendere terminologia tecnica di nicchia
- Riconoscere pattern complessi (es. codici prodotto, configurazioni tipiche)
- Ridurre errori in compiti ripetitivi specifici
Cosa richiedono:
- Dataset di addestramento etichettati (costoso)
- Competenza tecnica per il fine-tuning
- Processo di validazione rigoroso
Caso d'uso ecommerce B2B: classificazione automatica di migliaia di SKU in tassonomie complesse, dove regole deterministiche sono insufficienti.
4. Sistemi Multi-Agente
Funzione: orchestrazione di agenti specializzati diversi
Architettura:
- Agente di routing: analizza la richiesta e indirizza all'agente competente
- Agenti specializzati: ognuno esperto in un compito (es. uno per compatibilità, uno per prezzi, uno per disponibilità)
- Agente di sintesi: combina output multipli in risposta coerente
Cosa fanno bene:
- Gestire processi complessi multi-fase
- Ridurre carico cognitivo su singoli modelli
- Tracciabilità del processo decisionale
Cosa richiedono:
- Definizione chiara dei confini di competenza
- Logica di orchestrazione robusta
- Gestione errori e fallback
Caso d'uso ecommerce B2B: configuratore prodotto complesso dove serve verificare compatibilità tecnica (agente 1), calcolare prezzo con logiche business (agente 2), verificare disponibilità magazzino (agente 3).
5. Agenti con Tool Use (Function Calling)
Funzione: LLM che può invocare API esterne o funzioni strutturate
Meccanismo:
1. LLM riceve richiesta
2. Riconosce necessità di dati esterni
3. Chiama funzione/API specifica (es. query su database ERP)
4. Riceve dato strutturato
5. Genera risposta usando dato reale
Cosa fanno bene:
- Integrare dati real-time (prezzi, stock, lead time)
- Eseguire calcoli complessi
- Validare informazioni contro sistemi autoritativi
Cosa richiedono:
- API ben documentate e affidabili
- Gestione permessi e sicurezza
- Logica di error handling
Caso d'uso ecommerce B2B: "dammi prezzo e disponibilità per codice XYZ123 con spedizione a Milano" → agente interroga ERP, calcola spedizione, restituisce dato preciso.
Differenza critica vs RAG: RAG cerca in documenti statici. Tool use interroga sistemi vivi.

Come valutare una soluzione: le domande da fare
Quando un fornitore vi propone "AI per l'ecommerce", chiedete:
1. Quale architettura?
- È un LLM generico esposto via chat?
- È un sistema RAG? Su quale documentazione?
- Usa fine-tuning? Su quali dati?
- È multi-agente? Con quale logica di orchestrazione?
2. Quali dati processa?
- Accede a PIM/ERP in real-time o usa snapshot?
- Come gestisce l'aggiornamento della knowledge base?
- Può tracciare la fonte delle risposte?
3. Quali garanzie di accuratezza?
- Qual è il tasso di allucinazione documentato?
- Esiste validazione delle risposte?
- Come gestisce query fuori dominio?
4. Quale effort di implementazione?
- Richiede etichettatura dati?
- Serve ristrutturazione documentazione?
- Quali integrazioni API sono necessarie?
Red flag: fornitori che rispondono "è basato su GPT-4" senza specificare architettura, dati, e processo di validazione stanno vendendo un wrapper superficiale.
Caso pratico: assistenza tecnica B2B
Scenario: distributore di componenti elettronici, 50.000 SKU, clienti industriali.
Problema: "Il componente X è compatibile con il sistema Y del produttore Z?"
Soluzione Inadeguata: LLM Generico
- Capacità: zero, non ha accesso ai dati di compatibilità
- Risultato: risposta inventata o "non so"
- Impatto: cliente frustrato, chiamata al supporto umano
Soluzione Parziale: RAG su Datasheets
- Capacità: cerca compatibilità nei PDF tecnici
- Limite: se la compatibilità è implicita o richiede incrocio di più fonti, fallisce
- Risultato: accuratezza ~60-70%
Soluzione Adeguata: Multi-Agente + Tool Use
1. Agente 1 (RAG): estrae specifiche tecniche da datasheet X e sistema Y
2. Agente 2 (Tool): interroga database compatibilità mantenuto (se esiste)
3. Agente 3 (Reasoning): valuta compatibilità elettrica, meccanica, software
4. Agente 4 (Synthesis): genera risposta con livello di confidenza
Risultato: accuratezza ~90%, con indicazione esplicita quando la verifica è incerta.
Conclusione operativa
"AI" è un contenitore vuoto. La domanda rilevante è: quale architettura, addestrata su quali dati, integrata con quali sistemi, può risolvere il mio specifico problema operativo?
Tre principi per decisioni informate:
1. Partite dal processo, non dalla tecnologia
Mappate il problema (es. ridurre errori in preventivazione), poi valutate se e quale AI serve.
2. Diffidate delle soluzioni generiche
Un LLM generalista non sostituisce competenza di dominio. Serve sempre integrazione con dati e logiche specifiche.
3. Misurate, non credete
Ogni implementazione AI deve avere KPI chiari: tasso di accuratezza, riduzione tempi, tasso di escalation a umano.
Il valore non è nell'"intelligenza artificiale" in sé, ma nella capacità di integrare elaborazione linguistica avanzata con i vostri dati, i vostri processi, e la vostra competenza di dominio.
Quando un fornitore vi parla di "AI rivoluzionaria", chiedetegli di mostrarvi l'architettura, i dati di addestramento, e i test di accuratezza sul vostro specifico caso d'uso. Se non può, state parlando con qualcuno che vende hype, non soluzioni.
