La sfida delle AI: vi diciamo quale funziona meglio

ChatGPT vs. Google Bard vs. Bing Chat: qual è la soluzione di intelligenza artificiale generativa migliore? Scopriamolo insieme. 

ChatGPT di OpenAI è esploso nel mercato nel novembre 2022, raggiungendo 100 milioni di utenti in soli due mesi: una performance senza precedenti nel mondo delle applicazioni (TikTok, tanto per rendere l’idea, ci aveva messo nove mesi: record infranto). Da allora, sono seguiti altri annunci chiave: il 7 febbraio, Microsoft ha prospettato il lancio del nuovo Bing, che incorpora Bing Chat alimentato da ChatGPT. E il 14 marzo, OpenAI ha rilasciato una nuova versione di ChatGPT basata sul tanto atteso GPT-4 (che era in lavorazione da tre anni). Il 21 marzo, poi, Google ha reso Bard disponibile al pubblico (tramite lista d’attesa).

ai tecnologia migliore
La sfida tra i vari strumenti di AI si gioca su accuratezza, completezza, appropriatezza e qualità. (Pixabay – Ladestranews.it)

La domanda, a questo punto, è: qual è la soluzione di intelligenza artificiale generativa migliore? Se lo sono chiesti gli autori di un apposito test: a ogni strumento è stata posta la stessa serie di 30 quesiti su varie aree tematiche. Le performance sono state valutate da 1 a 4, sulla base di accuratezza, completezza, appropriatezza e qualità, dove 1 è il punteggio migliore e 4 il peggiore.

La grande corsa al primato dell’AI

OpenAI ha ottenuto il punteggio migliore per la precisione, fornendo una risposta accurata al 100% l’81,5% delle volte (ciò significa però che c’è un errore fattuale in quasi una risposta su cinque). A seguire Google Bard segue con un’accuratezza del 63%, il che significa che riporta informazioni errate in più di 1/3 delle sue risposte. Le due soluzioni basate su Bing sono risultate prive di errori il 77,8% delle volte, il che significa che presentano informazioni errate per quasi una risposta su quattro.

ai tecnologia migliore
Non va mai dimenticato che l’AI necessita di una revisione umana. (Pixabay – Ladestranews.it)

A nessuna delle soluzioni è stato assegnato un punteggio di completezza perfetto per più del 50% delle risposte. Tuttavia, se si considera la somma di un punteggio di completezza perfetto (1 nel nostro sistema di punteggio) e un punteggio quasi completo (2 nel nostro sistema di punteggio, il che significa che c’erano solo piccole omissioni), OpenAI ha fornito una risposta molto solida, e a anche Bing Creative si difende bene. ChatGPT ha ricevuto un punteggio perfetto 11 volte su 30. Bing Creative 9 su 30.

Cosa ci dicono questi risultati? Come molti hanno già suggerito, bisogna aspettarsi che qualsiasi output di questi strumenti necessiti di revisione umana. Sono inclini a errori palesi, e spesso omettono informazioni importanti nelle risposte. Sebbene l’IA generativa possa aiutare gli addetti ai lavori nella creazione di contenuti in vari modi, gli strumenti non sono onniscienti. E soprattutto, dal punto di vista del marketing, il semplice riciclaggio di informazioni trovate sul Web non offre valore agli utenti. Bisogna integrare la tecnologia di AI con le proprie esperienze, competenze e prospettive uniche per aggiungere valore.