Ci sono molte variabili da valutare per capire perché un LLM fallisce in un certo task. Magari hai beccato proprio una cosa che non sanno fare, o magari non sei riuscito a porre il quesito nel modo giusto - questo è un aspetto molto importante.
Comunque sia ci sono cose per cui non sono ancora utili. Ma è una lista ogni giorno più corta.
Parliamo di un modello statistico. Ho rivolto la domanda in 10 modi diversi, "sprecando un'ora".
La capacità di analizzare il testo e la richiesta che scriviamo non si basa su un reale concetto di "capire" cosa stai scrivendo.
Si tratta di dare una risposta affine alla richiesta, la risposta che per lui è più probabilmente corretta.
I limiti del LLM in molte situazioni attuali si evince molto in task leggermente più complicati o fuori da una logica standard.
Qua non si parla di utilità in settori, si parla di affidabilità.
Prendere per sicuro quello che dice è alquanto sbagliato, ti posso fare diversi esempi di errori che scrive dai più argomenti disparati.
Astrofisica, fisica generale ecc.
Solo perché risponde non significa che quello che dice sia corretto o che vada bene, bisogna metterselo bene in testa.
Al momento l'unica cosa per cui va bene è tradurre testi, trasformare e codificare dati e generare immagini, cosa che finalmente fa abbastanza bene anche se ancora limitato con le risoluzioni. Credo che sia un po' troppo sopravvalutata al momento.
Ovviamente parlo dei modelli disponibili alla massa e quindi non ottimizzati per uno specifico campo. Bisogna saperli usare è vero, ma bisogna anche essere consapevoli.