All Episodes

May 8, 2024 12 mins

Estratto del QuickTalk v06 speciale LLM, RegTech e Kendrick Lamar vs. Drake (la storia della musica si svolge 24/7 su twitter).

👉 Questa pillola in versione video: https://www.youtube.com/watch?v=gOhtMHOwg9c
👉 Questa pillola in versione testo / newsletter: https://disruptivetalks.substack.com/p/quicktalk-v06-ai-come-gli-llm-imparano

ATTENZIONE: consigliamo la versione video per non perdere la parte di presentazione dei grafici o altre informazioni. 

In uno precedente QuickTalk abbiamo esplorato Llama 3, il modello linguistico avanzato di Meta. La discussione si è incentrata sui benchmark e sulla loro "saturazione", un concetto cruciale per comprendere la direzione e le sfide della ricerca futura in intelligenza artificiale.

Due anni fa, il progetto Beyond the Imitation Game benchmark (BIG-bench) ha unito 450 ricercatori per creare 204 compiti volti a testare i Large Language Models (LLM). Il progetto mirava a valutare i limiti e le potenzialità di queste tecnologie, mettendo in luce le cosiddette "abilità emergenti". Queste abilità, che compaiono improvvisamente all'aumentare della complessità dei modelli, stanno spingendo i ricercatori a riflettere sui potenziali impatti e sui rischi dell'intelligenza artificiale.

Uno studio di Stanford ha messo in discussione i risultati del BIG-bench, suggerendo che i balzi nelle prestazioni potrebbero derivare dalle metodologie di valutazione usate, che non considerano punteggi intermedi. Questo ha portato a un dibattito sulla vera natura delle "abilità emergenti" e sulle metriche più adatte per misurare i progressi in questo campo.

La questione solleva importanti interrogativi filosofici sulla natura dell'intelligenza e della coscienza. Il dibattito si estende oltre la tecnologia per toccare aspetti fondamentali dell'esistenza e del comportamento complesso, riflettendo su come sistemi semplici possano manifestare proprietà inaspettatamente complesse.

Inviaci un SMS gratuito! Feedback, richieste di approfondimento... (non abbiamo la possibilità di rispondere: se desideri essere ricontattato, lascia i tuoi dettagli - telefono o email)

Support the show

❤️ Ti piace il nostro lavoro? Lascia un like e abbonati al nostro canale YouTube, questo ci aiuta tanto!
https://www.youtube.com/@DisruptiveTalksPodcast

✉️ Tutto il nostro contenuto in versione scritta (e senza l'accento francese) nella newsletter gratuita: https://disruptivetalks.substack.com/

► Sito ufficiale: https://disruptivetalks.it/
► Rimane in contatto diretto con noi su Telegram: https://t.me/DisruptiveTalksPodcast
► Seguici sul nostro canale Twitch: https://www.twitch.tv/disruptivetalks
► Sul nostro canale TikTok: https://www.tiktok.com/@disruptive.talks

❤️ Supporta il nostro canale e il nostro lavoro (che svolgiamo come una passione sul nostro tempo libero): https://www.buzzsprout.com/2242815/supporters/new
🟠 Hugh virtuali? Sats nel wallet!
► indirizzo BTC: 13K6fH34K4Qp11WFywYFh8nzYJXB3g9cPa

Cerchiamo COMMUNITY MANAGER / CO-HOST / VIDEO MONTATORE / COPYWRITER: kevin@disruptivetalks.it o https://disruptivetalks.it/contac

Mark as Played
Transcript

Episode Transcript

Available transcripts are automatically generated. Complete accuracy is not guaranteed.
Speaker 1 (00:07):
Ciao e benvenuto nella versione podcast del
Disruptive Talks.
Adesso vai a sentire unepisodio che abbiamo registrato
lunedì sera, dove andiamo aanalizzare le emergent abilities
, questa capacità, secondo certidocumenti scientifici che ha

(00:27):
l'intelligenza artificialegenerativa, i modelli di
generativi IA, di migliorare leloro capacità in modo
inaspettato.
Lo vedrete, è moltointeressante e non riguarda solo
l'intelligenza e l'IAgenerativa, anche i benchmark.

(00:48):
Questo episodio vi consigliocomunque di vederlo in video sul
nostro canale YouTube, perchéci sono dei grafici e altri
visuali, ma comunque potraicapirlo con questo episodio La
versione podcast è semprerilavorata.
C'è un lavoro di post-production, quindi tolgo molto dei miei
errori Dai.
Ti lascio subito con questoepisodio.
Buon ascolto, ciao, ciao, ciao.

(01:09):
Lo sapete, mi piace indagare sucome funzionano le cose.
È sempre interessante di capireil dietro, under the hood,
parlando con gente che lavoranell'ambito il, come un modello
riesce ad acquisire competenze.

(01:29):
È sempre una tematicaabbastanza complessa.
Ricordatevi che una settimana emezzo fa ho fatto un focus su
la matre e abbiamo parlato deibenchmark.
Oggi andiamo a ritrovare ibenchmark.
Perché entra in gioco.
Si parla di cercare di capirecome, a quale velocità i modelli
imparano abilità inaspettate.

(01:51):
Per capire questo, iniziamo dafermarci su un paper che è
uscito in 2022, che fa un po'riferenza nell'ambito game o big
bench e ha raggiunto 444ricercatori di 132 istituzioni
proprio per cercare di valutaree trovare un benchmark

(02:11):
efficiente.
Sono partito del constato che viho raccontato una settimana fa,
ovvero il benchmark attuale nonriflettano bene lo stato
dell'arte dei modelli.
Vi leggo piuttostol'introduzione del paper
velocemente.
Quindi i modelli linguisticidimostrano sia un miglioramento
quantitativo che nuova capacitàqualitative all'aumentare della
scala.

(02:31):
Quindi vi tradusco in parolepovere più diamo parametri dati
per addestrare il modello, piùil modello sembra bravo, ma in
più il paper indica che nelprocesso imparano anche nuove
capacità.
Nonostante il loro potenzialeimpatto trasformativo a questi
modelli, queste nuove capacitàsono ancora poco caratterizzate.

(02:54):
Per informare la ricerca futura, prepararsi a nuove capacità
dirompenti dei modelli emitigare gli effetti socialmente
dannosi, è fondamentalecomprendere le capacità e i
limiti presenti e dei prossimifuturo dei modelli linguistici.
Gli argomenti di età scattingonoi problemi di linguistica,
sviluppo infantile, matematica,ragionamento di buonsenso,

(03:15):
biologia, fisica, anchepregiudizie sociali, sviluppo
software e anche altre.
Quindi cosa dice questo paper?
Vi consiglio di andare aleggerlo nella newsletter.

(03:41):
Aggiungerò il link verso questopaper.
Qui, sulla prima parte, vediamosullo schermo Cloud Word, più
la parola è grandelio lametodologia di questo benchmark.
Quindi qui vediamo, come vidicevo, la limitazione dei
benchmark attuali, la cosa chevi raccontavo una settimana fa,

(04:04):
una versione light, proprioperché queste benchmark anche
richiedono molto sforzocomputazionale.
Quindi hanno fatto queste dueversioni di benchmark per poter
eseguire delle benchmark in modoun po' più efficiente.
Interessante anche sullametodologia quindi 80% di JSON
file e 20% di Python, allora lìJSON file, javascript Object

(04:27):
Notation.
La differenza è chiave percercare di capire come imparano
questi modelli, perché con taskJSON sono dei file in cui
andiamo proprio a mettere leregole, quindi l'obiettivo,
l'input e il target, e lasciamola macchina ad estrarci con
questo, mentre con Python, lefile Python, possiamo creare

(04:50):
delle logiche molto piùcomplesse.
Il problema è che più il test èfatto in Python, più richiederà
sforzo computazionale.
Qui c'è un trade-off fattoproprio per cercare di capire
come meglio valutare queglimodelli.
Qui vediamo proprio secondo iltipo di task, quindi JSON task,
i risultati secondo i modelli.
Qui vediamo proprio secondo iltipo di task, quindi JSON task,

(05:10):
ben maci, i risultati secondo imodelli e dopo vediamo i
risultati di questo benchmarkche ha fatto referenza al
momento quando è uscito, ed irisultati ancora.
Questa analisi ve la mettosulla newsletter.
Se andiamo a vedere i risultati, cosa dice questo paper?
Semplicemente, questo paper hadimostrato che nella maggior
parte dei compiti.

(05:31):
Le prestazioni migliorano inmodo prevedibile e regolare man
mano che i modelli aumentano indimensione.
Questo lo diciamo sempre.
Il punto importante è che concerti compiti il salto di
abilità non è graduale.
Le prestazioni rimanevanovicine allo zero e poi a un
momento c'è una sorta di balzo ealtri studi hanno confermato

(05:52):
questo punto che cerchiamo dicapire.
Perché c'è questo balzo?
perché e dove viene questobalzo?
e questo balzo?
possiamo paragonarlo a questomomento che abbiamo nella
psicologia umana.
Anche noi il nostro sapere nonè sempre incrementale.
Un momento ogni tanto dove ilsapere arriva e tutto il resto

(06:13):
arriva Questo momento A chechiamiamo in psicologia.
Qualche mesi dopo hanno cercatodi analizzare questi balsi.
Hanno chiamato queste capacitàemergent abilities e vediamo
proprio loro analisi.
Questo paper anche sarà sullanewsletter.
Vi consiglio di andare aleggerlo.
Loro dicono hanno osservato chequeste abilità non solo sono

(06:33):
sorprendenti, ma ancheimprevedibili.
Hanno definito queste abilitàcome emergenti perché emergono
dal, senza che ce lo aspettiamo.
Questa parola è stata scelta perdescrivere comportamenti
collettivi che appaiano quandoun sistema raggiunde un alto
livello di complessità e mettonoun'alerta.
Dicono che questo davvero èrischioso.

(06:55):
Ma questo è vero, è cosìpericoloso.
Infatti, ricordatevi la cosache vi ho detto due settimane fa
sui benchmark.
Perché vi dico questo?
Perché i benchmark ritornano.
Infatti, un anno dopo, altriricercatori hanno cercato di
indagare su questi balzi.

(07:15):
Questo paper si chiama OurEmergent Abilities of Large
Manual Language Model a Mirage,un trio di ricercatori di
Stanford University.
Loro ipotizzano chel'improvvisa comparsa di queste
abilità sia solo una conseguenzadel modo in cui i ricercatori
misurano le prestazioni degliLLM.

(07:35):
Sostengono che questomiglioramento appaia regolare e
prevedibile, dovuto allascarsità dei esempi di test.
E vi mostro perché subito Stole precedenti modelli di

(08:01):
benchmark, dove non c'era questocalcolo incrementale dello
sforzo del miglioramentodell'intelligenza.
Se prendiamo questo esempio chevedete allo schermo, prendiamo
un calcolo algoritmico.
Vediamo un modello X con unnumero specifico di parametri.
Sarà molto lontano dalrisultato giusto.

(08:22):
Con un po' più di parametri,vediamo 168,.
Ci avviciniamo del risultatogiusto.
Siamo sempre falso.
Ok, il benchmark non riesceneanche a valutare la
progressione, ma valuta solo ilfatto che la risposta sia giusta
o falsa.
Sia giusta o falsa.

(08:46):
Li vi mostro subito unaversione con un benchmark che va
a calcolare anche la proiezione.
E quindi questi ricercatoridicono questo Il autore senior e
i suoi collaboratori hannotestato lo stesso compito
utilizzando una metrica cheassegna proprio il punteggio
parziale e facendo ciò si sonoreso conto quindi che i modelli
non hanno questi balsi.
Questa ricerca ha chiaramenteaperto il dialogo, che tende

(09:07):
anche ogni tanto ad andare sulfilosofico.
Lì vi mostro una risposta diAlex Tachim, che lavora per
Anthropic, e lui ha risposto chesì, sì, questo paper dà spunti
di riflessione moltointeressante e non possiamo dire
che tutti questi salti sono unmiraggio.
C'è anche qualcuno vi ritrovoil nome, jason Wei, scienziato

(09:33):
informatico preso OpenAI, cheaveva nel passato anche
compilato qualche i renchi delQPI per Big Bench.
Lui, la sua risposta mi fapiacere, è abb, abbastanza funny
.
Lui dice comunque in aritmetica, solo una risposta è buona, la
risposta giusta.
Quindi il balzo c'è.
Vi lascio, giudico di questacosa.
Su queste ultime parole sichiude questa pillola.

(09:56):
Ti ricordo che hai sentito unaversione audio.
Noi siamo in live una o duevolte a settimana sul canale
YouTube.
Durante queste live puoiinteragire, scrivere i tuoi
commenti.
Cerco proprio di arrivare a unpunto in cui ci sarà una
interazione totale con degliinvitati ogni volta e anche

(10:17):
degli invitati imprevisti.
Se vuoi prendere la parola,venire sul live sarà l'obiettivo
.
Ti ricordo i due streamtecnologie una volta a settimana
e esetetica una volta ogni dueo tre settimane.
Quindi l'esetetica è sviluppareil nostro spirito critico con

(10:38):
tecniche filosofiche escientifiche.
Spero che apprezzi il contenutoche stiamo creando.
Iniziamo appena, quindi abbiamomolto ascoltatori, anche gente
che ci guardano, ma ancora unpo' poco interazione.
Non esitare a parlare di noi seti piace, lasciare un commento

(11:01):
ogni tanto, dare un feedback ochiedermi delle cose.
Vi ascolto e farò sempre delmio meglio per uno migliorare e
portare contenuto che miinteressa a me primo e che mi
interessa a voi condividere lediverse scoperte.
E ecco, lasciate un like, uncommento.

(11:24):
È la più grande cosa che potetefare dai.
A presto ci ritroviamo giovedì,giovedì 9, per l'asetetica e
altrimenti la settimana prossimaparleremo dello spazio, dello
space market e del blob, unorganismo unicellulare che è una

(11:46):
vera enigma della scienza, cioènon ha il cervello, ma impara,
impara processi.
È molto, molto interessante.
Gli scientifici sono aanalizzare questo per cercare di
capire il processo diimparamento dai.
Un abbraccio ciao, ciao, ciao.
Advertise With Us

Popular Podcasts

Dateline NBC

Dateline NBC

Current and classic episodes, featuring compelling true-crime mysteries, powerful documentaries and in-depth investigations. Follow now to get the latest episodes of Dateline NBC completely free, or subscribe to Dateline Premium for ad-free listening and exclusive bonus content: DatelinePremium.com

24/7 News: The Latest

24/7 News: The Latest

The latest news in 4 minutes updated every hour, every day.

Therapy Gecko

Therapy Gecko

An unlicensed lizard psychologist travels the universe talking to strangers about absolutely nothing. TO CALL THE GECKO: follow me on https://www.twitch.tv/lyleforever to get a notification for when I am taking calls. I am usually live Mondays, Wednesdays, and Fridays but lately a lot of other times too. I am a gecko.

Music, radio and podcasts, all free. Listen online or download the iHeart App.

Connect

© 2025 iHeartMedia, Inc.