Episode Transcript
Available transcripts are automatically generated. Complete accuracy is not guaranteed.
Speaker 1 (00:07):
Ciao e benvenuto
nella versione podcast del
Disruptive Talks.
Adesso vai a sentire unepisodio che abbiamo registrato
lunedì sera, dove andiamo aanalizzare le emergent abilities
, questa capacità, secondo certidocumenti scientifici che ha
(00:27):
l'intelligenza artificialegenerativa, i modelli di
generativi IA, di migliorare leloro capacità in modo
inaspettato.
Lo vedrete, è moltointeressante e non riguarda solo
l'intelligenza e l'IAgenerativa, anche i benchmark.
(00:48):
Questo episodio vi consigliocomunque di vederlo in video sul
nostro canale YouTube, perchéci sono dei grafici e altri
visuali, ma comunque potraicapirlo con questo episodio La
versione podcast è semprerilavorata.
C'è un lavoro di post-production, quindi tolgo molto dei miei
errori Dai.
Ti lascio subito con questoepisodio.
Buon ascolto, ciao, ciao, ciao.
(01:09):
Lo sapete, mi piace indagare sucome funzionano le cose.
È sempre interessante di capireil dietro, under the hood,
parlando con gente che lavoranell'ambito il, come un modello
riesce ad acquisire competenze.
(01:29):
È sempre una tematicaabbastanza complessa.
Ricordatevi che una settimana emezzo fa ho fatto un focus su
la matre e abbiamo parlato deibenchmark.
Oggi andiamo a ritrovare ibenchmark.
Perché entra in gioco.
Si parla di cercare di capirecome, a quale velocità i modelli
imparano abilità inaspettate.
(01:51):
Per capire questo, iniziamo dafermarci su un paper che è
uscito in 2022, che fa un po'riferenza nell'ambito game o big
bench e ha raggiunto 444ricercatori di 132 istituzioni
proprio per cercare di valutaree trovare un benchmark
(02:11):
efficiente.
Sono partito del constato che viho raccontato una settimana fa,
ovvero il benchmark attuale nonriflettano bene lo stato
dell'arte dei modelli.
Vi leggo piuttostol'introduzione del paper
velocemente.
Quindi i modelli linguisticidimostrano sia un miglioramento
quantitativo che nuova capacitàqualitative all'aumentare della
scala.
(02:31):
Quindi vi tradusco in parolepovere più diamo parametri dati
per addestrare il modello, piùil modello sembra bravo, ma in
più il paper indica che nelprocesso imparano anche nuove
capacità.
Nonostante il loro potenzialeimpatto trasformativo a questi
modelli, queste nuove capacitàsono ancora poco caratterizzate.
(02:54):
Per informare la ricerca futura, prepararsi a nuove capacità
dirompenti dei modelli emitigare gli effetti socialmente
dannosi, è fondamentalecomprendere le capacità e i
limiti presenti e dei prossimifuturo dei modelli linguistici.
Gli argomenti di età scattingonoi problemi di linguistica,
sviluppo infantile, matematica,ragionamento di buonsenso,
(03:15):
biologia, fisica, anchepregiudizie sociali, sviluppo
software e anche altre.
Quindi cosa dice questo paper?
Vi consiglio di andare aleggerlo nella newsletter.
(03:41):
Aggiungerò il link verso questopaper.
Qui, sulla prima parte, vediamosullo schermo Cloud Word, più
la parola è grandelio lametodologia di questo benchmark.
Quindi qui vediamo, come vidicevo, la limitazione dei
benchmark attuali, la cosa chevi raccontavo una settimana fa,
(04:04):
una versione light, proprioperché queste benchmark anche
richiedono molto sforzocomputazionale.
Quindi hanno fatto queste dueversioni di benchmark per poter
eseguire delle benchmark in modoun po' più efficiente.
Interessante anche sullametodologia quindi 80% di JSON
file e 20% di Python, allora lìJSON file, javascript Object
(04:27):
Notation.
La differenza è chiave percercare di capire come imparano
questi modelli, perché con taskJSON sono dei file in cui
andiamo proprio a mettere leregole, quindi l'obiettivo,
l'input e il target, e lasciamola macchina ad estrarci con
questo, mentre con Python, lefile Python, possiamo creare
(04:50):
delle logiche molto piùcomplesse.
Il problema è che più il test èfatto in Python, più richiederà
sforzo computazionale.
Qui c'è un trade-off fattoproprio per cercare di capire
come meglio valutare queglimodelli.
Qui vediamo proprio secondo iltipo di task, quindi JSON task,
i risultati secondo i modelli.
Qui vediamo proprio secondo iltipo di task, quindi JSON task,
(05:10):
ben maci, i risultati secondo imodelli e dopo vediamo i
risultati di questo benchmarkche ha fatto referenza al
momento quando è uscito, ed irisultati ancora.
Questa analisi ve la mettosulla newsletter.
Se andiamo a vedere i risultati, cosa dice questo paper?
Semplicemente, questo paper hadimostrato che nella maggior
parte dei compiti.
(05:31):
Le prestazioni migliorano inmodo prevedibile e regolare man
mano che i modelli aumentano indimensione.
Questo lo diciamo sempre.
Il punto importante è che concerti compiti il salto di
abilità non è graduale.
Le prestazioni rimanevanovicine allo zero e poi a un
momento c'è una sorta di balzo ealtri studi hanno confermato
(05:52):
questo punto che cerchiamo dicapire.
Perché c'è questo balzo?
perché e dove viene questobalzo?
e questo balzo?
possiamo paragonarlo a questomomento che abbiamo nella
psicologia umana.
Anche noi il nostro sapere nonè sempre incrementale.
Un momento ogni tanto dove ilsapere arriva e tutto il resto
(06:13):
arriva Questo momento A chechiamiamo in psicologia.
Qualche mesi dopo hanno cercatodi analizzare questi balsi.
Hanno chiamato queste capacitàemergent abilities e vediamo
proprio loro analisi.
Questo paper anche sarà sullanewsletter.
Vi consiglio di andare aleggerlo.
Loro dicono hanno osservato chequeste abilità non solo sono
(06:33):
sorprendenti, ma ancheimprevedibili.
Hanno definito queste abilitàcome emergenti perché emergono
dal, senza che ce lo aspettiamo.
Questa parola è stata scelta perdescrivere comportamenti
collettivi che appaiano quandoun sistema raggiunde un alto
livello di complessità e mettonoun'alerta.
Dicono che questo davvero èrischioso.
(06:55):
Ma questo è vero, è cosìpericoloso.
Infatti, ricordatevi la cosache vi ho detto due settimane fa
sui benchmark.
Perché vi dico questo?
Perché i benchmark ritornano.
Infatti, un anno dopo, altriricercatori hanno cercato di
indagare su questi balzi.
(07:15):
Questo paper si chiama OurEmergent Abilities of Large
Manual Language Model a Mirage,un trio di ricercatori di
Stanford University.
Loro ipotizzano chel'improvvisa comparsa di queste
abilità sia solo una conseguenzadel modo in cui i ricercatori
misurano le prestazioni degliLLM.
(07:35):
Sostengono che questomiglioramento appaia regolare e
prevedibile, dovuto allascarsità dei esempi di test.
E vi mostro perché subito Stole precedenti modelli di
(08:01):
benchmark, dove non c'era questocalcolo incrementale dello
sforzo del miglioramentodell'intelligenza.
Se prendiamo questo esempio chevedete allo schermo, prendiamo
un calcolo algoritmico.
Vediamo un modello X con unnumero specifico di parametri.
Sarà molto lontano dalrisultato giusto.
(08:22):
Con un po' più di parametri,vediamo 168,.
Ci avviciniamo del risultatogiusto.
Siamo sempre falso.
Ok, il benchmark non riesceneanche a valutare la
progressione, ma valuta solo ilfatto che la risposta sia giusta
o falsa.
Sia giusta o falsa.
(08:46):
Li vi mostro subito unaversione con un benchmark che va
a calcolare anche la proiezione.
E quindi questi ricercatoridicono questo Il autore senior e
i suoi collaboratori hannotestato lo stesso compito
utilizzando una metrica cheassegna proprio il punteggio
parziale e facendo ciò si sonoreso conto quindi che i modelli
non hanno questi balsi.
Questa ricerca ha chiaramenteaperto il dialogo, che tende
(09:07):
anche ogni tanto ad andare sulfilosofico.
Lì vi mostro una risposta diAlex Tachim, che lavora per
Anthropic, e lui ha risposto chesì, sì, questo paper dà spunti
di riflessione moltointeressante e non possiamo dire
che tutti questi salti sono unmiraggio.
C'è anche qualcuno vi ritrovoil nome, jason Wei, scienziato
(09:33):
informatico preso OpenAI, cheaveva nel passato anche
compilato qualche i renchi delQPI per Big Bench.
Lui, la sua risposta mi fapiacere, è abb, abbastanza funny
.
Lui dice comunque in aritmetica, solo una risposta è buona, la
risposta giusta.
Quindi il balzo c'è.
Vi lascio, giudico di questacosa.
Su queste ultime parole sichiude questa pillola.
(09:56):
Ti ricordo che hai sentito unaversione audio.
Noi siamo in live una o duevolte a settimana sul canale
YouTube.
Durante queste live puoiinteragire, scrivere i tuoi
commenti.
Cerco proprio di arrivare a unpunto in cui ci sarà una
interazione totale con degliinvitati ogni volta e anche
(10:17):
degli invitati imprevisti.
Se vuoi prendere la parola,venire sul live sarà l'obiettivo
.
Ti ricordo i due streamtecnologie una volta a settimana
e esetetica una volta ogni dueo tre settimane.
Quindi l'esetetica è sviluppareil nostro spirito critico con
(10:38):
tecniche filosofiche escientifiche.
Spero che apprezzi il contenutoche stiamo creando.
Iniziamo appena, quindi abbiamomolto ascoltatori, anche gente
che ci guardano, ma ancora unpo' poco interazione.
Non esitare a parlare di noi seti piace, lasciare un commento
(11:01):
ogni tanto, dare un feedback ochiedermi delle cose.
Vi ascolto e farò sempre delmio meglio per uno migliorare e
portare contenuto che miinteressa a me primo e che mi
interessa a voi condividere lediverse scoperte.
E ecco, lasciate un like, uncommento.
(11:24):
È la più grande cosa che potetefare dai.
A presto ci ritroviamo giovedì,giovedì 9, per l'asetetica e
altrimenti la settimana prossimaparleremo dello spazio, dello
space market e del blob, unorganismo unicellulare che è una
(11:46):
vera enigma della scienza, cioènon ha il cervello, ma impara,
impara processi.
È molto, molto interessante.
Gli scientifici sono aanalizzare questo per cercare di
capire il processo diimparamento dai.
Un abbraccio ciao, ciao, ciao.