Interfono sul prodotto: come ChatGPT ha cambiato tutto
Pubblicato: 2022-12-10Forse ti piacciono davvero le reti neurali profonde e l'elaborazione del linguaggio naturale, forse sei solo un appassionato di tecnologia: è probabile che ti sia già imbattuto in ChatGPT, il nuovissimo chatbot di OpenAI. L'hype sta aumentando, ma la domanda rimane: è davvero un punto di svolta o è troppo presto per dirlo?
In un recente episodio, il nostro direttore dell'apprendimento automatico, Fergal Reid, ha fatto luce sulle ultime scoperte nella tecnologia delle reti neurali. Abbiamo parlato di DALL-E, GPT-3 e se l'hype che circonda l'IA è proprio questo o se c'era qualcosa. Ci ha detto che le cose stavano iniziando a ridimensionarsi. E proprio così, ci siamo di nuovo.
ChatGPT, il prototipo di chatbot di intelligenza artificiale di OpenAI, è stato lanciato la scorsa settimana e ha fatto il giro delle sale di Internet, ispirando reazioni stupite da irriducibili tecno-positivisti a perpetui scettici tecnologici. Il bot è alimentato da GPT-3.5, un'intelligenza artificiale che genera testo e, secondo OpenAI, può generare testo in un formato di dialogo, che "rende possibile rispondere a domande di follow-up, ammettere i propri errori, contestare premesse errate e respingere le richieste inappropriate.”
Sebbene sia ancora presto per vederlo applicato agli usi del mondo reale, è indubbiamente molto promettente. In effetti, per Fergal Reid, il cambiamento di capacità che abbiamo visto nell'ultimo anno suggerisce che questo spazio potrebbe essere "grande quanto Internet". Ed è per questo che abbiamo deciso di portarvi un episodio speciale su questi ultimi sviluppi nel mondo dell'IA, cosa significano e se è il momento di applicarli in scenari di vita reale come l'assistenza clienti.
Ecco alcuni dei nostri takeaway preferiti dalla conversazione:
- Aumentando la scala e addestrando questi modelli con sempre più dati, questi robot hanno iniziato a mostrare cambiamenti qualitativi come l'apprendimento di concetti astratti senza l'apprendimento supervisionato.
- Al momento, ChatGPT offre le migliori prestazioni su problemi in cui è facile convalidare la risposta o contesti creativi in cui non esiste una risposta corretta.
- Mentre stiamo vedendo capacità di ragionamento notevolmente migliori da questi modelli, hanno ancora problemi con le allucinazioni: se non sanno qualcosa, lo inventano.
- Se si sollecitano questi modelli con il prompt "pensiamo passo dopo passo", i tassi di accuratezza aumentano e si ottengono input migliori rispetto al semplice fatto di avere immediatamente la risposta.
- Le nostre interfacce tecnologiche stanno gradualmente diventando più conversazionali e stiamo appena iniziando a vedere la qualità della comprensione del linguaggio naturale diventare abbastanza buona da sbloccarle.
- Ci sono molte entusiasmanti applicazioni di questa tecnologia a supporto come l'aumento dell'agente, ma c'è del lavoro da fare prima che possa essere implementato.
Se ti piace la nostra discussione, dai un'occhiata ad altri episodi del nostro podcast. Puoi seguire su iTunes, Spotify, YouTube o prendere il feed RSS nel tuo lettore preferito. Quella che segue è una trascrizione leggermente modificata dell'episodio.
Il grande debutto di ChatGPT
Des Traynor: Ehi, Fergal.
Fergal Reid: Salve, ragazzi. Come va? Grazie per avermi riaccompagnato.
Des Traynor: Bene. È bello riaverti. Ti abbiamo avuto solo cinque settimane fa sul podcast per parlare di cose che stavano accadendo con l'IA. E sei tornato di nuovo perché sono successe altre cose.
Fergal Reid: Sono state cinque settimane intense.
Des Traynor: Sono state cinque settimane intense e sette giorni intensi. Sette giorni fa era mercoledì 30 novembre e ho ricevuto un'e-mail con un invito a una beta aperta per una cosa chiamata ChatGPT. Quello che è successo?
"È diventato virale, si è scatenato e tutti si sono davvero emozionati"
Fergal Reid: Cos'è successo? Quindi, è una domanda interessante. OpenAI ha rilasciato il suo sistema di apprendimento automatico più recente, il sistema AI, e lo ha rilasciato molto pubblicamente, ed era ChatGPT. Ed è abbastanza simile alla loro offerta attuale, GPT-3, GPT-3.5, ma era confezionato in modo diverso, non era necessario inserire una carta di credito e penso che tutti abbiano appena visto che "Wow, c'è stato un enorme cambiamento di capacità qui di recente. Ed è diventato virale, si è scatenato e tutti si sono davvero entusiasti. E più o meno nello stesso periodo, hanno rilasciato il loro modello GPT-3.5 più recente, come davinci-003, che fa molte delle stesse cose, ed è forse leggermente meno bravo a dire: "Ehi, sono un grande modello di linguaggio e non posso farlo per te. Ma è simile in termini di capacità.
Des Traynor: Facciamo alcune definizioni rapide per radicare tutti. OpenAI è ovviamente l'istituzione che sta facendo molto lavoro su AI e ML. Hai detto GPT: cosa significa?
Fergal Reid: In realtà non ricordo. Trasformatore per uso generico o qualcosa del genere [Trasformatore generativo pre-addestrato].
Des Traynor: Ma quel nome significa qualcosa?
Fergal Reid: Sì, penso che il pezzo chiave sia il trasformatore. Per molto tempo, le persone hanno cercato di capire: "Ehi, qual è il modo migliore per addestrare reti neurali che si occupano di attività di elaborazione del testo e del linguaggio naturale?" Ed è passato molto tempo, c'erano questi LSTM [memoria lunga a breve termine] che combinavano la struttura a breve termine del tuo testo con la struttura a lungo termine della tua frase e modelli di sequenza, e tutti stavano lavorando su quelli .
“Man mano che spingi sempre più dati sull'allenamento, sembrano mostrare cambiamenti qualitativi in termini di ciò che possono fare. Quindi, è come, 'Ehi, questo sembra in qualche modo capirlo' "
E poi, Google ha pubblicato un documento piuttosto rivoluzionario, "Attention Is All You Need", con una tesi piuttosto ampia: "Ehi, invece di questi tradizionali modelli di sequenza, ecco un nuovo modo di farlo, un nuovo modello", che chiamano il modello del trasformatore o l'architettura del trasformatore. Quando guardi una parola specifica, il modello imparerà altre parti della frase che dovresti guardare insieme a quella parola. Puoi apprendere le cose in modo un po' più efficiente rispetto ai modelli di sequenza e puoi addestrarlo più velocemente, in modo più efficiente e ridimensionarlo ulteriormente.
Quindi, tutti hanno iniziato a utilizzare i trasformatori per tutti i tipi di dati di sequenza. E poi, una cosa a cui OpenAI ha davvero contribuito è stata l'idea che puoi prendere queste architetture di trasformatori e aumentare davvero la scala. Puoi aggiungere molti più dati di addestramento e molto più calcolo. E forse molto sorprendentemente, e penso davvero che questa sia la cosa fondamentale, man mano che spingi sempre più dati sull'allenamento, sembrano mostrare cambiamenti qualitativi in termini di ciò che possono fare. Quindi, è come, "Ehi, questo sembra capirlo." Oppure posso dire "rendilo più felice" o "rendilo più triste", che è un concetto molto astratto. Dove l'ha imparato? Non gli abbiamo dato questo apprendimento supervisionato in cui codifichi una definizione di tristezza o felicità. Ha appena iniziato a imparare questi concetti astratti e queste astrazioni da masse di dati di addestramento.
Fondamentalmente, OpenAI e alcuni altri hanno appena spinto quel pezzo di ridimensionamento sempre di più. Ci sono anche altre cose. Con GPT-3.5, lo addestrano in modo leggermente diverso per provare ad allinearlo di più. Ma fondamentalmente, la cosa importante qui è un sacco di scala, molti dati di addestramento e, in realtà, una specie di modelli semplici. Puoi fare cose straordinarie che 20 anni fa la gente avrebbe detto: “Beh, un computer non lo farà mai; non sarà mai in grado di scrivermi una canzone ", e ora è come," Che tipo di canzone ti piacerebbe? "Rendi il suono più felice." Quindi, sì, è un momento straordinario perché molte cose che pensavamo fossero dominio solo dell'intelligenza umana hanno solo bisogno di tonnellate di dati di addestramento e un grande modello.
ChatGPT può essere creativo?
Des: E poi, quello che è successo da mercoledì scorso è stato che Twitter – e poi sette giorni dopo, Internet in generale o i media – se ne sono accorti. Ho visto tutti i tipi di usi francamente eccezionali in termini di non riuscivo proprio a immaginare che fosse possibile. Ho visto "scrivimi le istruzioni per copiare un DVD nello stile di una canzone di Taylor Swift in cui è arrabbiata perché ha rotto con il suo ragazzo" o qualcosa del genere. Ma in realtà ci sta provando. E poi, ho visto altri come "come si installa Intercom su iOS" e anche questo è relativamente corretto. E tutto il resto. E la cosa folle che ho visto è che, per ognuna di queste cose, puoi tornare indietro e dire: "Ora, dammelo nello stile di un gangster degli anni '40 e dillo in tedesco" e "Ora traduci il tedesco in spagnolo , ma aggiungi anche più rabbia "o qualsiasi altra cosa. E fa tutte queste cose immediatamente, praticamente con un ritardo di zero secondi, e in tutti i casi puoi vedere cosa sta succedendo.
Un esempio personale che uso è quando stai cercando di raccontare a tuo figlio una storia prima di andare a dormire, puoi rimanere senza angoli. Ci sono solo tanti modi diversi in cui, ad esempio, tre draghi potrebbero entrare in una foresta e perdersi. Tuttavia, GPT-3 è davvero fantastico per darmi altre 10 storie. Quello che ho notato è che, per molto tempo, con la storia dell'IA, anche di recente come anni fa, la gente diceva: "È fantastico per cose specifiche, ma non c'è modo che possa affrontare la creatività". È giusto dire che sembra di essere davvero nel mondo inverso qui?
Fergale: Sì. Voglio dire, quando le persone parlano di AI, è sempre "beh, le prime cose che farà sono quelle attività manuali e meccaniche". E poi gli umani avranno tutto questo tempo per andare a fare queste cose altamente creative...
Des: Vai in una foresta e-
Fergal: Fai sempre arte, bella poesia. E poi, è come, “Oh, wow. Quelle attività manuali richiedono una visione davvero dura e l'elaborazione delle cose da risolvere. Ma creatività, dove non c'è risposta sbagliata, e non c'è penalità per chi sbaglia... Sì, la poesia non è del tutto perfetta, ma va bene, e l'immagine renderizzata di DALL·E 2 potrebbe non essere esattamente ciò che avevi in mente, ma è comunque una bella immagine e puoi sceglierne 1 su 10, quella roba funziona.
“Questa cosa sembra essere molto brava in quel tipo di pezzo intuitivo, ed è molto brava a ingannare il nostro pezzo intuitivo. Quindi, quando lo guardi a colpo d'occhio, sembra corretto "
Des: E puoi anche vedere cosa sta succedendo. Penso che una cosa che la gente non capisce è che ti sta restituendo ciò che probabilmente avevi in testa perché lo vedrai comunque. Quando dico: "Dammi le istruzioni per aprire un conto in banca nello stile di una canzone dei Rage Against the Machine", vedo: "Sì, lotteremo per aprire il conto e faremo infuriare tutti notte." E posso vedere cosa sta facendo. Non sto nemmeno applicando una scala di precisione lì, sono solo tipo "Ah, ci hai provato" e gli stai dando credito per questo.
Fergal: Sì, penso che probabilmente sia vero. Fino a che punto siamo bravi a giudicare i quasi incidenti in termini di informazioni non fattuali? Forse non siamo così bravi a farlo. Forse non ci interessa molto. E voglio dire, dovremo entrare in questo problema di fattualità, ma anche quando gli fai una domanda fattuale ... Diciamo che gli fai una domanda all'assistenza clienti. Di recente ne ho chiesto uno sull'autenticazione a due fattori: "Come si ripristina l'autenticazione a due fattori dell'interfono?" E la risposta che ho ricevuto è stata: "Wow, è un'ottima risposta". E lo guardo e "aspetta, non è così che resetti il tuo 2FA". Ed è un bellissimo URL, contiene il riferimento al nostro articolo del Centro assistenza e anche questo è stato inventato.
"Penso che la maggior parte delle persone, noi compresi, che hanno la testa sbalordita, siano sbalorditi dall'idea di plausibile a prima vista"
La gente parla di esseri umani e di cervelli umani, e abbiamo questa parte intuitiva che è davvero brava a riconoscere i modelli, e poi abbiamo la parte logica, analitica, di ragionamento che è più lenta e precisa. Questa cosa sembra essere molto brava in quel tipo di pezzo intuitivo, ed è molto brava a ingannare il nostro pezzo intuitivo. Quindi, quando lo guardi a colpo d'occhio, sembra corretto e finché non applichi davvero il tuo ragionamento sistemico più lento, può essere difficile vederlo. E penso che quel pezzo intuitivo, quella speculazione, sia probabilmente ciò su cui ci affidiamo di più per giudicare gli sforzi creativi, l'arte, le immagini e i sonetti. Almeno inizialmente. E quindi, è molto bravo a generare cose che sono plausibili a prima vista, ma poi forse, quando ti prendi davvero del tempo per pensarci, tu-
Des: Vedi i problemi. Ed essere plausibili a prima vista è davvero importante perché penso che la maggior parte delle persone, noi compresi, che hanno la testa sconvolta, siano sconvolti dall'idea di plausibile a prima vista. Gli stai dando molto credito per questo nonostante il fatto che potrebbe non avere molta applicabilità nel mondo reale. Non appenderete mai quel dipinto in un museo, e non leggerete mai quel sonetto, e non vincerete mai un premio per quel romanzo.
Vedo molte persone come i content marketer dire cose del tipo: "Questo cambierà il mio lavoro per sempre". E io sono tipo “Sì, ma forse non nel modo in cui pensi. Se pensi che il tuo lavoro sarà semplicemente digitare prompt e premere tab, è possibile che il tuo lavoro non esista. Allo stesso modo, vedo manager su Twitter che dicono: "Oh, questo renderà la stagione delle revisioni delle prestazioni molto più semplice". In tutti questi casi, sono come-
Fergal: C'è qualcosa di sbagliato in questo.
"È possibile che il grande contributo che questa tecnologia apporta all'umanità sia una conversazione onesta sulla quantità di lavoro che possiamo eliminare"
Des: Esatto. State tutti dicendo la parte tranquilla ad alta voce qui, se il vostro lavoro prevede davvero che scrivete BS spurie che potrebbero essere...
Fergal: Perché lo stai facendo in primo luogo?
Des: Che stai facendo? Esattamente. Capisco che nel caso, ad esempio, del content marketing, potrebbero esserci ragioni per cui devi solo classificare determinate parole, ma non confonderlo con l'abilità di scrivere effettivamente.
Fergal: Voglio dire, è possibile che sia una buona cosa. È possibile che lavori di merda, cose che la persona ritiene non abbiano alcun valore, come queste revisioni delle prestazioni, possano semplicemente consegnarle a GPT. E poi, dopo un po', tutti si rendono conto che è quello che sta succedendo, e la persona dall'altra parte dice: "Bene, lo consegnerò al GPT per analizzarlo". E forse allora possiamo avere una conversazione onesta su qual è il kernel davvero prezioso e su come eliminare il lavoro.
Des: Perché stiamo facendo tutte queste stronzate performative?
Fergal: Sì, è possibile che il grande contributo che questa tecnologia dà all'umanità sia una conversazione onesta sulla quantità di lavoro che possiamo eliminare. E potrebbe essere fantastico. Ciò potrebbe trasformarsi in maniera massiccia.
Il problema con le allucinazioni dei chatbot
Des: Parlando di applicazioni reali, qualcosa che ho in mente, almeno la mia esperienza diretta, e anche quello che hai detto sul caso d'uso 2FA, è che non puoi distribuirlo direttamente oggi in molte aree in cui c'è un definitivo risposta giusta, soprattutto se il rischio di dare la risposta sbagliata è piuttosto alto. Quindi non vuoi che questa cosa consumi cartelle cliniche e sputa diagnosi perché posso garantirti che la diagnosi sarà davvero ben scritta, suona davvero credibile per un profano e potrebbe avere una bassa probabilità di accuratezza. Non conosciamo la probabilità di accuratezza, ma varierà in base agli input.
Fergal: Mi spaventerebbe sicuramente molto se qualcuno venisse da me e dicesse: “Ehi, Fergal, vogliamo che il tuo team inizi a usarlo per le diagnosi mediche. Sarebbe fantastico." Sarebbe estremamente spaventoso.
"Una cosa è che questa tecnologia ha assolutamente problemi con ciò che molte persone chiamano allucinazioni, dove se non sa qualcosa, lo inventa e basta"
Des: Ma ci sono altri casi d'uso forse meno gravi, ma ugualmente imprecisi, in cui potresti usarlo per diagnosticare una conclusione in un caso legale. Ancora una volta, sono sicuro che suonerebbe bene e lo avvolgerebbe in tutto il linguaggio standard giusto, ma alla fine non saprebbe ancora cosa sta dicendo. Gli ho chiesto di darmi idee su come costruire un moderno client di posta elettronica per competere e vincere nello spazio della produttività. E si legge davvero bene, ma è solo quando lo gratti che ti rendi conto che in realtà non c'è niente lì. È solo una parola dal suono piacevole dopo una parola dal suono piacevole senza opinioni particolarmente taglienti. Questo, per me, mi fa riflettere sui modi in cui potremmo renderlo più applicabile.
Fergal: Prima di entrare in questo, ci sono due cose che penso sia utile prendere in giro qui. Una cosa è che questa tecnologia ha assolutamente problemi con ciò che molte persone chiamano allucinazioni, dove se non sa qualcosa, lo inventa. È pernicioso e ci sono molti domini in cui una probabilità dell'1% di allucinazioni è un rompicapo. E ci piacerebbe tutti se quella probabilità fosse zero. Ma allo stesso tempo, la precisione è aumentata rispetto a dove era lo stato dell'arte un anno fa, rispetto a dove era tre anni fa. È assolutamente migliore anche nel darti la risposta giusta la maggior parte delle volte. È notevolmente migliore nel "capire". Faccio fatica a dire: "Oh, sta solo riconoscendo schemi, non capisce niente", o almeno, faccio fatica a dirlo senza "Cosa intendi per comprensione?"
Siamo decisamente su una traiettoria in cui, mentre inventerà ancora le cose, e questo è un grosso problema, sta migliorando sempre di più nel darti la risposta giusta quando ha la risposta giusta. E quindi, che aspetto ha quella curva? È difficile disimballare al momento, ma stiamo ottenendo modelli notevolmente migliori che sono molto più bravi a fare la cosa giusta mentre a volte fanno ancora la cosa catastroficamente sbagliata. Dovremmo prestare attenzione a entrambe queste cose. Sì, al momento è molto difficile da implementare in molte impostazioni di produzione, almeno senza un po 'di annebbiamento o alcune offerte intorno ad esso, ma sta anche migliorando molto. Se gli chiedi qualcosa che è davvero ben trattato su Wikipedia, sta migliorando.
Un ultimo esempio di ciò è la programmazione per computer. Puoi chiedergli una sfida di programmazione che non ha visto, e se gli chiedi di generare un intero modulo o sistema, fa fatica, hai un punto di rottura. Ma se gli chiedi di scrivere una funzione, anche una nuova, inventata, fuori campione, potrebbe darti la risposta sbagliata, ma le possibilità che ti dia qualcosa di utile sono aumentate.
Des: Dicevi prima, in pratica supera la prima fase della nostra intervista di programmazione, una sorta di domanda basata sull'array. Lo inchioda e basta.
"Tutti iniziano a parlare di come la grammatica del cane non sia molto buona, e questo è molto importante, ma non perdere di vista il fatto che il cane sta parlando"
Fergale: Sì. Esattamente. Abbiamo una sfida di programmazione per la risoluzione dei problemi per gli ingegneri che vengono a Intercom. Ho dovuto sedermeli io stesso alcuni anni fa e ci sforziamo molto per assicurarci che non sia disponibile su Internet. E se lo è, proviamo a ripeterlo e cambiarlo. E non siamo al passo con i tempi, quindi non posso garantire che non sia là fuori. Ma questa cosa ha generato una soluzione che l'ha appena inchiodata, e questo è un tipo di problema "ingegnere senior alla lavagna per mezz'ora". E lo ottiene in un colpo solo, una volta sola.
Des: Zero secondi.
Fergal: Zero secondi. E questo è molto impressionante. E come metà del resto del mondo, ho anche giocato con ChatGPT o GPT-3.5 e gli ho dato molte altre domande sulla competizione di programmazione o domande sulla programmazione, che sono abbastanza sicuro siano fuori campione , e fa un ottimo lavoro. E questo è un cambiamento qualitativo nella precisione. Devi controllare il tuo codice e assicurarti che non sia sbagliato, ma è molto interessante ed eccitante.
Molto eccitante è anche l'idea che abbia capacità di introspezione almeno rudimentali. Se scrive un bug, puoi dire: “Ehi, c'è un bug. Puoi aggiustarlo?" E a volte, ti dà una bella spiegazione di ciò. E tutti questi modelli sono addestrati a fare è la previsione dei token; prevedere le prossime parole. Almeno tradizionalmente, perché immagino sia cambiato un po' nell'ultimo anno, ma il grosso dell'allenamento è solo quello di prevedere il token successivo, prevedere la parola successiva. E qui sta accadendo qualcosa di straordinario: semplicemente facendolo su larga scala, arrivi a un certo livello di comprensione.
Non voglio che si perda nella discussione più ampia sull'allucinazione, che è reale, e la gente forse non ci ha prestato abbastanza attenzione la scorsa settimana. Ma c'è questa metafora, e non ricordo chi l'ha inventata, di un cane parlante, e qualcuno ti dice che vuole che tu vada a conoscere il suo nuovo cane parlante, e tu dici: “I cani non possono parlare. " Ma arrivi al cane e il cane ha una conversazione con te. Tutti iniziano a parlare di come la grammatica del cane non sia molto buona, e questo è molto importante, ma non perdere di vista il fatto che il cane sta parlando. La cosa delle allucinazioni per me è quella. Sembra un grande cambiamento, forse non uno che possiamo mettere in produzione, ma chissà dove sarà tra un anno, due o tre anni.
“È come la cosa dell'auto a guida autonoma, giusto? Devi essere pronto a prendere il sopravvento in qualsiasi momento"
Des: Sì, la cosa dell'allucinazione, per me, non la rende affatto inutile. E siamo pessimisti e diciamo che data una descrizione di cinque paragrafi di un paziente, può darti immediatamente una diagnosi accurata al 70%. E nella maggior parte di queste domande diagnostiche, c'è un test rapido che può verificare se è vero o meno, come in "Sembra che tu abbia X, ecco il test rapido per X", e si scopre se era giusto o sbagliato - questo è ancora un enorme cambiamento di produttività. Se assumiamo che la cosa sia ancora imperfetta ma proviamo a trarre vantaggio dall'accuratezza del 70%, è possibile che ci siano ancora cose che può fare che saranno di enorme valore.
Fergal: Ho due pensieri su questo. Il primo pensiero è che qualcuno dovrebbe studiarlo perché è possibile che questa cosa sia negativa netta, che il nuovo sistema con l'essere umano nel giro, il medico e l'intelligenza artificiale, abbia una maggiore probabilità di un errore catastrofico perché lo stanco, oberato di lavoro il dottore a volte non fa la sua diligenza, ma davanti a loro c'è un sistema attraente ma errato. È come la cosa dell'auto a guida autonoma, giusto? Devi essere pronto a subentrare in qualsiasi momento. Potrebbero esserci aree in quel regime in cui il sistema nel suo insieme con l'umano è in realtà peggiore del semplice-
Des: Le persone possono davvero fidarsi troppo.
Fergal: Le persone possono fidarsi troppo. Come lo chiamano? Normalizzazione della devianza. Le persone studiano questo nel contesto dei disastri dei reattori nucleari e cose del genere. Che cosa è andato storto? "Oh, ci siamo abituati a questa scorciatoia, e la scorciatoia non era sempre valida", eccetera. Questa è una cosa che direi. Ma poi, il contrappunto, quando pensiamo alle cose mediche, è che una parte del mondo non ha accesso a un medico. Quindi non so dove tracciare quel confine. È un confine difficile da tracciare. Alla fine, sulla traiettoria, questa roba probabilmente migliorerà sempre di più, e abbastanza buona che, alla fine, nel suo insieme, il sistema supererà qualsiasi cosa le persone abbiano attualmente.
Addestrare i chatbot passo dopo passo
Des: Stavi dicendo che quando genera codice, puoi dire: "Ehi, questo è boogie". Un altro esempio che ho visto popolare su Twitter per un po 'è stato "Parlami del tuo pensiero riga per riga" o qualsiasi altra cosa. È quasi come se gli dicessi come pensare alle cose, o gli stai dando nuove informazioni senza costringerlo a riconsiderare la sua opinione. Cosa sta succedendo lì?
Fergal: Penso che stia accadendo qualcosa di affascinante, e qui dobbiamo parlare proprio all'avanguardia. Questa è una speculazione e io sono uno spettatore – non sto facendo questo lavoro. Penso che Google abbia pubblicato di recente un documento su come i modelli linguistici di grandi dimensioni possono auto-migliorarsi, quindi penso che ci sia qualcosa di affascinante che vale la pena disfare.
La prima cosa è che forse circa un anno fa, le persone hanno scoperto che mentre questi modelli avrebbero sbagliato molto, potresti suggerire loro con il classico "pensiamo passo dopo passo". Avresti un modello e potresti fargli una semplice domanda di matematica come "Alice e Bob hanno tre tavolette di cioccolato e ne danno tre a Eve" o qualcosa del genere. "Quanti ne sono rimasti?" Queste cose fanno fatica con la matematica di base, quindi spesso sbaglia cose del genere. Ma potresti dire qualcosa del tipo: "Pensiamo passo dopo passo", e questo lo ha costretto a produrre il suo ragionamento passo dopo passo lungo il percorso. E i tassi di precisione sono aumentati quando l'hai fatto, il che ha senso. È addestrato per completare il testo. E così, passo dopo passo, ogni passo è progettato...

Des: È quasi come se non stessi moltiplicando la probabilità di fallimento. Perché allora, se stai eseguendo ogni passaggio con una probabilità che sia corretto al 90%, e a cinque passaggi, all'improvviso, la probabilità è corretta solo al 50%.
Fergal: Forse. Voglio dire, è difficile speculare su cosa stia succedendo esattamente internamente, ma forse qualcosa del genere. Ma di recente c'è stato un articolo molto interessante in cui si diceva: "Ehi, sappiamo che possiamo migliorare l'accuratezza dicendo: 'pensiamo passo dopo passo'". dare subito la risposta. Puoi usarlo per creare un nuovo set di dati di addestramento e riaddestrare il modello per migliorarne la precisione. Questo, per me, è affascinante perché queste cose possono auto-migliorarsi, almeno in una certa misura.
“C'è un mondo molto interessante qui in cui i modelli linguistici e la PNL stanno iniziando ad assomigliare un po' di più al mondo AlphaGo. Penso che sia un momento molto eccitante ed è molto difficile dire quali siano i limiti qui"
Di recente ho visto una demo durante un evento Microsoft in cui hanno mostrato Copilot o uno di quei modelli, forse davinci, non specificato, fare qualcosa con un prompt Python in cui gli hanno dato un problema di linguaggio naturale, un po' come il nostro problema di programmazione Intercom , e poi ha chiesto al sistema di sintetizzare il codice e inserire il codice in un prompt di Python, e quando ha sbagliato, il sistema ha provato a eseguire il codice e ha visto che era sbagliato, quindi ci sono voluti un altro tentativo e un altro finché non l'ha ottenuto Giusto. C'è un mondo molto interessante qui in cui i modelli linguistici e la PNL stanno iniziando ad assomigliare un po' di più al mondo AlphaGo. Penso che sia un momento molto eccitante ed è molto difficile dire quali siano i limiti qui.
Penso che ci siano molte cose che, per molto tempo, le persone in linguistica o qualcosa del genere avrebbero detto: "Nell'intelligenza artificiale, non saremo mai in grado di rispondere a queste su un grande schema", o qualcosa del genere. Come “Il trattore è andato giù per la strada e si è trasformato in un campo. Per favore, spiega cosa è successo in quella battuta. Storicamente i computer erano pessimi in questo. "Il trattore magico è sceso lungo la strada e si è trasformato in un campo." Un leggero modificatore del genere cambia il significato. E sta diventando davvero bravo in alcuni domini. Puoi fargli domande semantiche di base o chiedergli di speculare. Fino a circa due o tre anni fa, ogni volta che vedevo un nuovo sistema di apprendimento automatico, all'inizio sembrava sempre magico e sorprendente, e ogni volta che ci entravi e sotto il cofano, eri tipo "Oh, è solo regressione logistica .” Una volta capito questo, è stato molto meno impressionante. E sto lottando per farlo qui. Forse perché è così difficile capire la complessità del modello. Ma queste cose sembrano capacità qualitativamente diverse da quelle che abbiamo avuto.
Robot AI contro Google
Des: Prima di entrare nel supporto, su cui approfondiremo, ho visto commenti che dicono che questo è un momento importante per Internet quanto Google. Ho anche visto la versione, direi, dell'acqua fredda, che è "non lasciarti ingannare, generare testi di canzoni casuali è nella migliore delle ipotesi un espediente". E ovviamente c'è uno spettro di appetito che dipende dal fatto che tu sia o meno un tecno-positivista o altro. Qual è la tua opinione su Google? È potenzialmente grande quanto Google? È una minaccia per Google? Pensieri su come potrebbe reagire Google?
Fergal: Quindi, sarò super speculativo qui, entrando nel futurismo totale e cose del genere. Sono molto fiducioso sull'intelligenza artificiale e sull'apprendimento automatico. Sento che il cambiamento di capacità che abbiamo visto nell'ultimo anno, e certamente se estrapoli un altro anno o due, è grande quanto Internet. Il potenziale. E dovremo capire come produrre queste cose. Dovrà essere fatto un sacco di lavoro su come costringerli a rispondere da una base di conoscenza e così via. Ma la somma totale delle nuove capacità che abbiamo ottenuto e che probabilmente otterremo sembra, per me, grande quanto Internet. Potrei sbagliarmi, ma è lì che vorrei...
Des: Questo è l'ordine di grandezza. Quindi, più grande di Google.
"Penso che sia un momento Sputnik - la gente lo guarderà e dirà, Wow, sta arrivando qualcosa qui"
Fergal: Sì, penso di sì. Non solo ChatGPT, uscito la scorsa settimana. Ma il progresso totale sembra che stiamo vedendo capacità di ragionamento notevolmente migliori, ragionamento elementare e ragionamento che può essere sbagliato, ma a volte abbastanza convincente. Non ci avrei creduto se mi avessi raccontato del suo successo nelle sfide di programmazione cinque anni fa. Quindi penso che ci sia qualcosa di grosso qui. C'è molta produttività che può essere sbloccata ed è molto difficile dire dove si fermerà. Inoltre, penso che ci siano cicli di feedback qui. Sento che questo è un momento Sputnik. Con ChatGPT, puoi dire "Ehi, la tecnologia non è molto migliore" o "sta diventando esagerata", ma non sottovalutare la capacità del basso attrito di poter entrare e giocare con qualcosa. Tutti possono farlo. E penso che sia un momento Sputnik: la gente lo guarderà e dirà: "Wow, sta arrivando qualcosa qui".
Des: Riferimento Sputnik qui, scusa.
Fergal: Questo era, mio Dio, negli anni Cinquanta. I russi hanno messo questo satellite nello spazio che orbita attorno alla terra e ha trasmesso segnali radio. E le persone in tutto il mondo potrebbero improvvisamente sintonizzarsi sulla loro radio e ricevere questo segnale proveniente dallo Sputnik. E questa è la narrazione generalmente raccontata in occidente. Le persone si sono improvvisamente svegliate e hanno detto: "Wow, c'è un cambiamento di capacità qui di cui non eravamo a conoscenza". E poi, presumibilmente, questo ha causato la corsa allo spazio e l'Apollo e tutta quella roba. Quindi sento che forse la reazione è ancora in corso, ma vedo così tante persone che non stavano davvero prestando attenzione a questo che improvvisamente ne sono entusiaste. Forse l'hype si placherà. Siamo nel mezzo, quindi è difficile fare previsioni. Ma se non è questo, presto lo sarà qualcos'altro.
ChatGPT può supportare l'assistenza clienti?
Des: E l'assistenza clienti? Intercom è una piattaforma di assistenza clienti e il potenziale che GPTChat, GPT-3.5 o una qualsiasi di queste tecnologie può rendere il supporto migliore, più veloce, più economico, più efficace o più end-to-end è qualcosa su cui siamo sempre presenti. So che ci hai pensato dal punto di vista del supporto. In precedenza, abbiamo parlato di come ci siano ambienti in cui una risposta errata è molto, molto negativa, e ci sono ambienti in cui è effettivamente abbastanza tollerabile. Abbiamo 25.000 clienti. Alcuni sono banche, che probabilmente non possono permettersene uno. Other people would happily afford one because it means they can support all their customers faster. What do you think about this technology as it applies to support?
“We made a conscious design decision very early on that it would never say anything that hadn't been explicitly curated by the team”
Fergal: Yeah. We try and pay a lot of attention to changes in developments in this space. We were looking at GPT-3 pretty early, and our initial thoughts were that the accuracy was not quite there yet. The hallucination problem is a big problem to just nakedly say, “Hey, it has consumed the Intercom help center. Let's ask questions about resetting my two-factor authentication.” It just failed. We've been looking at the GPT-3.5 family and some other models recently. We have resolution bots in production. It's not using language models that are as large – they're maybe medium language models, embeddings, and so on. And it gets very good accuracy at the sort of thing it does. We made a conscious design decision very early on that it would never say anything that hadn't been explicitly curated by the team. I think that worked well for a lot of businesses because it might deliver the wrong answer sometimes – we try carefully to control that – but it's always going to deliver you a relevant answer or an answer that's not going to mislead you.
Des: Yeah, and specifically, the way in which it gets it wrong is it might give you a wrong correct answer. The thing it gives you will be something that somebody in your company has said: “This is a correct, cohesive piece of text.” It just might not be the right one for the question.
Fergal: And we encourage our customers to always write the answer in such a way that, “Oh, to reset your account, do the following thing.” So if it is delivered wrongly, at least the end user is not disoriented.
Des: Yes, they don't go and do it for no reason.
Fergal: They can go like, “Oh, this is a stupid bot. It gave me the wrong answer,” as opposed to, “I am misled, and I'm now going to waste a bunch of time…” So initially, with GPT-3, we were like, “Oh, it's really cool but difficult to see the end-to-end usage of this.” It's been a couple of years, and I'm not aware of anyone who has deployed GPT-3 in a total end-to-end way to answer the customer's questions.
Des: End-to-end meaning no agent in the mix. Because the risk there is that there'll be an unknown unknown. If someone goes to your business and asks a question that you didn't see because GPT dealt with it, gave it the wrong answer, and the customer goes off and does the wrong thing, no one actually knows what's happened except for the bot. And the bot doesn't even know it's wrong because it doesn't know if it's spoofing or not. So you end up in a potentially dangerous world.
Fergal: Exactly, and we've quite carefully designed the resolution bot to avoid getting into those situations. We calibrate it, we check that, when it says something helped the customer, it did help the customer, and we have ways of checking that between explicit and implicit customer feedback. But it's conservatively designed.
“The probability of giving the wrong answer and totally making stuff up is too high, at least to use it for end users in a naked way”
At some point, these open domain question-answering things or something you could build on the top of GPT-3.5 will get good enough that, for a certain portion of our customers, that equation changes where it's like, “Hey, I'm not answering medically critical things,” and the inaccuracy rate has fallen. It was 90% accurate; now it's 99% accurate; now it's 99.9%. How commonly it gives you the wrong answer will eventually fall below the critical threshold where it's like, “Hey, just being able to take this out of the box is worth it. I don't have to go and curate these answers.” So that will probably come. When will that come, is it here today, or has it come in the last few weeks with davinci-003 and ChatGPT is obviously something we've been assessing.
And it's certainly a work in progress because you always have to go and play with the prompts. When you interface with ChatGPT or GPT-3, we could take an end user's question and ramp it in something that says, “Hey, you're a very conservative customer support agent. If you don't know something or you're not completely sure, you always say, 'I don't know,'” and you reason with it step by step, and you're super conservative, and maybe we can wrap it to get the benefit of the deeper natural language understanding, which these models have, and the deeper ability to synthesize and rewrite text, which can be beautiful. It can be really nice. Maybe we can get those benefits and constrain the hallucinations and the errors enough.
Des: Is that another version of walking through this line by line?
Fergal: Yeah.
Des: Is that whole field what people call prompt engineering?
Fergal: Prompt engineering. We're joking that the machine learning team at Intercom is going to be a prompt engineering team, and we're joking about that as we play with it. But there are people who really sweat the prompts and have gotten really good at prompt engineering. It's a real thing, and it makes it difficult to say, “Oh, this new tech is definitely not good enough,” because what will the best prompts be in six months? That said, we don't think it's here yet. All the prompt engineering we've done on davinci in the last week can get it to be more conservative, but not enough. The probability of giving the wrong answer and totally making stuff up is too high, at least to use it for end users in a naked way.
Support agent augmentation
Des: We talked earlier about the doctor augmentation question. Is there a version of it where you can do it from the agent augmentation question?
Fergal: Well, at Intercom, we've been thinking about this area very deeply for an extended period, and in the last few months, we have had internal discussions about the future of the customer support inbox and generative models – models that generate stuff as opposed to just classify things – and we believe that their time is coming for support augmentation, and I think that seeing ChatGPT explode recently and all the excitement about it is evidence of that. It's evidence that these things are getting good. And there are a lot of things you can do in the inbox or in a context like the inbox to constrain and sand off the rougher edges of these things.
An example might be to curate the responses it's allowed to give and use the generative model to predict what should happen, but only actually allow the suggestion to present to the teammate, like a macro or a conversation response, and hopefully provide a beautiful interface to make it easy for them. Alternatively, to have it go and search for a new knowledge base, and there are techniques you can use to try and constrain it to that. And then, maybe show, “This is the answer that our bot wrote from your knowledge base,” and side by side with that, “Here is the original source article,” so that the customer support rep can look at them side by side-
Des: And see if it adds up.
Fergal: Yeah, and see if it adds up.
“They have to go and find the article themselves, then they have to read it and check the answer, and then they have to copy paste it and reformat it. So maybe there's a productivity boost”
Des: So there's an angle where the AI explains its epistemological basis for how it concludes this. And in that world, if you're a support rep, you don't even need to know if it's actually right – you just need to know if the logic stacks up. Obviously, it'd be better if you knew if it was right, as well. But if it says, “Hey, I read how to reset a 2FA article linked here. I suggest that this is how you reset 2FA,” you're probably, “That's the right article to read.”
Fergal: The problem is that when they get it wrong, they're so good at seeming right that they'll-
Des: Invent the idea of the article.
Fergal: Yeah, yeah, totally. And so, you might need to go beyond that. You might need to have the untrusted part of the interface, which is maybe the composer, and it pre-fills something, and there's also a trusted part of the interface beside that, maybe just above it, that shows the original source article, the relevant paragraph. And so, you can look at both.
Obviously, we study customer support flow very carefully and closely, and we absolutely have some support agents where it's like, “Okay, I got the question,” and they have to go and find an article themselves. Some expert ones know it, they're instantly there, and they know exactly where to go. Maybe they've got a macro that does it, but then maybe someone who's newer in the company and they're still being trained in, or maybe it's only part of their job, they have to go and find the article themselves, then they have to read it and check the answer, and then they have to copy paste it and reformat it. So maybe there's a productivity boost. Maybe you can make someone twice as efficient or something.
Des: All that agent behavior will also inform the system. If you put it live and agents are forever going “Wrong, right, wrong, right,” all that feeds back in, and then it gets better. Or, if they're rewriting the answer to be more accurate, I assume we can learn from that. And then, very quickly, the system converges on all the right answers.
“There are a lot of trade-offs. It's very easy to say we want a system that will learn in production. But then it's like okay, who has to maintain that? Who has to debug that?”
Fergal: We could certainly build a system that does all of those things. GPT-3.5 won't nakedly do it. If you decide to build on it as a building block, not even an assessment, is that the right system to build on? Its capability is very good, but it's not the only generative model in town. But whatever we build on, and we're getting really into the roadmap, we would potentially build a learning loop. With most of our tech at the moment where we do that, we absolutely gather feedback. There are some parts of the resolution bot like predictive answers, where it predicts things to end users, where it actually does use what the users say, like, “that helps” as a training signal, and potentially we can end up building that.
There are a lot of trade-offs. It's very easy to say, “We want a system that will learn in production. But then it's like, “Okay, who has to maintain that? Who has to debug that?” Sometimes it's easier to get it to a stable stage and then lock it. So, it depends. We did metrics and analytics whenever we upgrade. We're getting into the details of our models and how we check the accuracy and calibrate them, and stuff.
Des: I know our inbox has this feature where, based on what you've said before, if I jump in the inbox, before I've said anything to try and start a conversation, it'll say, “Hey, I'm Des, co-founder of Intercom, thrilled to be chatting with you.” Whatever my most common thing is, that's automatically pre-written for me.
Fergal: Yep. Smart replies.
Des: Am I right in saying that it's just the mini version in some sense of what we're describing here? Because we were really just going for salutations and maybe ends and maybe handoffs, and the common boilerplate of a support conversation should be there for you. And that, alone, is a productivity boost. But the idea that we could get one degree sharper, and somewhere in the middle of all that boilerplate is, “Here's the meat of the answer,” is where you're talking about going, right?
“We believe its time is coming, and we're trying to figure out the best ways to make people more efficient and to leverage it in a production setting that actually works for people”
Fergal: Yeah, totally. And again, to separate things out – there's just the change in the world, an increased capability, GPT-3.5, and then there's the stuff that we're working on as we grind away on this problem and try to deliver things that will make it better for our customers. I think the capabilities have really improved, but we're still figuring out if we can use this. Is there a shortcut to where we want to go? Maybe we can use these capabilities as building blocks, there are loads of ways to potentially use them as building blocks. But in terms of the direction we were going on already anyway, there are a lot of things agents do such as greetings where it's very obvious. We don't ever want to annoy people. We don't ever want to have an agent read through a bunch of text and then be like, “Oh, that's useless. Why did you do that?” It reduces their trust in the system. It slows them down. We want to help them out.
Quindi, per risposte intelligenti, abbiamo iniziato con i saluti. Era solo una cosa ovvia da fare. Possiamo dire molto facilmente quando probabilmente vorrai un saluto: entri in una nuova conversazione e nessuno ha detto nulla all'utente finale prima. È molto ovvio. Quello era un frutto basso. Alla gente è piaciuta molto l'interfaccia utente. È facile ed è a basso attrito. Ora, possiamo solo dare un singolo suggerimento lì, e ci sono alcune volte in cui è difficile per il sistema dirlo. Al momento, abbiamo questo flusso di macro e le persone usano molto le macro. Devono scegliere quale delle macro. Dovremmo suggerire quelle macro alle persone in modo proattivo? Forse non vogliamo precompilare il compositore, forse vogliamo solo mostrare alcuni macro suggerimenti che sono contestuali. Ci sono molti flussi che sono ripetitivi. Abbiamo lavorato su cose come la ricerca del flusso, cercando di capire i passaggi comuni che le persone attraversano.
Immagino che il grande messaggio sia che crediamo che questo tipo di tecnologia generativa debba essere modellata e resa buona in modo che non sia fastidiosa, in modo che non ti dia cose sbagliate e ti fuorvii, e certamente non ti spinga più lavoro o stress di quanto avresti senza di esso. Crediamo che il suo momento stia arrivando e stiamo cercando di capire i modi migliori per rendere le persone più efficienti e sfruttarle in un ambiente di produzione che funzioni davvero per le persone.
AI-ML oltre il supporto
Des: Stiamo parlando di supporto. Quali altri settori pensi che vedranno il valore di questo nei primi giorni? Sembra che il supporto sia un ambiente ricco di obiettivi per questo tipo di tecnologia, ma ce ne sono altri?
Fergal: Ovviamente, siamo ottimisti sul supporto. Ci sono così tante cose che sono scritte. È come, "Oh, l'agente riconosce abbastanza presto che si tratta di un problema del seguente tipo", come reimpostare il mio account o qualcosa del genere. C'è così tanta struttura in quella zona. C'è una combinazione di struttura del problema del cliente reale che incontra la tecnologia che è molto brava a gestire il linguaggio naturale ea rimodellarlo. Possiamo vedere un pulsante che puoi premere per rendere più formale ciò che è nel compositore, o un pulsante per renderlo più dispiaciuto, giusto? Pensiamo che sia un'area molto, molto eccitante al momento. Non voglio entrare in tutto in modo totalmente speculativo. Ma anche prima di questo, il team di machine learning era tutto in quest'area. Crediamo molto nel supporto.
Supporto esterno, qualsiasi cosa in cui c'è una struttura nel compito e un approvatore umano che è in grado di discernere quando una risposta è giusta o sbagliata. Sembrerà una strana intuizione, ma in informatica o crittografia, prestiamo attenzione a certi tipi di problemi in cui è facile verificare che una risposta sia corretta, ma difficile trovarla. Classi di complessità, tutto quel genere di cose. Ma sì, le persone sono interessate a problemi del genere. Non posso fare a meno di pensare che ci sia un'intuizione simile qui. Hai una sfida in cui è abbastanza facile per un essere umano verificare se una risposta è corretta o meno, ma è laborioso per loro andare a cercarla e ripescarla. O forse al team non importa se la risposta è abbastanza corretta perché non esiste una cosa corretta, come "Scrivimi una poesia su X, Y".
Des: Quella classe di problemi in cui convalidare la risposta è molto economico ma crearla è molto costoso, oppure non c'è una risposta valida.
Fergal: Inoltre, la risposta potrebbe essere diversa tra sei mesi o un anno. Potrebbe essere che tra un anno la risposta potrebbe essere qualcosa di più simile a "Ogni volta che un computer può verificare se la risposta è corretta o meno". Oppure potrebbe essere che ogni volta che il dominio è sufficientemente semplice, il sistema di apprendimento automatico ti darà sicuramente o molto probabilmente ti darà la risposta giusta. È una cosa in evoluzione. Penso che al momento sia difficile stabilire dei limiti.
"Cosa spediamo a gennaio?"
Altri domini come la programmazione informatica, per esempio. La persona seduta lì al suo terminale deve comunque rivedere il codice, e sono in grado di farlo, e può esserci un bug sottile da qualche parte nel tuo codice. A volte è più facile scrivere il codice da soli piuttosto che identificare un bug sottile. Ma la maggior parte delle volte, se guardi il flusso di lavoro di un programmatore di computer, è come, “Oh, so come farlo, ma non ricordo esattamente come usare questa libreria. Vado su Google per questo. Vado a Stack overflow. E l'idea è che quando vedrai la risposta numero tre su Stack Over, dirai: “Oh sì, è vero. È quello che voglio." C'è un intero flusso di lavoro del genere che occupa molto tempo del programmatore, e arriva Copilot e c'è una fine. E poi riformatta il codice per adattarlo. È estremamente potente.
Abbiamo iniziato a parlare di "Che cos'è Copilot per l'assistenza clienti?" Abbiamo prototipi e c'è molto con cui puoi giocare. Forse non rispondi a tutta la domanda, dai solo la risposta di due o tre parole, la scrive, e poi la modifichi, e dici: "Rendilo più formale, rendilo più lungo, rendilo più formale. quello più corto. Sembra che ci sia molto che possiamo fare lì.
Des: E cosa spediamo a gennaio?
Fergal: Dovrò censurare questa parte della conversazione. Spediremo qualcosa.
Des: Sì, ci scommetto. Bene. Questo è stato fantastico. Faremo il check-in, immagino, tra altre due settimane, quando tutto il mondo sarà cambiato di nuovo. Ma in caso contrario, potrebbero volerci alcuni mesi. Grazie mille.
Fergal: Quando questo sarà sul web, sono sicuro che sarà obsoleto e sembrerà sciocco. Ma questa è la natura di questo business.
Des: Assolutamente. Ecco perché ci stai lavorando.
Fergal: Ecco perché stiamo lavorando. È eccitante.