Intercomunicador no produto: como o ChatGPT mudou tudo
Publicados: 2022-12-10Talvez você realmente goste de redes neurais profundas e processamento de linguagem natural, talvez seja apenas um entusiasta da tecnologia - é provável que você já tenha tropeçado no ChatGPT, o novo chatbot da OpenAI. O hype está aumentando, mas a questão permanece: é realmente uma virada de jogo ou é muito cedo para dizer?
Em um episódio recente, nosso Diretor de Machine Learning, Fergal Reid, lançou alguma luz sobre os últimos avanços na tecnologia de redes neurais. Conversamos sobre DALL-E, GPT-3 e se o hype em torno da IA é apenas isso ou se havia algo nisso. Ele nos disse que as coisas estavam começando a escalar. E assim, estamos nisso novamente.
O ChatGPT, o protótipo de chatbot de inteligência artificial da OpenAI, foi lançado na semana passada e tem circulado nos corredores da internet, inspirando reações espantadas de obstinados tecno-positivistas a perpétuos céticos em tecnologia. O bot é alimentado por GPT-3.5, uma IA de geração de texto, e de acordo com OpenAI, pode gerar texto em formato de diálogo, o que “torna possível responder a perguntas de acompanhamento, admitir seus erros, desafiar premissas incorretas e rejeitar pedidos inapropriados.”
Embora ainda seja cedo para vê-lo aplicado para usos no mundo real, é sem dúvida muito promissor. Na verdade, para Fergal Reid, a mudança de capacidade que vimos no ano passado sugere que esse espaço pode ser “tão grande quanto a internet”. E é por isso que decidimos trazer para você um episódio especial sobre esses últimos desenvolvimentos no mundo da IA, o que eles significam e se é hora de aplicá-los em cenários da vida real, como suporte ao cliente.
Aqui estão alguns dos nossos tópicos favoritos da conversa:
- Ao aumentar a escala e treinar esses modelos com mais e mais dados, esses bots começaram a exibir mudanças qualitativas, como aprender conceitos abstratos sem aprendizado supervisionado.
- No momento, o ChatGPT funciona melhor em problemas em que é fácil validar a resposta ou em contextos criativos em que não existe uma resposta correta.
- Embora estejamos vendo capacidades de raciocínio dramaticamente melhores nesses modelos, eles ainda têm problemas com alucinações – se não sabem de algo, inventam.
- Se você solicitar a esses modelos o prompt “vamos pensar passo a passo”, as taxas de precisão aumentam e você obtém entradas melhores do que apenas receber a resposta instantaneamente.
- Nossas interfaces de tecnologia estão gradualmente se tornando mais conversacionais e estamos apenas começando a ver a qualidade da compreensão da linguagem natural ficar boa o suficiente para desbloqueá-las.
- Existem muitas aplicações interessantes dessa tecnologia em suporte, como aumento de agente, mas há trabalho a ser feito antes que ela possa ser implantada.
Se você gosta de nossa discussão, confira mais episódios de nosso podcast. Você pode seguir no iTunes, Spotify, YouTube ou pegar o feed RSS no player de sua escolha. O que se segue é uma transcrição levemente editada do episódio.
A grande estreia do ChatGPT
Des Traynor: Ei, Fergal.
Fergal Reid: Oi pessoal. Como tá indo? Obrigado por me receber de volta.
Des Traynor: Ótimo. É bom ter você de volta. Recebemos você há apenas cinco semanas no podcast para falar sobre coisas que estavam acontecendo com a IA. E você está de volta porque mais coisas aconteceram.
Fergal Reid: Foram cinco semanas ocupadas.
Des Traynor: Foram cinco semanas ocupadas e sete dias ocupados. Sete dias atrás era quarta-feira, 30 de novembro, e recebi um e-mail com um convite para um beta aberto de uma coisa chamada ChatGPT. O que aconteceu?
“Tornou-se viral, enlouqueceu e todos ficaram muito entusiasmados”
Fergal Reid: O que aconteceu? Então, é uma pergunta interessante. A OpenAI lançou seu sistema de aprendizado de máquina mais recente, o sistema AI, e eles o lançaram publicamente, e era o ChatGPT. E é bem parecido com a oferta atual, GPT-3, GPT-3.5, mas foi embalado de forma diferente, você não precisava colocar um cartão de crédito nele, e acho que todo mundo acabou de ver que “Uau, houve um enorme mudança na capacidade aqui recentemente. E tornou-se viral, foi à loucura e todos ficaram muito entusiasmados. E na mesma época, eles lançaram seu modelo GPT-3.5 mais recente, como o davinci-003, que faz muitas das mesmas coisas, e talvez seja um pouco menos bom em dizer: “Ei, sou um modelo de linguagem grande e não posso fazer isso por você.” Mas é semelhante em termos de capacidade.
Des Traynor: Vamos fazer algumas definições rápidas para fundamentar todos. A OpenAI é obviamente a instituição que está trabalhando muito em IA e ML. Você disse GPT: o que isso significa?
Fergal Reid: Na verdade, não me lembro. Transformador de uso geral ou algo parecido [Transformador pré-treinado generativo].
Des Traynor: Mas esse nome significa alguma coisa?
Fergal Reid: Sim, acho que a peça chave é o transformador. Por muito tempo, as pessoas tentaram descobrir: “Ei, qual é a melhor maneira de treinar redes neurais que lidam com tarefas de processamento de texto e linguagem natural?” E foi há muito tempo, havia esses LSTMs [memória de longo prazo] que meio que combinavam a estrutura de curto prazo do seu texto com a estrutura de longo prazo da sua frase e modelos de sequência, e todos estavam trabalhando nisso .
“À medida que você envia mais e mais dados de treinamento, eles parecem exibir mudanças qualitativas em termos do que podem fazer. Então, é como, 'Ei, isso parece meio que entendê-lo'”
E então, o Google publicou um artigo bastante revolucionário, “Attention Is All You Need”, com uma grande tese: “Ei, em vez desses modelos de sequência tradicionais, aqui está uma nova maneira de fazer isso, um novo modelo”, que eles chamam o modelo do transformador ou a arquitetura do transformador. Quando você estiver olhando para uma palavra específica, o modelo aprenderá outras partes da frase que você também deve observar em conjunto com essa palavra. Você pode aprender coisas um pouco mais eficientemente do que com modelos de sequência, e pode treiná-lo com mais rapidez, eficiência e dimensioná-lo ainda mais.
Então, todos começaram a usar transformadores para todos os tipos de dados de sequência. E então, uma coisa para a qual o OpenAI realmente contribuiu foi essa ideia de que você pode pegar essas arquiteturas de transformadores e realmente aumentar a escala. Você pode adicionar muito mais dados de treinamento e muito mais computação a eles. E talvez muito surpreendentemente, e eu realmente acho que isso é o principal, conforme você empurra mais e mais dados de treinamento, eles parecem exibir mudanças qualitativas em termos do que podem fazer. Então, é como, “Ei, isso parece meio que entendê-lo.” Ou posso dizer “faça isso mais feliz” ou “torne isso mais triste”, que é um conceito muito abstrato. Onde aprendeu isso? Não demos esse aprendizado supervisionado em que você codifica uma definição de tristeza ou felicidade. Ele apenas começou a aprender esses conceitos abstratos e essas abstrações de massas de dados de treinamento.
Basicamente, OpenAI e alguns outros têm apenas empurrado essa peça de escala cada vez mais e mais. Há outras coisas também. Com o GPT-3.5, eles treinam um pouco diferente para tentar alinhá-lo mais. Mas, basicamente, o grande problema aqui é muita escala, muitos dados de treinamento e, na verdade, modelos simples. Você pode fazer coisas notáveis que, 20 anos atrás, as pessoas diriam: “Bem, um computador nunca fará isso; nunca será capaz de escrever uma música para mim”, e agora é como “Que tipo de música você gostaria?” “Deixe o som mais alegre.” Então, sim, é um momento notável porque muitas coisas que pensávamos serem do domínio apenas da inteligência humana só precisam de toneladas de dados de treinamento e um grande modelo.
O ChatGPT pode ser criativo?
Des: E então, o que aconteceu desde a última quarta-feira foi que o Twitter – e sete dias depois, a internet em geral ou a mídia – percebeu isso. Já vi todos os tipos de usos francamente notáveis em termos de que simplesmente não conseguia imaginar que isso fosse possível. Eu vi “escreva-me instruções para copiar um DVD no estilo de uma música de Taylor Swift onde ela está com raiva porque ela terminou com o namorado” ou algo assim. Mas na verdade tem um jeito. E então, eu vi outros como, “como você instala o Intercom no iOS ” e fica relativamente correto também. E tudo no meio. E o mais louco que eu vi é que, para qualquer uma dessas coisas, você pode voltar atrás e dizer: "Agora, me dê isso no estilo de um gângster dos anos 1940 e diga em alemão" e "Agora traduza o alemão para o espanhol , mas também adicione mais raiva ”, ou qualquer outra coisa. E ele faz todas essas coisas imediatamente, com atraso de praticamente zero segundo e, em todos os casos, você pode ver o que está acontecendo.
Um exemplo pessoal que uso é quando você está tentando contar uma história para seu filho antes de dormir, você pode ficar sem ângulos. Existem tantas maneiras diferentes que, por exemplo, três dragões podem entrar em uma floresta e se perder. No entanto, GPT-3 é realmente ótimo para me dar mais 10 histórias. O que notei é que, por muito tempo, com a história da IA, até mesmo anos atrás, as pessoas diziam: “É ótimo para coisas específicas, mas não há como lidar com a criatividade”. É justo dizer que parece que estamos no mundo inverso aqui?
Fergal: Sim. Quero dizer, quando as pessoas estão falando sobre IA, é sempre “bem, as primeiras coisas que ela fará são aquelas tarefas manuais e mecânicas”. E então os humanos terão todo esse tempo para fazer essas coisas altamente criativas-
Des: Vá para uma floresta e-
Fergal: Faça arte o tempo todo, belas poesias. E então, é como, “Oh, uau. Essas tarefas manuais exigem uma visão muito difícil e processamento de coisas para resolver. Mas a criatividade, onde não há resposta errada e não há penalidade por errar... Sim, o poema não é perfeito, mas tudo bem, e a imagem DALL·E 2 renderizada pode não ser exatamente o que você tinha em mente, mas ainda é uma imagem bonita e você pode escolher 1 de 10, isso funciona.
“Essa coisa parece ser muito boa nesse tipo de peça intuitiva e é muito boa em enganar nossa peça intuitiva. Então, quando você olha de relance, parece correto”
Des: E você pode ver o que está acontecendo também. Acho que uma coisa que as pessoas não percebem é que estão devolvendo o que provavelmente estava na sua cabeça, porque você vai ver de qualquer maneira. Quando digo: “Dê-me instruções para abrir uma conta bancária no estilo de uma música do Rage Against the Machine”, vejo: “Sim, vamos lutar para abrir a conta e vamos atacar todos noite." E eu posso ver o que está fazendo. Eu nem estou aplicando uma escala de precisão aqui, eu estou tipo, “Ah, você tentou,” e você está dando crédito por isso.
Fergal: Sim, acho que provavelmente é verdade. Até que ponto somos bons em julgar quase erros em termos de informações não factuais? Talvez não sejamos tão bons nisso. Talvez não nos importemos profundamente com isso. E quero dizer, vamos ter que entrar nessa questão de factualidade, mas mesmo quando você faz uma pergunta factual... Digamos que você faça uma pergunta de suporte ao cliente. Perguntei a um recentemente sobre a autenticação de dois fatores: “Como você redefine a autenticação de dois fatores do Intercom?” E a resposta que recebi foi: “Uau, essa é uma ótima resposta”. E eu olho para ele e “espere, não é assim que você redefine seu 2FA”. E é um belo URL, tem a referência ao nosso artigo da central de ajuda, e isso também foi inventado.
“Eu acho que a maioria das pessoas, inclusive nós, que estão tendo suas mentes explodidas, estão impressionadas com a ideia de plausibilidade à primeira vista”
As pessoas falam sobre humanos e cérebros humanos, e temos essa parte intuitiva que é muito boa em reconhecer padrões, e depois temos a parte lógica, analítica e de raciocínio que é mais lenta e precisa. Essa coisa parece ser muito boa nesse tipo de peça intuitiva e é muito boa em enganar nossa peça intuitiva. Então, quando você olha de relance, parece correto e, até que você realmente aplique seu raciocínio sistêmico mais lento, pode ser difícil ver isso. E acho que essa parte intuitiva, essa especulação, é provavelmente o que mais dependemos para julgar empreendimentos criativos, arte, pinturas e sonetos. Pelo menos inicialmente. E assim, é muito bom gerar coisas que são plausíveis à primeira vista, mas talvez, quando você realmente parar para pensar sobre isso, você-
Des: Veja os problemas. E ser plausível à primeira vista é muito importante porque acho que a maioria das pessoas, inclusive nós, que estão tendo suas mentes explodidas, estão impressionadas com a ideia de plausível à primeira vista. Você está dando muito crédito a isso, apesar do fato de que pode não ter muita aplicabilidade no mundo real. Você nunca vai pendurar aquela pintura em um museu, e nunca vai realmente ler aquele soneto, seja qual for, e nunca vai ganhar um prêmio por aquele romance.
Vejo muitas pessoas, como profissionais de marketing de conteúdo, dizendo coisas como: “Isso vai mudar meu trabalho para sempre”. E eu fico tipo, “Sim, mas talvez não da maneira que você pensa. Se você acha que seu trabalho será simplesmente digitar prompts e clicar na guia, é possível que seu trabalho não exista.” Da mesma forma, vejo gerentes no Twitter dizendo: “Ah, isso tornará a temporada de avaliação de desempenho muito mais fácil”. Em todos esses casos, eu sou como-
Fergal: Há algo errado com isso.
“É possível que a contribuição realmente grande que esta tecnologia dê à humanidade seja uma conversa honesta sobre a quantidade de trabalho que podemos eliminar”
Des: Exatamente. Vocês estão todos falando baixinho em voz alta aqui, se o seu trabalho realmente envolve você escrever besteiras espúrias que podem ser-
Fergal: Por que você está fazendo isso em primeiro lugar?
Des: O que você está fazendo? Exatamente. Eu entendo que, digamos, no caso de marketing de conteúdo, pode haver razões pelas quais você só precisa classificar para certas palavras, mas não confunda isso com o ofício de realmente escrever.
Fergal: Quero dizer, é possível que isso seja uma coisa boa. É possível que trabalhos de merda, coisas que a pessoa sente que não têm valor, como essas avaliações de desempenho, possam simplesmente repassar para o GPT. E então, depois de um tempo, todo mundo meio que percebe que é isso que está acontecendo, e a pessoa do outro lado diz: “Bem, vou passar para o GPT analisar”. E talvez então possamos ter uma conversa honesta sobre qual é o kernel que é realmente valioso e como eliminar o trabalho de trabalho.
Des: Por que estamos fazendo toda essa besteira performática?
Fergal: Sim, é possível que a contribuição realmente grande que essa tecnologia dê à humanidade seja uma conversa honesta sobre a quantidade de trabalho que podemos eliminar. E isso pode ser ótimo. Isso pode ser massivamente transformador.
O problema com as alucinações do chatbot
Des: Falando sobre aplicativos reais, algo que está em minha mente, pelo menos minha experiência direta, e até mesmo o que você disse sobre o caso de uso 2FA, é que você não pode implantá-lo diretamente hoje em muitas áreas onde há um definitivo resposta certa, especialmente se o risco de dar a resposta errada for muito alto. Portanto, você não quer que essa coisa consuma registros médicos e cuspa diagnósticos, porque posso garantir que o diagnóstico será muito bem escrito, soará realmente crível para um leigo e possivelmente teria uma baixa probabilidade de precisão. Não sabemos a probabilidade de precisão, mas ela varia de acordo com as entradas.
Fergal: Certamente me assustaria muito se alguém viesse até mim e dissesse: “Ei, Fergal, queremos que sua equipe comece a usar isso para diagnóstico médico. Seria ótimo." Isso seria extremamente assustador.
“Uma coisa é que esta tecnologia tem absolutamente problemas com o que muitas pessoas chamam de alucinações, onde se não sabe algo, apenas inventa”
Des: Mas há outros casos de uso talvez menos graves, mas igualmente imprecisos, onde você pode usá-lo para diagnosticar uma conclusão em um caso legal. Mais uma vez, tenho certeza de que soaria bem e o envolveria em toda a linguagem clichê correta, mas ainda não saberia realmente o que está dizendo. Pedi que me desse ideias sobre como criar um cliente de e-mail moderno para competir e vencer no espaço da produtividade. E lê muito bem, mas é só quando você o risca que percebe que não há nada lá. É apenas palavra que soa bem após palavra que soa bem, sem opiniões particularmente nítidas. Isso, para mim, me faz pensar sobre as maneiras pelas quais poderíamos tornar isso mais aplicável.
Fergal: Antes de entrarmos nisso, há duas coisas que acho úteis para esclarecer aqui. Uma coisa é que esta tecnologia tem absolutamente problemas com o que muitas pessoas chamam de alucinações, onde se não sabe algo, apenas inventa. Isso é pernicioso e há muitos domínios em que uma probabilidade de 1% de alucinação é um obstáculo. E todos nós adoraríamos se essa probabilidade fosse zero. Mas, ao mesmo tempo, a precisão aumentou em comparação com o estado da arte há um ano, em comparação com o estado de três anos atrás. Também é absolutamente melhor em dar a resposta certa na maioria das vezes. É dramaticamente melhor em “compreensão”. Eu luto para dizer: "Oh, está apenas fazendo reconhecimento de padrões, não entende nada", ou pelo menos luto para dizer isso sem: "O que você quer dizer com entender?"
Estamos definitivamente em uma trajetória em que, embora ainda vá inventar coisas, e isso é um grande problema, está ficando cada vez melhor em dar a você a resposta certa quando tem a resposta certa. E então, como é essa curva? É difícil descompactar no momento, mas estamos obtendo modelos dramaticamente melhores que são muito melhores em fazer a coisa certa e, às vezes, fazer a coisa catastroficamente errada. Devemos prestar atenção a ambas as coisas. Sim, isso é muito difícil de implantar em muitas configurações de produção no momento, pelo menos sem algumas nuvens ou recursos em torno disso, mas também está ficando muito melhor. Se você perguntar algo que está muito bem coberto na Wikipedia, está ficando melhor.
Um exemplo final disso é a programação de computadores. Você pode pedir um desafio de programação que ele não tenha visto, e se você pedir para gerar um módulo ou sistema inteiro, ele meio que luta, você meio que tem um ponto de ruptura. Mas se você pedir para escrever uma função, mesmo uma nova, inventada, fora da amostra, ela pode lhe dar a resposta errada, mas as chances de lhe dar algo útil aumentam muito.
Des: Você estava dizendo antes, basicamente passa do primeiro estágio em nossa entrevista de programação, algum tipo de pergunta baseada em matriz. Simplesmente acerta.
“Todo mundo começa a falar que a gramática do cachorro não é muito boa, e isso é muito importante, mas não perca de vista que o cachorro está falando”
Fergal: Sim. Exatamente. Temos um desafio de programação de solução de problemas para engenheiros que chegam à Intercom. Eu mesmo tive que sentá-los alguns anos atrás, e nos esforçamos muito para garantir que isso não esteja disponível na Internet. E se for, tentamos iterar e alterá-lo. E não estamos muito atualizados, então não posso garantir que não esteja lá fora. Mas essa coisa gerou uma solução que simplesmente acertou em cheio, e esse é um problema do tipo “engenheiro sênior no quadro branco por meia hora”. E isso é feito de uma só vez, de uma só vez.
Des: Zero segundos.
Fergal: Zero segundos. E isso é muito impressionante. E, como metade do resto do mundo, também tenho jogado com ChatGPT ou GPT-3.5, e fiz muitas outras perguntas de competição de programação ou perguntas de programação, que tenho certeza que estão fora da amostra , e faz um trabalho muito bom. E isso é uma mudança qualitativa na precisão. Você precisa verificar seu código e garantir que não esteja errado, mas isso é muito interessante e empolgante.
Muito empolgante também é a ideia de que ele possui pelo menos recursos rudimentares de introspecção. Se ele escrever um bug, você pode dizer: “Ei, tem um bug. Consegues consertar isso?" E, às vezes, dá uma bela explicação disso. E todos esses modelos são treinados para fazer é a previsão de token; prever as próximas palavras. Pelo menos tradicionalmente, porque acho que mudou um pouco no ano passado, mas a maior parte do treinamento é apenas para prever o próximo token, prever a próxima palavra. E há algo incrível acontecendo aqui – apenas fazendo isso em escala, você chega a algum nível de compreensão.
Não quero que isso se perca na discussão mais ampla sobre alucinação, que é real, e as pessoas talvez não tenham prestado atenção suficiente a isso na semana passada. Mas há essa metáfora, e não me lembro quem a inventou, de um cachorro falante, e alguém diz que quer que você conheça o novo cachorro falante deles, e você fica tipo: “Cães não falam. ” Mas você chega até o cachorro e o cachorro conversa com você. Todo mundo começa a falar que a gramática do cachorro não é muito boa, e isso é muito importante, mas não perca de vista que o cachorro está falando. A coisa das alucinações para mim é isso. Parece uma grande mudança – talvez não uma que possamos colocar em produção, mas quem sabe onde estará daqui a um, dois ou três anos.
“Isso é como o carro autônomo, certo? Você tem que estar pronto para assumir a qualquer momento”
Des: Sim, a coisa da alucinação, para mim, não a torna inútil. E vamos ser pessimistas e dizer que, dada uma descrição de cinco parágrafos de um paciente, ela pode fornecer um diagnóstico preciso de 70% imediatamente. E na maioria dessas perguntas de diagnóstico, há algum teste rápido que pode verificar se isso é verdade ou não, como em “Parece que você tem X, aqui está o teste rápido para X” e verifica se estava certo ou errado – isso ainda é uma grande mudança de produtividade. Se assumirmos que a coisa ainda está com defeito, mas tentarmos tirar o benefício da precisão de 70%, possivelmente ainda há coisas que ela pode fazer que serão extremamente valiosas.
Fergal: Tenho duas ideias sobre isso. O primeiro pensamento é que alguém precisaria estudar isso porque é possível que essa coisa seja negativa, que o novo sistema com o humano no loop, o médico e a IA, tenha uma probabilidade maior de um erro catastrófico porque o cansado, o excesso de trabalho o médico às vezes não faz sua diligência, mas há um sistema atraente, mas incorreto, na frente deles. Isso é como o carro autônomo, certo? Você tem que estar pronto para assumir a qualquer momento. Pode haver áreas nesse regime em que o sistema como um todo com o humano é realmente pior do que apenas o-
Des: As pessoas podem realmente confiar demais.
Fergal: As pessoas podem confiar demais. Como eles chamam isso? Normalização do desvio. As pessoas estudam isso no contexto de desastres de reatores nucleares e outras coisas. O que deu errado? “Ah, a gente se acostumou com esse atalho, e nem sempre o atalho era válido”, etc. Isso é uma coisa que eu diria. Mas então, o contraponto, quando pensamos em coisas médicas, é que uma parte do mundo não tem acesso a um médico. Portanto, não sei onde traçar esse limite. É um limite difícil de traçar. Eventualmente, na trajetória, esse material provavelmente ficará cada vez melhor, e bom o suficiente para que, eventualmente, como um todo, o sistema supere o que as pessoas têm atualmente.
Treinamento de chatbots passo a passo
Des: Você estava dizendo que quando gera código, você pode dizer: "Ei, isso é boogie." Outro exemplo que vi que foi popular no Twitter por um tempo foi “Fale-me sobre seu pensamento linha por linha” ou qualquer outra coisa. É quase como se você estivesse dizendo a ele como pensar sobre as coisas, ou dando novas informações e não forçando-o a reconsiderar sua opinião. O que está acontecendo lá?
Fergal: Acho que há algo fascinante acontecendo lá, e temos que falar sobre o que há de mais moderno aqui. Isso é especulação e eu sou um espectador – não estou fazendo esse trabalho. Acho que o Google publicou um artigo recentemente sobre como os modelos de linguagem grandes podem se auto-aprimorar, então acho que há algo fascinante aí que vale a pena descompactar.
A primeira coisa é que, talvez cerca de um ano atrás, as pessoas descobriram que, embora esses modelos errassem muito, você poderia induzi-los com o clássico “vamos pensar passo a passo”. Você teria um modelo e poderia fazer uma pergunta matemática simples como “Alice e Bob ganharam três barras de chocolate e deram três para Eva”, ou algo assim. “Quantos eles ainda têm?” Essas coisas lutam com a matemática básica, por isso muitas vezes erram coisas assim. Mas você poderia dizer algo como: “Vamos pensar passo a passo”, e isso o forçaria a produzir seu raciocínio passo a passo ao longo do caminho. E as taxas de precisão aumentaram quando você fez isso, o que faz sentido. É treinado para completar o texto. E assim, passo a passo, cada passo é desenhado…
Des: É quase como se você não estivesse multiplicando a probabilidade de falha. Porque então, se você está executando cada passo com uma probabilidade de estar 90% correto, e em cinco passos, de repente, a probabilidade é de apenas 50% correto.
Fergal: Talvez. Quero dizer, é difícil especular sobre o que exatamente está acontecendo internamente, mas possivelmente algo assim. Mas houve um artigo muito interessante recentemente onde dizia: "Ei, sabemos que podemos melhorar a precisão dizendo, 'vamos pensar passo a passo.'" E podemos usar isso para obter resultados melhores do que apenas intuitivamente, dar a resposta instantaneamente. Você pode usar isso para criar um novo conjunto de dados de treinamento e treinar novamente o modelo para melhorar sua precisão. Isso, para mim, é fascinante porque essas coisas podem melhorar, pelo menos até certo ponto.

“Existe um mundo muito interessante aqui, onde modelos de linguagem e PNL estão começando a se parecer um pouco mais com o mundo AlphaGo. Acho que é um momento muito emocionante e é muito difícil dizer quais são os limites aqui”
Eu vi uma demonstração recentemente em um evento da Microsoft onde eles mostraram o Copilot ou um desses modelos, talvez davinci, eles não especificaram, fazendo algo com um prompt Python onde eles deram um problema de linguagem natural, um pouco como nosso problema de programação Intercom , e então pediu ao sistema para sintetizar o código e colocar o código em um prompt do Python, e quando deu errado, o sistema tentou executar o código e viu que estava errado, então deu outra tentativa e outra até conseguir certo. Há um mundo muito interessante aqui, onde modelos de linguagem e PNL estão começando a se parecer um pouco mais com o mundo AlphaGo. Acho que é um momento muito emocionante e é muito difícil dizer quais são os limites aqui.
Acho que há muitas coisas que, por muito tempo, as pessoas da linguística ou algo assim teriam dito: “Na IA, nunca seremos capazes de responder a isso em um grande esquema” ou algo assim. Como “O trator desceu a estrada e virou em um campo. Por favor, explique o que aconteceu naquela piada.” Os computadores eram ruins nisso historicamente. “O trator mágico desceu a estrada e se transformou em um campo.” Um pequeno modificador como esse muda o significado. E está ficando muito bom nisso em alguns domínios. Você pode fazer perguntas semânticas básicas ou pedir para especular. Até cerca de dois ou três anos atrás, sempre que eu via um novo sistema de aprendizado de máquina, sempre parecia mágico e incrível no início, e sempre que você entrava nele e por baixo do capô, pensava: “Oh, é apenas uma regressão logística .” Depois que entendi isso, foi muito menos impressionante. E estou lutando para fazer isso aqui. Talvez seja porque é tão difícil entender a complexidade do modelo. Mas essas coisas parecem capacidades qualitativamente diferentes das que tivemos.
Bots de IA contra o Google
Des: Antes de entrarmos no suporte, no qual vamos nos aprofundar, vi comentários dizendo que este é um momento tão importante para a Internet quanto o Google. Eu também vi, eu diria, água fria tomar, que é, “não se engane, gerar letras de músicas aleatórias é um truque, na melhor das hipóteses”. E obviamente há um espectro de apetite dependendo se você é ou não um tecnopositivista ou o que quer que seja. Qual é a sua opinião sobre a coisa do Google? Isso é potencialmente tão grande quanto o Google? Isso é uma ameaça ao Google? Pensamentos sobre como o Google pode reagir?
Fergal: Então, vou ser super especulativo aqui, entrando no futurismo total e outras coisas. Sou muito otimista em IA e aprendizado de máquina. Eu sinto que a mudança na capacidade que vimos no ano passado, e certamente se você extrapolar mais um ano ou dois, é tão grande quanto a internet. O potencial. E teremos que descobrir como produtizar essas coisas. Uma tonelada de trabalho terá que ser feita sobre como você os obriga a responder a partir de uma base de conhecimento e assim por diante. Mas a soma total de novos recursos que obtivemos e provavelmente obteremos parece, para mim, tão grande quanto a Internet. Posso estar errado, mas é aí que eu faria-
Des: Essa é a ordem de grandeza. Então, maior que o Google.
“Acho que é um momento Sputnik – as pessoas vão olhar para isso e dizer, Uau, algo está chegando aqui”
Fergal: Sim, acho que sim. Não apenas o ChatGPT, que acabou de sair na semana passada. Mas o progresso total parece que estamos vendo capacidades dramaticamente melhores de raciocínio, raciocínio elementar e raciocínio que pode estar errado, mas às vezes bastante convincente. Eu não teria acreditado se você tivesse me contado sobre seu sucesso em desafios de programação cinco anos atrás. Então eu acho que há algo grande aqui. Há muita produtividade que pode ser desbloqueada e é muito difícil dizer onde isso vai parar. E também, acho que há loops de feedback aqui. Eu sinto que este é um momento Sputnik. Com o ChatGPT, você pode dizer: “Ei, a tecnologia não é muito melhor” ou “está ficando exagerado”, mas não subestime a capacidade de baixa fricção de entrar e brincar com alguma coisa. Todos podem fazer isso. E acho que é um momento Sputnik - as pessoas vão olhar para isso e dizer: "Uau, algo está chegando aqui."
Des: Referência do Sputnik aqui, desculpe.
Fergal: Isso foi, meu Deus, nos anos cinquenta. Os russos colocaram este satélite no espaço que orbitava a Terra e transmitia sinais de rádio. E pessoas de todo o mundo puderam, de repente, sintonizar seus rádios e receber esse sinal vindo do Sputnik. E esta é a narrativa geralmente contada no ocidente. As pessoas de repente acordaram e pensaram: “Uau, há uma mudança de capacidade aqui que não sabíamos”. E então, supostamente, isso causou a corrida espacial e a Apollo e todas essas coisas. Então eu meio que sinto que talvez a reação ainda esteja acontecendo, mas vejo tantas pessoas que não estavam realmente prestando atenção a isso que de repente estão animadas com isso. Talvez o hype diminua. Estamos no meio disso, então é difícil prever. Mas se não for isso, outra coisa será em breve.
O ChatGPT pode fornecer suporte ao cliente?
Des: E o suporte ao cliente? A Intercom é uma plataforma de suporte ao cliente, e o potencial que o GPTChat, o GPT-3.5 ou qualquer uma dessas tecnologias podem tornar o suporte melhor, mais rápido, mais barato, mais bem-sucedido ou mais completo é algo em que estamos sempre atentos. Eu sei que você está pensando sobre isso do ponto de vista do suporte. Anteriormente, falamos sobre como existem ambientes em que uma resposta incorreta é muito, muito ruim, e há ambientes em que é bastante tolerável. Temos 25.000 clientes. Alguns são bancos, que provavelmente não podem pagar por um. Other people would happily afford one because it means they can support all their customers faster. What do you think about this technology as it applies to support?
“We made a conscious design decision very early on that it would never say anything that hadn't been explicitly curated by the team”
Fergal: Yeah. We try and pay a lot of attention to changes in developments in this space. We were looking at GPT-3 pretty early, and our initial thoughts were that the accuracy was not quite there yet. The hallucination problem is a big problem to just nakedly say, “Hey, it has consumed the Intercom help center. Let's ask questions about resetting my two-factor authentication.” It just failed. We've been looking at the GPT-3.5 family and some other models recently. We have resolution bots in production. It's not using language models that are as large – they're maybe medium language models, embeddings, and so on. And it gets very good accuracy at the sort of thing it does. We made a conscious design decision very early on that it would never say anything that hadn't been explicitly curated by the team. I think that worked well for a lot of businesses because it might deliver the wrong answer sometimes – we try carefully to control that – but it's always going to deliver you a relevant answer or an answer that's not going to mislead you.
Des: Yeah, and specifically, the way in which it gets it wrong is it might give you a wrong correct answer. The thing it gives you will be something that somebody in your company has said: “This is a correct, cohesive piece of text.” It just might not be the right one for the question.
Fergal: And we encourage our customers to always write the answer in such a way that, “Oh, to reset your account, do the following thing.” So if it is delivered wrongly, at least the end user is not disoriented.
Des: Yes, they don't go and do it for no reason.
Fergal: They can go like, “Oh, this is a stupid bot. It gave me the wrong answer,” as opposed to, “I am misled, and I'm now going to waste a bunch of time…” So initially, with GPT-3, we were like, “Oh, it's really cool but difficult to see the end-to-end usage of this.” It's been a couple of years, and I'm not aware of anyone who has deployed GPT-3 in a total end-to-end way to answer the customer's questions.
Des: End-to-end meaning no agent in the mix. Because the risk there is that there'll be an unknown unknown. If someone goes to your business and asks a question that you didn't see because GPT dealt with it, gave it the wrong answer, and the customer goes off and does the wrong thing, no one actually knows what's happened except for the bot. And the bot doesn't even know it's wrong because it doesn't know if it's spoofing or not. So you end up in a potentially dangerous world.
Fergal: Exactly, and we've quite carefully designed the resolution bot to avoid getting into those situations. We calibrate it, we check that, when it says something helped the customer, it did help the customer, and we have ways of checking that between explicit and implicit customer feedback. But it's conservatively designed.
“The probability of giving the wrong answer and totally making stuff up is too high, at least to use it for end users in a naked way”
At some point, these open domain question-answering things or something you could build on the top of GPT-3.5 will get good enough that, for a certain portion of our customers, that equation changes where it's like, “Hey, I'm not answering medically critical things,” and the inaccuracy rate has fallen. It was 90% accurate; now it's 99% accurate; now it's 99.9%. How commonly it gives you the wrong answer will eventually fall below the critical threshold where it's like, “Hey, just being able to take this out of the box is worth it. I don't have to go and curate these answers.” So that will probably come. When will that come, is it here today, or has it come in the last few weeks with davinci-003 and ChatGPT is obviously something we've been assessing.
And it's certainly a work in progress because you always have to go and play with the prompts. When you interface with ChatGPT or GPT-3, we could take an end user's question and ramp it in something that says, “Hey, you're a very conservative customer support agent. If you don't know something or you're not completely sure, you always say, 'I don't know,'” and you reason with it step by step, and you're super conservative, and maybe we can wrap it to get the benefit of the deeper natural language understanding, which these models have, and the deeper ability to synthesize and rewrite text, which can be beautiful. It can be really nice. Maybe we can get those benefits and constrain the hallucinations and the errors enough.
Des: Is that another version of walking through this line by line?
Fergal: Yeah.
Des: Is that whole field what people call prompt engineering?
Fergal: Prompt engineering. We're joking that the machine learning team at Intercom is going to be a prompt engineering team, and we're joking about that as we play with it. But there are people who really sweat the prompts and have gotten really good at prompt engineering. It's a real thing, and it makes it difficult to say, “Oh, this new tech is definitely not good enough,” because what will the best prompts be in six months? That said, we don't think it's here yet. All the prompt engineering we've done on davinci in the last week can get it to be more conservative, but not enough. The probability of giving the wrong answer and totally making stuff up is too high, at least to use it for end users in a naked way.
Support agent augmentation
Des: We talked earlier about the doctor augmentation question. Is there a version of it where you can do it from the agent augmentation question?
Fergal: Well, at Intercom, we've been thinking about this area very deeply for an extended period, and in the last few months, we have had internal discussions about the future of the customer support inbox and generative models – models that generate stuff as opposed to just classify things – and we believe that their time is coming for support augmentation, and I think that seeing ChatGPT explode recently and all the excitement about it is evidence of that. It's evidence that these things are getting good. And there are a lot of things you can do in the inbox or in a context like the inbox to constrain and sand off the rougher edges of these things.
An example might be to curate the responses it's allowed to give and use the generative model to predict what should happen, but only actually allow the suggestion to present to the teammate, like a macro or a conversation response, and hopefully provide a beautiful interface to make it easy for them. Alternatively, to have it go and search for a new knowledge base, and there are techniques you can use to try and constrain it to that. And then, maybe show, “This is the answer that our bot wrote from your knowledge base,” and side by side with that, “Here is the original source article,” so that the customer support rep can look at them side by side-
Des: And see if it adds up.
Fergal: Yeah, and see if it adds up.
“They have to go and find the article themselves, then they have to read it and check the answer, and then they have to copy paste it and reformat it. So maybe there's a productivity boost”
Des: So there's an angle where the AI explains its epistemological basis for how it concludes this. And in that world, if you're a support rep, you don't even need to know if it's actually right – you just need to know if the logic stacks up. Obviously, it'd be better if you knew if it was right, as well. But if it says, “Hey, I read how to reset a 2FA article linked here. I suggest that this is how you reset 2FA,” you're probably, “That's the right article to read.”
Fergal: The problem is that when they get it wrong, they're so good at seeming right that they'll-
Des: Invent the idea of the article.
Fergal: Yeah, yeah, totally. And so, you might need to go beyond that. You might need to have the untrusted part of the interface, which is maybe the composer, and it pre-fills something, and there's also a trusted part of the interface beside that, maybe just above it, that shows the original source article, the relevant paragraph. And so, you can look at both.
Obviously, we study customer support flow very carefully and closely, and we absolutely have some support agents where it's like, “Okay, I got the question,” and they have to go and find an article themselves. Some expert ones know it, they're instantly there, and they know exactly where to go. Maybe they've got a macro that does it, but then maybe someone who's newer in the company and they're still being trained in, or maybe it's only part of their job, they have to go and find the article themselves, then they have to read it and check the answer, and then they have to copy paste it and reformat it. So maybe there's a productivity boost. Maybe you can make someone twice as efficient or something.
Des: All that agent behavior will also inform the system. If you put it live and agents are forever going “Wrong, right, wrong, right,” all that feeds back in, and then it gets better. Or, if they're rewriting the answer to be more accurate, I assume we can learn from that. And then, very quickly, the system converges on all the right answers.
“There are a lot of trade-offs. It's very easy to say we want a system that will learn in production. But then it's like okay, who has to maintain that? Who has to debug that?”
Fergal: We could certainly build a system that does all of those things. GPT-3.5 won't nakedly do it. If you decide to build on it as a building block, not even an assessment, is that the right system to build on? Its capability is very good, but it's not the only generative model in town. But whatever we build on, and we're getting really into the roadmap, we would potentially build a learning loop. With most of our tech at the moment where we do that, we absolutely gather feedback. There are some parts of the resolution bot like predictive answers, where it predicts things to end users, where it actually does use what the users say, like, “that helps” as a training signal, and potentially we can end up building that.
There are a lot of trade-offs. It's very easy to say, “We want a system that will learn in production. But then it's like, “Okay, who has to maintain that? Who has to debug that?” Sometimes it's easier to get it to a stable stage and then lock it. So, it depends. We did metrics and analytics whenever we upgrade. We're getting into the details of our models and how we check the accuracy and calibrate them, and stuff.
Des: I know our inbox has this feature where, based on what you've said before, if I jump in the inbox, before I've said anything to try and start a conversation, it'll say, “Hey, I'm Des, co-founder of Intercom, thrilled to be chatting with you.” Whatever my most common thing is, that's automatically pre-written for me.
Fergal: Yep. Smart replies.
Des: Am I right in saying that it's just the mini version in some sense of what we're describing here? Because we were really just going for salutations and maybe ends and maybe handoffs, and the common boilerplate of a support conversation should be there for you. And that, alone, is a productivity boost. But the idea that we could get one degree sharper, and somewhere in the middle of all that boilerplate is, “Here's the meat of the answer,” is where you're talking about going, right?
“We believe its time is coming, and we're trying to figure out the best ways to make people more efficient and to leverage it in a production setting that actually works for people”
Fergal: Yeah, totally. And again, to separate things out – there's just the change in the world, an increased capability, GPT-3.5, and then there's the stuff that we're working on as we grind away on this problem and try to deliver things that will make it better for our customers. I think the capabilities have really improved, but we're still figuring out if we can use this. Is there a shortcut to where we want to go? Maybe we can use these capabilities as building blocks, there are loads of ways to potentially use them as building blocks. But in terms of the direction we were going on already anyway, there are a lot of things agents do such as greetings where it's very obvious. We don't ever want to annoy people. We don't ever want to have an agent read through a bunch of text and then be like, “Oh, that's useless. Why did you do that?” It reduces their trust in the system. It slows them down. We want to help them out.
Então, para respostas inteligentes, começamos com saudações. Era apenas uma coisa óbvia a fazer. Podemos dizer com muita facilidade quando você provavelmente vai querer uma saudação - você entra em uma nova conversa e ninguém disse nada ao usuário final antes. É muito óbvio. Isso foi um pedaço de fruta pendurado. As pessoas realmente gostaram da interface do usuário. É fácil e de baixo atrito. Agora, só podemos fazer uma única sugestão lá, e há algumas vezes em que é difícil para o sistema dizer. No momento, temos esse fluxo macro e as pessoas usam muito macros. Eles têm que escolher qual das macros. Devemos sugerir essas macros para as pessoas de forma proativa? Talvez não queiramos preencher previamente o compositor, talvez queiramos apenas mostrar algumas sugestões de macro que sejam contextuais. Existem muitos fluxos que são repetitivos. Temos trabalhado em coisas como encontrar o fluxo, tentando entender as etapas comuns pelas quais as pessoas passam.
Acho que a grande mensagem é que acreditamos que esse tipo de tecnologia generativa precisa ser moldada e aperfeiçoada para que não seja irritante, para que não lhe dê coisas erradas e o engane, e certamente não o empurre para mais trabalho ou estresse. do que você teria sem ele. Acreditamos que está chegando a hora e estamos tentando descobrir as melhores maneiras de tornar as pessoas mais eficientes e aproveitá-las em um ambiente de produção que realmente funcione para as pessoas.
AI-ML além do suporte
Des: Estamos falando de suporte. Que outras indústrias você acha que verão o valor disso nos primeiros dias? Parece que o suporte é um ambiente rico em alvos para esse tipo de tecnologia, mas existem outros?
Fergal: Obviamente, estamos otimistas com o suporte. Há tantas coisas que estão escritas. É como, “Oh, o agente logo reconhece que este é um problema do seguinte tipo”, como redefinir minha conta ou algo assim. Há tanta estrutura nessa área. Há uma combinação de estrutura de problema real do cliente com tecnologia que é muito boa em lidar com a linguagem natural e remodelá-la. Podemos ver um botão que você pode pressionar para tornar o que está no compositor mais formal, ou um botão para torná-lo mais apologético, certo? Achamos que é uma área muito empolgante no momento. Não quero entrar em tudo de forma totalmente especulativa. Mas mesmo antes disso, a equipe de aprendizado de máquina estava totalmente envolvida nessa área. Acreditamos muito no apoio.
Suporte externo, qualquer coisa em que haja uma estrutura na tarefa e um aprovador humano capaz de discernir quando uma resposta está certa ou errada. Isso vai parecer uma intuição estranha, mas em ciência da computação ou criptografia, prestamos atenção a certos tipos de problemas em que é fácil verificar se uma resposta está correta, mas difícil encontrar essa resposta. Aulas de complexidade, todo esse tipo de coisa. Mas sim, as pessoas estão interessadas em problemas como esse. Não posso deixar de pensar que há uma intuição semelhante aqui. Você tem um desafio em que é muito fácil para um humano verificar se uma resposta está correta ou não, mas é trabalhoso para eles procurar e pescar. Ou talvez a equipe não se importe se a resposta está correta o suficiente porque não existe algo correto, como “Escreva-me um poema sobre X, Y”.
Des: Essa classe de problema em que validar a resposta é muito barato, mas criá-la é muito caro, ou não há resposta válida.
Fergal: E também, a resposta pode ser diferente em seis meses ou um ano. Pode ser que, em um ano, a resposta seja algo mais como: “A qualquer momento em que um computador possa verificar se a resposta está correta ou não”. Ou pode ser que sempre que o domínio for suficientemente simples, o sistema de aprendizado de máquina definitivamente lhe dará ou muito provavelmente lhe dará a resposta certa. É uma coisa em evolução. Acho que é difícil estabelecer limites no momento.
“O que vamos enviar em janeiro?”
Outros domínios como programação de computadores, por exemplo. A pessoa sentada em seu terminal precisa revisar o código de qualquer maneira, e ela pode fazer isso, e pode haver um bug sutil em algum lugar do seu código. Às vezes é mais fácil escrever o código você mesmo do que identificar um bug sutil. Mas na maioria das vezes, se você observar o fluxo de trabalho de um programador de computador, é como: “Ah, eu sei como fazer isso, mas não me lembro exatamente como usar esta biblioteca. Vou procurar no Google. Eu estou indo para o estouro da pilha. E a ideia é que quando você vir a resposta número três no Stack Over, você vai ficar tipo, “Ah sim, isso mesmo. Isso é o que eu quero." Há todo um fluxo de trabalho como esse que ocupa muito do tempo do programador, e esse copiloto aparece e há um fim em torno disso. E, em seguida, reformate o código para ajustá-lo. Isso é extremamente poderoso.
Começamos a conversar sobre: “O que é o Copilot para suporte ao cliente?” Temos protótipos e há muito com o que você pode brincar. Talvez você não responda a pergunta completa, apenas dê a resposta de duas ou três palavras, ela escreve, e então você a modifica, e você fica tipo, “Torne isso mais formal, faça isso mais longo, faça tão mais curto.” Parece que há muito que podemos fazer lá.
Des: E o que vamos enviar em janeiro?
Fergal: Vou ter que censurar essa parte da conversa. Nós enviaremos algo.
Des: Sim, aposto. OK. Isso tem sido ótimo. Faremos o check-in, eu acho, em mais duas semanas, quando todo o mundo mudar novamente. Mas se não, pode levar alguns meses. Muito obrigado.
Fergal: Quando isso estiver disponível na web, tenho certeza de que estará desatualizado e parecerá tolo. Mas essa é a natureza deste negócio.
Des: Absolutamente. É por isso que você está trabalhando nisso.
Fergal: É por isso que estamos trabalhando. É emocionante.

