Intercom en el producto: cómo ChatGPT lo cambió todo
Publicado: 2022-12-10Tal vez realmente te interesen las redes neuronales profundas y el procesamiento del lenguaje natural, tal vez solo seas un entusiasta de la tecnología; es probable que ya te hayas topado con ChatGPT, el nuevo chatbot de OpenAI. La exageración está aumentando, pero la pregunta sigue siendo: ¿es realmente un cambio de juego o es demasiado pronto para decirlo?
En un episodio reciente, nuestro Director de Machine Learning, Fergal Reid, arrojó algo de luz sobre los últimos avances en tecnología de redes neuronales. Charlamos sobre DALL-E, GPT-3, y si la exageración que rodea a la IA es solo eso o si había algo de eso. Nos dijo que las cosas estaban empezando a escalar. Y así, estamos de nuevo.
ChatGPT, el prototipo de chatbot de inteligencia artificial de OpenAI, se lanzó la semana pasada y ha estado dando vueltas en los pasillos de Internet, inspirando reacciones asombradas de tecnopositivistas acérrimos a perpetuos tecnoescépticos. El bot funciona con GPT-3.5, una IA que genera texto y, según OpenAI, puede generar texto en un formato de diálogo, lo que "permite responder preguntas de seguimiento, admitir sus errores, cuestionar premisas incorrectas y rechazar solicitudes inapropiadas”.
Si bien aún es pronto para verlo aplicado para usos en el mundo real, sin duda es muy prometedor. De hecho, para Fergal Reid, el cambio en la capacidad que hemos visto durante el último año sugiere que este espacio podría ser "tan grande como Internet". Y es por eso que decidimos traerles un episodio especial sobre estos últimos desarrollos en el mundo de la IA, lo que significan y si es hora de aplicarlos en escenarios de la vida real, como la atención al cliente.
Estas son algunas de nuestras conclusiones favoritas de la conversación:
- Al empujar la escala y entrenar estos modelos con más y más datos, estos bots comenzaron a mostrar cambios cualitativos, como aprender conceptos abstractos sin aprendizaje supervisado.
- En este momento, ChatGPT funciona mejor en problemas donde es fácil validar la respuesta o contextos creativos donde no existe una respuesta correcta.
- Si bien estamos viendo capacidades de razonamiento dramáticamente mejores en estos modelos, todavía tienen problemas con las alucinaciones: si no saben algo, lo inventan.
- Si solicita estos modelos con el mensaje "vamos a pensar paso a paso", las tasas de precisión aumentan y obtiene mejores entradas que solo tener que dar la respuesta instantáneamente.
- Nuestras interfaces tecnológicas se están volviendo gradualmente más conversacionales, y apenas estamos comenzando a ver que la calidad de la comprensión del lenguaje natural es lo suficientemente buena como para desbloquearlas.
- Hay muchas aplicaciones interesantes de esta tecnología en soporte, como el aumento de agentes, pero hay trabajo por hacer antes de que pueda implementarse.
Si disfruta de nuestra discusión, vea más episodios de nuestro podcast. Puede seguir en iTunes, Spotify, YouTube o tomar la fuente RSS en su reproductor de elección. Lo que sigue es una transcripción ligeramente editada del episodio.
El gran debut de ChatGPT
Des Traynor: Hola, Fergal.
Fergal Reid: Hola, chicos. ¿Cómo te va? Gracias por tenerme de vuelta.
Des Traynor: Bien. Es bueno tenerte de vuelta. Te tuvimos hace solo cinco semanas en el podcast para hablar sobre cosas que estaban sucediendo con la IA. Y vuelves porque pasaron más cosas.
Fergal Reid: Han sido cinco semanas ocupadas.
Des Traynor: Han sido cinco semanas ocupadas y siete días ocupados. Hace siete días fue miércoles, 30 de noviembre, y recibí un correo electrónico con una invitación a una versión beta abierta de algo llamado ChatGPT. ¿Qué sucedió?
“Se volvió viral, se volvió loco y todos se emocionaron mucho”
Fergal Reid: ¿Qué pasó? Entonces, es una pregunta interesante. OpenAI lanzó su sistema de aprendizaje automático más reciente, el sistema AI, y lo lanzaron muy públicamente, y fue ChatGPT. Y es bastante similar a su oferta actual, GPT-3, GPT-3.5, pero estaba empaquetada de manera diferente, no era necesario ponerle una tarjeta de crédito, y creo que todo el mundo vio que "Vaya, ha habido una enorme cambio en la capacidad aquí recientemente.” Y se volvió viral, se volvió loco, y todos se emocionaron mucho. Y casi al mismo tiempo, lanzaron su modelo GPT-3.5 más reciente, como davinci-003, que hace muchas de las mismas cosas, y quizás sea un poco menos bueno para decir: "Oye, soy un modelo de lenguaje grande y No puedo hacer eso por ti. Pero es similar en términos de capacidad.
Des Traynor: Hagamos algunas definiciones rápidas para tranquilizar a todos. OpenAI es obviamente la institución que está haciendo mucho trabajo en IA y ML. Dijiste GPT: ¿qué significa eso?
Fergal Reid: En realidad no lo recuerdo. Transformador de propósito general o algo así [Transformador preentrenado generativo].
Des Traynor: ¿Pero ese nombre significa algo?
Fergal Reid: Sí, creo que la pieza clave es el transformador. Durante mucho tiempo, la gente estaba tratando de averiguar: "Oye, ¿cuál es la mejor manera de entrenar redes neuronales que se ocupan de tareas de procesamiento de texto y lenguaje natural?" Y pasó mucho tiempo, estaban estos LSTM [memoria a corto plazo] que combinaban la estructura a corto plazo de su texto con la estructura a largo plazo de su oración y modelos de secuencia, y todos estaban trabajando en esos .
“A medida que impulsa más y más datos de capacitación, parecen exhibir cambios cualitativos en términos de lo que pueden hacer. Entonces, es como, 'Oye, esto parece entenderlo'”.
Y luego, Google publicó un artículo bastante revolucionario, "La atención es todo lo que necesitas", con una tesis bastante grande: "Oye, en lugar de estos modelos de secuencia tradicionales, aquí hay una nueva forma de hacerlo, un nuevo modelo", al que llaman el modelo del transformador o la arquitectura del transformador. Cuando esté mirando una palabra específica, el modelo aprenderá otras partes de la oración que también debe mirar junto con esa palabra. Puede aprender cosas un poco más eficientemente que con los modelos de secuencia, y puede entrenarlo más rápido, de manera más eficiente y escalarlo aún más.
Entonces, todos comenzaron a usar transformadores para todo tipo de datos de secuencia. Y luego, una cosa a la que OpenAI realmente contribuyó fue esta idea de que puedes tomar estas arquitecturas de transformadores y realmente aumentar la escala. Puede agregar muchos más datos de entrenamiento y mucho más cómputo. Y tal vez muy sorprendentemente, y realmente creo que esta es la clave, a medida que avanza más y más datos de entrenamiento, parecen exhibir cambios cualitativos en términos de lo que pueden hacer. Entonces, es como, "Oye, esto parece entenderlo". O puedo decir "hacer esto más feliz" o "hacer esto más triste", que es un concepto muy abstracto. ¿Dónde aprendió eso? No le dimos este aprendizaje supervisado en el que codificas una definición de tristeza o felicidad. Simplemente comenzó a aprender estos conceptos abstractos y estas abstracciones de masas de datos de entrenamiento.
Básicamente, OpenAI y algunos otros simplemente han estado presionando esa pieza de escalado más y más y más. Hay otras cosas también. Con GPT-3.5, lo entrenan un poco diferente para intentar alinearlo más. Pero básicamente, lo más importante aquí es mucha escala, muchos datos de entrenamiento y, de hecho, modelos bastante simples. Puedes hacer cosas notables que hace 20 años, la gente hubiera dicho: “Bueno, una computadora nunca hará esto; nunca podrá escribirme una canción”, y ahora es como, “¿Qué tipo de canción te gustaría?” “Haz que el sonido sea más alegre”. Entonces, sí, es un momento notable porque muchas cosas que pensábamos que eran dominio exclusivo de la inteligencia humana solo necesitan toneladas de datos de entrenamiento y un gran modelo.
¿Puede ChatGPT ser creativo?
Des: Y luego, lo que sucedió desde el miércoles pasado fue que Twitter, y luego, siete días después, Internet en general o los medios de comunicación, se dieron cuenta de esto. He visto todo tipo de usos francamente sobresalientes en términos de que simplemente no podía imaginar que esto fuera posible. Vi "escríbeme instrucciones para copiar un DVD al estilo de una canción de Taylor Swift donde está enojada porque rompió con su novio" o algo así. Pero en realidad tiene un ir en él. Y luego, he visto a otros como, "¿cómo se instala Intercom en el iOS?" y también es relativamente correcto. Y todo lo demás. Y lo loco que he visto es que, para cualquiera de estas cosas, puedes retroceder y decir: "Ahora, dame eso al estilo de un gángster de la década de 1940 y dilo en alemán", y "Ahora traduce alemán a español". , pero también añade más ira”, o lo que sea. Y hace todas estas cosas de inmediato, casi con un retraso de cero segundos, y en todos los casos, puedes ver lo que está haciendo.
Un ejemplo personal que uso es cuando intenta contarle una historia a su hijo antes de acostarse, puede quedarse sin ángulos. Hay tantas formas diferentes en las que, por ejemplo, tres dragones podrían entrar en un bosque y perderse. Sin embargo, GPT-3 es realmente genial para darme 10 historias más. Lo que he notado es que, durante mucho tiempo, con la historia de la IA, incluso hace unos años, la gente decía: "Es genial para cosas específicas, pero no hay forma de que pueda abordar la creatividad". ¿Es justo decir que parece que estamos en el mundo inverso aquí?
Fergal: Si. Quiero decir, cuando la gente habla de IA, siempre es, "bueno, lo primero que va a hacer son esas tareas manuales y rutinarias". Y luego los humanos van a tener todo este tiempo para ir y hacer estas cosas altamente creativas.
Des: Ir a un bosque y-
Fergal: Hacer arte todo el tiempo, hermosa poesía. Y luego, es como, “Oh, wow. Esas tareas manuales requieren una visión muy dura y el procesamiento de cosas para resolver. Pero la creatividad, donde no hay una respuesta incorrecta y no hay penalización por hacerlo mal... Sí, el poema no es del todo perfecto, pero está bien, y la imagen renderizada de DALL·E 2 podría no ser exactamente lo que tenías en mente, pero sigue siendo una imagen hermosa y puedes elegir 1 de 10, eso funciona.
“Parece que esta cosa es muy buena en ese tipo de pieza intuitiva, y es muy buena para engañar a nuestra pieza intuitiva. Entonces, cuando lo miras de un vistazo, parece correcto”
Des: Y también puedes ver para qué sirve. Creo que una cosa que la gente no se da cuenta es que te está devolviendo lo que probablemente estaba en tu cabeza porque lo vas a ver de todos modos. Cuando digo: "Dame instrucciones para abrir una cuenta bancaria al estilo de una canción de Rage Against the Machine", veo: "Sí, vamos a luchar para abrir la cuenta, y vamos a enfurecernos". noche." Y puedo ver lo que está haciendo. Ni siquiera estoy aplicando una escala de precisión allí, solo estoy como, "Ah, lo intentaste", y le estás dando crédito por eso.
Fergal: Sí, creo que probablemente sea cierto. ¿Hasta qué punto somos buenos para juzgar los cuasi accidentes en términos de información no fáctica? Tal vez simplemente no somos tan buenos en eso. Tal vez no nos preocupamos profundamente por eso. Y quiero decir, vamos a tener que entrar en este tema de la factualidad, pero incluso cuando haces una pregunta objetiva... Digamos que haces una pregunta de atención al cliente. Hace poco le pregunté a uno sobre la autenticación de dos factores: "¿Cómo se restablece la autenticación de dos factores de Intercom?" Y la respuesta que obtuve fue como, "Wow, esa es una gran respuesta". Y lo miro y "espera, no es así como reinicias tu 2FA". Y es una URL hermosa, tiene la referencia a nuestro artículo del centro de ayuda, y eso también se inventó.
“Creo que la mayoría de las personas, incluidos nosotros mismos, que se están quedando boquiabiertos, se quedan boquiabiertos con la idea de verosimilitud a primera vista”
La gente habla de humanos y cerebros humanos, y tenemos esta parte intuitiva que es realmente buena para reconocer patrones, y luego tenemos la parte lógica, analítica y de razonamiento que es más lenta y precisa. Parece que esta cosa es muy buena en ese tipo de pieza intuitiva, y es muy buena para engañar a nuestra pieza intuitiva. Entonces, cuando lo mira de un vistazo, parece correcto, y hasta que realmente aplique su razonamiento sistémico más lento, puede ser difícil ver eso. Y creo que esa pieza intuitiva, esa especulación, es probablemente en lo que más confiamos para juzgar los esfuerzos creativos, el arte, las imágenes y los sonetos. Al menos inicialmente. Entonces, es muy bueno para generar cosas que son plausibles a primera vista, pero tal vez, cuando realmente te tomas el tiempo para pensarlo, tú...
Des: Ver los problemas. Y ser verosímil a primera vista es realmente importante porque creo que la mayoría de las personas, incluidos nosotros mismos, que se están quedando boquiabiertos, se quedan asombrados por la idea de verosimilitud a primera vista. Le estás dando mucho crédito por eso a pesar de que podría no tener mucha aplicabilidad en el mundo real. Nunca vas a colgar esa pintura en un museo, y nunca vas a leer ese soneto, sea cual sea, y nunca vas a ganar un premio por esa novela.
Veo a mucha gente como los especialistas en marketing de contenido que dicen cosas como: "Esto va a cambiar mi trabajo para siempre". Y yo estoy como, “Sí, pero tal vez no en la forma en que piensas. Si cree que su trabajo consistirá simplemente en escribir indicaciones y presionar tabulador, es posible que su trabajo no exista”. De manera similar, veo gerentes en Twitter que dicen: "Oh, eso hará que la temporada de revisión de desempeño sea mucho más fácil". En todos estos casos, soy como-
Fergal: Hay algo mal con eso.
“Es posible que la gran contribución que esta tecnología hace a la humanidad sea una conversación honesta sobre la cantidad de trabajo que podemos eliminar”
Des: Exacto. Todos están diciendo la parte tranquila en voz alta aquí, si su trabajo realmente implica que escriba BS falso que podría ser...
Fergal: ¿ Por qué lo haces en primer lugar?
De: ¿ Qué estás haciendo? Exactamente. Entiendo que en el caso de, por ejemplo, el marketing de contenidos, puede haber razones por las que solo necesitas clasificar para ciertas palabras, pero no lo confundas con el oficio de escribir.
Fergal: Quiero decir, es posible que esto sea algo bueno. Es posible que los trabajos de mierda, las cosas que la persona siente que no tienen ningún valor, como estas evaluaciones de desempeño, simplemente se las pasen a GPT. Y luego, después de un tiempo, todo el mundo se da cuenta de que eso es lo que está pasando, y la persona del otro lado dice: "Bueno, voy a pasárselo al GPT para que lo analice". Y tal vez entonces podamos tener una conversación honesta sobre cuál es el núcleo que es realmente valioso y cómo eliminar el trabajo.
Des: ¿ Por qué estamos haciendo toda esta mierda performativa?
Fergal: Sí, es posible que la gran contribución que esta tecnología haga a la humanidad sea una conversación honesta sobre la cantidad de trabajo que podemos eliminar. Y eso podría ser genial. Eso podría transformarse enormemente.
El problema con las alucinaciones de los chatbots
Des: Hablando de aplicaciones reales, algo que tengo en mente, al menos mi experiencia directa, e incluso lo que dijiste sobre el caso de uso de 2FA, es que no puedes implementarlo directamente hoy en muchas áreas donde hay un definitivo respuesta correcta, especialmente si el riesgo de dar una respuesta incorrecta es bastante alto. Por lo tanto, no desea que esta cosa consuma registros médicos y escupa diagnósticos porque puedo garantizarle que el diagnóstico estará muy bien escrito, sonará realmente creíble para un laico y posiblemente tenga una baja probabilidad de precisión. No conocemos la probabilidad de precisión, pero variará según las entradas.
Fergal: Ciertamente me asustaría mucho si alguien viniera a mí y me dijera: “Oye, Fergal, queremos que tu equipo comience a usar esto para el diagnóstico médico. Que sería genial." Eso sería extremadamente aterrador.
"Una cosa es que esta tecnología tiene absolutamente problemas con lo que mucha gente llama alucinaciones, donde si no sabe algo, simplemente lo inventa".
Des: Pero hay otros casos de uso tal vez menos graves, pero igualmente inexactos, en los que podría usarlo para diagnosticar una conclusión en un caso legal. Una vez más, estoy seguro de que sonaría bien, y lo envolvería en todo el lenguaje repetitivo correcto, pero aún así, en última instancia, no sabría realmente lo que está diciendo. Le pedí que me diera ideas sobre cómo construir un cliente de correo electrónico moderno para competir y ganar en el espacio de la productividad. Y se lee muy bien, pero solo cuando lo rascas te das cuenta de que en realidad no hay nada allí. Es solo una palabra que suena agradable tras una palabra que suena bien sin opiniones particularmente agudas. Eso, para mí, me hace preguntarme sobre las formas en que podríamos hacer que esto sea más aplicable.
Fergal: Antes de entrar en eso, hay dos cosas que creo que es útil aclarar aquí. Una cosa es que esta tecnología absolutamente tiene problemas con lo que mucha gente llama alucinaciones, donde si no sabe algo, simplemente lo inventa. Eso es pernicioso, y hay muchos dominios en los que una probabilidad del 1% de alucinaciones es un factor decisivo. Y a todos nos encantaría que esa probabilidad fuera cero. Pero al mismo tiempo, la precisión ha aumentado en comparación con lo que era el estado del arte hace un año, en comparación con lo que era hace tres años. Además, es absolutamente mejor para darte la respuesta correcta la mayor parte del tiempo. Es dramáticamente mejor en "comprensión". Me cuesta decir: "Oh, solo está haciendo reconocimiento de patrones, no entiende nada", o al menos, me cuesta decir eso sin: "¿Qué quieres decir con entender?"
Definitivamente estamos en una trayectoria en la que, aunque todavía inventará cosas, y eso es un gran problema, está mejorando cada vez más para darte la respuesta correcta cuando tiene la respuesta correcta. Entonces, ¿cómo es esa curva? Es difícil desempacar en este momento, pero estamos obteniendo modelos dramáticamente mejores que son mucho mejores para hacer lo correcto mientras que a veces todavía hacen lo catastróficamente incorrecto. Debemos prestar atención a ambas cosas. Sí, esto es muy difícil de implementar en muchos entornos de producción en este momento, al menos sin algo de nubosidad o algunas prestaciones a su alrededor, pero también está mejorando mucho. Si le preguntas algo que está muy bien cubierto en Wikipedia, está mejorando.
Un último ejemplo de esto es la programación de computadoras. Puedes pedirle un desafío de programación que no haya visto, y si le pides que genere un módulo o sistema completo, tiene problemas, tienes un punto de ruptura. Pero si le pide que escriba una función, incluso una nueva, inventada, fuera de la muestra, puede que le dé una respuesta incorrecta, pero las posibilidades de que le dé algo útil han aumentado.
Des: Estabas diciendo antes, básicamente pasa la primera etapa de nuestra entrevista de programación, una especie de pregunta basada en matrices. Simplemente lo clava.
“Todo el mundo empieza a hablar de que la gramática del perro no es muy buena, y eso es muy importante, pero no perdáis de vista que el perro está hablando”
Fergal: Si. Exactamente. Tenemos un desafío de programación de resolución de problemas para los ingenieros que vienen a Intercom. Tuve que sentarlos yo mismo hace unos años, y nos esforzamos mucho para asegurarnos de que no esté disponible en Internet. Y si es así, tratamos de iterarlo y cambiarlo. Y no estamos muy al día, así que no puedo garantizar que no esté disponible. Pero esto generó una solución que simplemente lo logró, y ese es un tipo de problema de "ingeniero senior en la pizarra durante media hora". Y lo obtiene de una sola vez, de una sola vez.
Des: Cero segundos.
Fergal: Cero segundos. Y eso es muy impresionante. Y como la mitad del resto del mundo, también he estado jugando con ChatGPT o GPT-3.5, y le he dado muchas otras preguntas de competencia de programación o preguntas de programación, que estoy bastante seguro de que están fuera de muestra. , y hace un muy buen trabajo. Y eso es un cambio cualitativo en la precisión. Tienes que revisar tu código y asegurarte de que no esté mal, pero eso es muy interesante y emocionante.
También es muy emocionante la idea de que tiene al menos capacidades de introspección rudimentarias. Si escribe un error, puedes decir: “Oye, hay un error. ¿Puedes arreglarlo?" Y a veces, te da una hermosa explicación de ello. Y todos estos modelos están entrenados para hacer una predicción simbólica; predecir las siguientes palabras. Al menos tradicionalmente, porque supongo que ha cambiado un poco en el último año, pero la mayor parte del entrenamiento es solo para predecir el próximo token, predecir la próxima palabra. Y aquí está sucediendo algo sorprendente: simplemente haciéndolo a escala, se llega a cierto nivel de comprensión.
No quiero que eso se pierda en la discusión más amplia sobre la alucinación, que es real, y la gente tal vez no le prestó suficiente atención la semana pasada. Pero existe esta metáfora, y no recuerdo a quién se le ocurrió, de un perro que habla, y alguien te dice que quiere que vayas a conocer a su nuevo perro que habla, y dices: “Los perros no pueden hablar. ” Pero llegas al perro y el perro tiene una conversación contigo. Todos empiezan a hablar de que la gramática del perro no es muy buena, y eso es muy importante, pero no pierdas de vista que el perro está hablando. Lo de las alucinaciones para mí es eso. Esto se siente como un gran cambio, tal vez no uno que podamos poner en producción, pero quién sabe dónde estará en un año, dos años o tres años.
“Esto es como lo del auto sin conductor, ¿verdad? Tienes que estar listo para tomar el control en cualquier momento”
Des: Sí, lo de las alucinaciones, para mí, no las vuelve inútiles en absoluto. Y seamos pesimistas y digamos que dada una descripción de cinco párrafos de un paciente, puede brindarle un diagnóstico preciso en un 70 % de inmediato. Y en la mayoría de esas preguntas de diagnóstico, hay una prueba rápida que puede verificar si eso es cierto o no, como "Parece que tienes X, aquí está la prueba rápida para X", y resulta que fue correcto o incorrecto: eso sigue siendo un cambio de productividad masivo. Si asumimos que la cosa todavía tiene fallas pero tratamos de aprovechar el 70% de precisión, es posible que aún haya cosas que pueda hacer que sean enormemente valiosas.
Fergal: Tengo dos pensamientos sobre eso. El primer pensamiento es que alguien necesitaría estudiar eso porque es posible que esto sea negativo neto, que el nuevo sistema con el humano en el circuito, el médico y la IA, tiene una mayor probabilidad de un error catastrófico porque el cansado, con exceso de trabajo el médico a veces no hace su diligencia, pero hay un sistema atractivo pero incorrecto frente a ellos. Esto es como lo del auto sin conductor, ¿verdad? Tienes que estar listo para tomar el control en cualquier momento. Puede haber áreas en ese régimen donde el sistema como un todo con el ser humano es en realidad peor que solo el-
Des: La gente realmente puede confiar demasiado.
Fergal: La gente puede confiar demasiado. ¿Cómo lo llaman? Normalización de la desviación. La gente estudia esto en el contexto de los desastres de los reactores nucleares y esas cosas. ¿Qué salió mal? “Oh, nos acostumbramos a este atajo, y el atajo no siempre era válido”, etcétera. Esa es una cosa que diría. Pero entonces, el contrapunto, cuando pensamos en cosas médicas, es que una parte del mundo no tiene acceso a un médico. Así que no sé dónde dibujar ese límite. Es un límite difícil de trazar. Eventualmente, en la trayectoria, estas cosas probablemente mejorarán cada vez más, y lo suficientemente bien como para que, eventualmente, como un todo, el sistema supere lo que la gente tiene actualmente.
Entrenamiento de chatbots paso a paso
Des: Estabas diciendo que cuando genera código, puedes decir: "Oye, eso es boogie". Otro ejemplo que vi que fue popular en Twitter durante un tiempo fue "Cuéntame tu pensamiento línea por línea", o lo que sea. Es casi como si le estuvieras diciendo cómo pensar sobre las cosas, o si le estuvieras dando nueva información y luego no lo estuvieras obligando a reconsiderar su opinión. ¿Lo que está pasando allí?
Fergal: Creo que está sucediendo algo fascinante allí, y tenemos que hablar directamente en la vanguardia aquí. Esto es especular y yo soy un espectador, no estoy haciendo este trabajo. Creo que Google publicó un artículo recientemente sobre cómo los modelos de lenguaje grandes pueden mejorar por sí mismos, así que creo que hay algo fascinante que vale la pena desempacar.
Lo primero es que hace aproximadamente un año, la gente descubrió que, si bien estos modelos se equivocarían mucho, podrías incitarlos con el clásico "vamos a pensar paso a paso". Tendrías un modelo y podrías hacerle una simple pregunta matemática como "Alicia y Bob tienen tres barras de chocolate y le dan tres a Eva", o algo así. “¿Cuántos les quedan?” Estas cosas tienen dificultades con las matemáticas básicas, por lo que a menudo se equivocan. Pero podías decir algo como, “Pensemos paso a paso”, y eso lo obligaba a mostrar su razonamiento paso a paso a lo largo del camino. Y las tasas de precisión aumentaron cuando hiciste eso, lo que tiene sentido. Está entrenado para completar el texto. Y así, paso a paso, cada paso está diseñado…
Des: Es casi como si no estuvieras multiplicando la probabilidad de falla. Porque entonces, si está ejecutando cada paso con una probabilidad de que sea correcto en un 90 %, y en cinco pasos, de repente, la probabilidad es solo correcta en un 50 %.

Fergal: Quizás. Quiero decir, es difícil especular sobre qué está pasando exactamente internamente, pero posiblemente algo así. Pero recientemente hubo un artículo muy interesante en el que decía: "Oye, sabemos que podemos mejorar la precisión diciendo, 'pensemos paso a paso'". Y podemos usar eso para obtener mejores resultados que simplemente tenerlo intuitivamente, dar la respuesta al instante. Puede usarlo para crear un nuevo conjunto de datos de entrenamiento y volver a entrenar el modelo para mejorar su precisión. Eso, para mí, es fascinante porque estas cosas pueden mejorar por sí mismas, al menos hasta cierto punto.
“Hay un mundo muy interesante aquí donde los modelos de lenguaje y la PNL están empezando a parecerse un poco más al mundo de AlphaGo. Creo que es un momento muy emocionante y es muy difícil decir cuáles son los límites aquí”
Vi una demostración recientemente en un evento de Microsoft donde mostraron Copilot o uno de esos modelos, tal vez davinci, no especificaron, haciendo algo con un indicador de Python donde le dieron un problema de lenguaje natural, un poco como nuestro problema de programación de Intercom , y luego le pidió al sistema que sintetizara el código y lo pusiera en un indicador de Python, y cuando se equivocó, el sistema intentó ejecutar el código y vio que estaba mal, así que tomó otro intento y otro hasta que lo consiguió. Correcto. Hay un mundo muy interesante aquí donde los modelos de lenguaje y la PNL comienzan a parecerse un poco más al mundo de AlphaGo. Creo que es un momento muy emocionante y es muy difícil decir cuáles son los límites aquí.
Creo que hay muchas cosas que, durante mucho tiempo, la gente de lingüística o algo así habría dicho: "En IA, nunca podremos responder a esto en un gran esquema", o algo así. Como “El tractor se fue por la carretera y se convirtió en un campo. Por favor, explique lo que sucedió en esa broma”. Históricamente, las computadoras eran malas en eso. “El tractor mágico bajó por la carretera y se convirtió en un campo”. Un ligero modificador como ese cambia el significado. Y se está volviendo muy bueno en eso en algunos dominios. Puede hacerle preguntas semánticas básicas o pedirle que especule. Hasta hace unos dos o tres años, cada vez que veía un nuevo sistema de aprendizaje automático, siempre parecía mágico y sorprendente al principio, y cada vez que entrabas en él y debajo del capó, decías: "Oh, es solo una regresión logística". .” Una vez que entendí eso, fue mucho menos impresionante. Y estoy luchando para hacer eso aquí. Tal vez sea porque es muy difícil entender la complejidad del modelo. Pero estas cosas se sienten como capacidades cualitativamente diferentes a las que hemos tenido.
Bots de IA contra Google
Des: Antes de entrar en soporte, en el que profundizaremos, he visto comentarios que dicen que este es un momento tan importante para Internet como Google. También he visto la, diría, toma de agua fría, que es, "no se deje engañar, generar letras de canciones al azar es un truco en el mejor de los casos". Y obviamente hay un espectro de apetito dependiendo de si eres o no tecnopositivista o lo que sea. ¿Cuál es tu opinión sobre lo de Google? ¿Es esto potencialmente tan grande como Google? ¿Es esto una amenaza para Google? ¿Pensamientos sobre cómo podría reaccionar Google?
Fergal: Entonces, seré súper especulativo aquí, entrando en el futurismo total y esas cosas. Soy muy optimista sobre la IA y el aprendizaje automático. Siento que el cambio en la capacidad que hemos visto durante el último año, y ciertamente si lo extrapola hacia adelante otro año o dos, es tan grande como Internet. El potencial. Y vamos a tener que descubrir cómo producir estas cosas. Habrá que trabajar mucho sobre cómo obligarlos a responder desde una base de conocimientos, etc. Pero la suma total de nuevas capacidades que hemos obtenido y que es probable que obtengamos me parece tan grande como Internet. Puede que me equivoque, pero ahí es donde yo...
Des: Ese es el orden de magnitud. Entonces, más grande que Google.
“Creo que es un momento Sputnik: la gente mirará esto y dirá: Wow, algo está llegando aquí”.
Fergal: Sí, eso creo. No solo ChatGPT, que salió la semana pasada. Pero el progreso total parece que estamos viendo capacidades de razonamiento dramáticamente mejores, razonamiento elemental y razonamiento que puede estar equivocado, pero a veces bastante convincente. No lo hubiera creído si me hubieran contado su éxito en los desafíos de programación hace cinco años. Así que creo que hay algo grande aquí. Hay mucha productividad que se puede desbloquear, y es muy difícil decir dónde se detendrá. Y también, creo que hay bucles de retroalimentación aquí. Siento que este es un momento Sputnik. Con ChatGPT, puede decir: "Oye, la tecnología no es mucho mejor" o "se está exagerando", pero no subestimes la capacidad de la baja fricción para entrar y jugar con algo. Todo el mundo puede hacer eso. Y creo que es un momento Sputnik: la gente mirará esto y dirá: "Guau, algo está llegando aquí".
Des: Referencia del Sputnik aquí, lo siento.
Fergal: Esto fue, Dios mío, allá por los años cincuenta. Los rusos pusieron este satélite en el espacio que orbitaba la tierra y transmitía señales de radio. Y la gente de todo el mundo podría sintonizar repentinamente su radio y recibir esta señal proveniente del Sputnik. Y esta es la narrativa que generalmente se cuenta en Occidente. La gente de repente se despertó y dijo: "Vaya, hay un cambio de capacidad aquí del que no sabíamos". Y luego, supuestamente, esto causó la carrera espacial y el Apolo y todo eso. Entonces, siento que tal vez la reacción aún se está desarrollando, pero veo a muchas personas que realmente no estaban prestando atención a esto y que de repente están emocionadas por eso. Tal vez el bombo se apague. Estamos en el medio, por lo que es difícil de predecir. Pero si esto no es todo, pronto será otra cosa.
¿Puede ChatGPT potenciar la atención al cliente?
Des: ¿ Qué pasa con la atención al cliente? Intercom es una plataforma de soporte al cliente, y el potencial de que GPTChat, GPT-3.5 o cualquiera de estas tecnologías puedan hacer que el soporte sea mejor, más rápido, más barato, más exitoso o más integral es algo que siempre hemos considerado. Sé que has estado pensando en esto desde el punto de vista del soporte. Anteriormente, hablamos sobre cómo hay entornos en los que una respuesta incorrecta es muy, muy mala, y hay entornos en los que en realidad es bastante tolerable. Tenemos 25.000 clientes. Algunos son bancos, que probablemente no puedan permitirse uno. Other people would happily afford one because it means they can support all their customers faster. What do you think about this technology as it applies to support?
“We made a conscious design decision very early on that it would never say anything that hadn't been explicitly curated by the team”
Fergal: Yeah. We try and pay a lot of attention to changes in developments in this space. We were looking at GPT-3 pretty early, and our initial thoughts were that the accuracy was not quite there yet. The hallucination problem is a big problem to just nakedly say, “Hey, it has consumed the Intercom help center. Let's ask questions about resetting my two-factor authentication.” It just failed. We've been looking at the GPT-3.5 family and some other models recently. We have resolution bots in production. It's not using language models that are as large – they're maybe medium language models, embeddings, and so on. And it gets very good accuracy at the sort of thing it does. We made a conscious design decision very early on that it would never say anything that hadn't been explicitly curated by the team. I think that worked well for a lot of businesses because it might deliver the wrong answer sometimes – we try carefully to control that – but it's always going to deliver you a relevant answer or an answer that's not going to mislead you.
Des: Yeah, and specifically, the way in which it gets it wrong is it might give you a wrong correct answer. The thing it gives you will be something that somebody in your company has said: “This is a correct, cohesive piece of text.” It just might not be the right one for the question.
Fergal: And we encourage our customers to always write the answer in such a way that, “Oh, to reset your account, do the following thing.” So if it is delivered wrongly, at least the end user is not disoriented.
Des: Yes, they don't go and do it for no reason.
Fergal: They can go like, “Oh, this is a stupid bot. It gave me the wrong answer,” as opposed to, “I am misled, and I'm now going to waste a bunch of time…” So initially, with GPT-3, we were like, “Oh, it's really cool but difficult to see the end-to-end usage of this.” It's been a couple of years, and I'm not aware of anyone who has deployed GPT-3 in a total end-to-end way to answer the customer's questions.
Des: End-to-end meaning no agent in the mix. Because the risk there is that there'll be an unknown unknown. If someone goes to your business and asks a question that you didn't see because GPT dealt with it, gave it the wrong answer, and the customer goes off and does the wrong thing, no one actually knows what's happened except for the bot. And the bot doesn't even know it's wrong because it doesn't know if it's spoofing or not. So you end up in a potentially dangerous world.
Fergal: Exactly, and we've quite carefully designed the resolution bot to avoid getting into those situations. We calibrate it, we check that, when it says something helped the customer, it did help the customer, and we have ways of checking that between explicit and implicit customer feedback. But it's conservatively designed.
“The probability of giving the wrong answer and totally making stuff up is too high, at least to use it for end users in a naked way”
At some point, these open domain question-answering things or something you could build on the top of GPT-3.5 will get good enough that, for a certain portion of our customers, that equation changes where it's like, “Hey, I'm not answering medically critical things,” and the inaccuracy rate has fallen. It was 90% accurate; now it's 99% accurate; now it's 99.9%. How commonly it gives you the wrong answer will eventually fall below the critical threshold where it's like, “Hey, just being able to take this out of the box is worth it. I don't have to go and curate these answers.” So that will probably come. When will that come, is it here today, or has it come in the last few weeks with davinci-003 and ChatGPT is obviously something we've been assessing.
And it's certainly a work in progress because you always have to go and play with the prompts. When you interface with ChatGPT or GPT-3, we could take an end user's question and ramp it in something that says, “Hey, you're a very conservative customer support agent. If you don't know something or you're not completely sure, you always say, 'I don't know,'” and you reason with it step by step, and you're super conservative, and maybe we can wrap it to get the benefit of the deeper natural language understanding, which these models have, and the deeper ability to synthesize and rewrite text, which can be beautiful. It can be really nice. Maybe we can get those benefits and constrain the hallucinations and the errors enough.
Des: Is that another version of walking through this line by line?
Fergal: Yeah.
Des: Is that whole field what people call prompt engineering?
Fergal: Prompt engineering. We're joking that the machine learning team at Intercom is going to be a prompt engineering team, and we're joking about that as we play with it. But there are people who really sweat the prompts and have gotten really good at prompt engineering. It's a real thing, and it makes it difficult to say, “Oh, this new tech is definitely not good enough,” because what will the best prompts be in six months? That said, we don't think it's here yet. All the prompt engineering we've done on davinci in the last week can get it to be more conservative, but not enough. The probability of giving the wrong answer and totally making stuff up is too high, at least to use it for end users in a naked way.
Support agent augmentation
Des: We talked earlier about the doctor augmentation question. Is there a version of it where you can do it from the agent augmentation question?
Fergal: Well, at Intercom, we've been thinking about this area very deeply for an extended period, and in the last few months, we have had internal discussions about the future of the customer support inbox and generative models – models that generate stuff as opposed to just classify things – and we believe that their time is coming for support augmentation, and I think that seeing ChatGPT explode recently and all the excitement about it is evidence of that. It's evidence that these things are getting good. And there are a lot of things you can do in the inbox or in a context like the inbox to constrain and sand off the rougher edges of these things.
An example might be to curate the responses it's allowed to give and use the generative model to predict what should happen, but only actually allow the suggestion to present to the teammate, like a macro or a conversation response, and hopefully provide a beautiful interface to make it easy for them. Alternatively, to have it go and search for a new knowledge base, and there are techniques you can use to try and constrain it to that. And then, maybe show, “This is the answer that our bot wrote from your knowledge base,” and side by side with that, “Here is the original source article,” so that the customer support rep can look at them side by side-
Des: And see if it adds up.
Fergal: Yeah, and see if it adds up.
“They have to go and find the article themselves, then they have to read it and check the answer, and then they have to copy paste it and reformat it. So maybe there's a productivity boost”
Des: So there's an angle where the AI explains its epistemological basis for how it concludes this. And in that world, if you're a support rep, you don't even need to know if it's actually right – you just need to know if the logic stacks up. Obviously, it'd be better if you knew if it was right, as well. But if it says, “Hey, I read how to reset a 2FA article linked here. I suggest that this is how you reset 2FA,” you're probably, “That's the right article to read.”
Fergal: The problem is that when they get it wrong, they're so good at seeming right that they'll-
Des: Invent the idea of the article.
Fergal: Yeah, yeah, totally. And so, you might need to go beyond that. You might need to have the untrusted part of the interface, which is maybe the composer, and it pre-fills something, and there's also a trusted part of the interface beside that, maybe just above it, that shows the original source article, the relevant paragraph. And so, you can look at both.
Obviously, we study customer support flow very carefully and closely, and we absolutely have some support agents where it's like, “Okay, I got the question,” and they have to go and find an article themselves. Some expert ones know it, they're instantly there, and they know exactly where to go. Maybe they've got a macro that does it, but then maybe someone who's newer in the company and they're still being trained in, or maybe it's only part of their job, they have to go and find the article themselves, then they have to read it and check the answer, and then they have to copy paste it and reformat it. So maybe there's a productivity boost. Maybe you can make someone twice as efficient or something.
Des: All that agent behavior will also inform the system. If you put it live and agents are forever going “Wrong, right, wrong, right,” all that feeds back in, and then it gets better. Or, if they're rewriting the answer to be more accurate, I assume we can learn from that. And then, very quickly, the system converges on all the right answers.
“There are a lot of trade-offs. It's very easy to say we want a system that will learn in production. But then it's like okay, who has to maintain that? Who has to debug that?”
Fergal: We could certainly build a system that does all of those things. GPT-3.5 won't nakedly do it. If you decide to build on it as a building block, not even an assessment, is that the right system to build on? Its capability is very good, but it's not the only generative model in town. But whatever we build on, and we're getting really into the roadmap, we would potentially build a learning loop. With most of our tech at the moment where we do that, we absolutely gather feedback. There are some parts of the resolution bot like predictive answers, where it predicts things to end users, where it actually does use what the users say, like, “that helps” as a training signal, and potentially we can end up building that.
There are a lot of trade-offs. It's very easy to say, “We want a system that will learn in production. But then it's like, “Okay, who has to maintain that? Who has to debug that?” Sometimes it's easier to get it to a stable stage and then lock it. So, it depends. We did metrics and analytics whenever we upgrade. We're getting into the details of our models and how we check the accuracy and calibrate them, and stuff.
Des: I know our inbox has this feature where, based on what you've said before, if I jump in the inbox, before I've said anything to try and start a conversation, it'll say, “Hey, I'm Des, co-founder of Intercom, thrilled to be chatting with you.” Whatever my most common thing is, that's automatically pre-written for me.
Fergal: Yep. Smart replies.
Des: Am I right in saying that it's just the mini version in some sense of what we're describing here? Because we were really just going for salutations and maybe ends and maybe handoffs, and the common boilerplate of a support conversation should be there for you. And that, alone, is a productivity boost. But the idea that we could get one degree sharper, and somewhere in the middle of all that boilerplate is, “Here's the meat of the answer,” is where you're talking about going, right?
“We believe its time is coming, and we're trying to figure out the best ways to make people more efficient and to leverage it in a production setting that actually works for people”
Fergal: Yeah, totally. And again, to separate things out – there's just the change in the world, an increased capability, GPT-3.5, and then there's the stuff that we're working on as we grind away on this problem and try to deliver things that will make it better for our customers. I think the capabilities have really improved, but we're still figuring out if we can use this. Is there a shortcut to where we want to go? Maybe we can use these capabilities as building blocks, there are loads of ways to potentially use them as building blocks. But in terms of the direction we were going on already anyway, there are a lot of things agents do such as greetings where it's very obvious. We don't ever want to annoy people. We don't ever want to have an agent read through a bunch of text and then be like, “Oh, that's useless. Why did you do that?” It reduces their trust in the system. It slows them down. We want to help them out.
Entonces, para respuestas inteligentes, comenzamos con saludos. Era simplemente algo obvio de hacer. Podemos saber muy fácilmente cuándo es probable que desee un saludo: entra en una nueva conversación y nadie le ha dicho nada al usuario final antes. Es muy obvio. Esa fue una fruta madura. A la gente le gustó mucho la interfaz de usuario. Es fácil, y es de baja fricción. Ahora, solo podemos hacer una sola sugerencia allí, y hay ocasiones en las que es difícil para el sistema saberlo. Por el momento, tenemos este flujo de macros y la gente usa mucho las macros. Tienen que elegir cuál de las macros. ¿Deberíamos sugerir esas macros a las personas de manera proactiva? Tal vez no queramos llenar previamente el compositor, tal vez solo queremos mostrar algunas sugerencias de macros que son contextuales. Hay muchos flujos que son repetitivos. Hemos estado trabajando en cosas como la búsqueda de flujo, tratando de comprender los pasos comunes por los que pasa la gente.
Supongo que el gran mensaje es que creemos que este tipo de tecnología generativa debe moldearse y mejorarse para que no sea molesto, para que no le dé cosas incorrectas y lo engañe, y ciertamente no lo presione más trabajo o estrés. de lo que tendrías sin él. Creemos que se acerca su momento, y estamos tratando de descubrir las mejores maneras de hacer que las personas sean más eficientes y aprovecharlas en un entorno de producción que realmente funcione para las personas.
AI-ML más allá del soporte
Des: Estamos hablando de soporte. ¿Qué otras industrias cree que verán el valor de esto en los primeros días? Parece que el soporte es un entorno rico en objetivos para este tipo de tecnología, pero ¿hay otros?
Fergal: Obviamente, somos optimistas sobre el soporte. Hay tantas cosas que están escritas. Es como, "Oh, el agente reconoce desde el principio que este es un problema del siguiente tipo", como restablecer mi cuenta o algo así. Hay tanta estructura en esa área. Hay una combinación de la estructura del problema real del cliente y la tecnología que es muy buena para manejar el lenguaje natural y remodelarlo. Podemos ver un botón que puede presionar para hacer que lo que está en el compositor sea más formal, o un botón para hacerlo más apologético, ¿verdad? Creemos que es un área muy, muy emocionante en este momento. No quiero entrar en todo de manera totalmente especulativa. Pero incluso antes de esto, el equipo de aprendizaje automático ya estaba involucrado en esta área. Somos grandes creyentes en el apoyo.
Apoyo externo, cualquier cosa donde haya una estructura en la tarea y un aprobador humano que pueda discernir cuándo una respuesta es correcta o incorrecta. Esto parecerá una intuición extraña, pero en informática o criptografía, prestamos atención a ciertos tipos de problemas en los que es fácil verificar que una respuesta es correcta, pero es difícil ir y encontrar esa respuesta. Clases de complejidad, todo ese tipo de cosas. Pero sí, la gente está interesada en problemas como ese. No puedo evitar pensar que hay una intuición similar aquí. Tienes un desafío en el que es bastante fácil para un ser humano verificar si una respuesta es correcta o no, pero es laborioso para ellos ir a buscarla y descubrirla. O tal vez al equipo no le importa si la respuesta es lo suficientemente correcta porque no existe tal cosa como "escríbeme un poema sobre X, Y".
Des: Esa clase de problema donde validar la respuesta es muy barato pero crearla es muy costoso, o no hay una respuesta válida.
Fergal: Y también, la respuesta puede ser diferente en seis meses o un año. Podría ser que en un año, la respuesta podría ser algo más como: "En cualquier momento en que una computadora pueda verificar si la respuesta es correcta o no". O podría ser que cada vez que el dominio sea lo suficientemente simple, el sistema de aprendizaje automático definitivamente le dará o muy probablemente le dará la respuesta correcta. Es una cosa en evolución. Creo que es difícil establecer límites en este momento.
“¿Qué enviaremos en enero?”
Otros dominios como la programación informática, por ejemplo. La persona sentada frente a su terminal tiene que revisar el código de todos modos, y puede hacerlo, y puede haber un error sutil en alguna parte de su código. A veces es más fácil escribir el código usted mismo que identificar un error sutil. Pero muchas veces, si miras el flujo de trabajo de un programador de computadoras, es como, “Oh, sé cómo hacer esto, pero no recuerdo exactamente cómo usar esta biblioteca. Voy a buscarlo en Google. Voy a ir al desbordamiento de pila”. Y la idea es que cuando veas la respuesta número tres en Stack Over, dirás: “Oh, sí, así es. Eso es lo que quiero." Hay todo un flujo de trabajo como ese que ocupa gran parte del tiempo del programador, y aparece Copilot y hay un final alrededor de eso. Y luego reformatea el código para que encaje. Eso es extremadamente poderoso.
Comenzamos a hablar sobre "¿Qué es Copilot para atención al cliente?" Tenemos prototipos y hay mucho con lo que puedes jugar. Tal vez no respondes la pregunta completa, solo le das la respuesta de dos o tres palabras, la escribe, y luego la modificas y dices: "Hazlo más formal, hazlo más largo, hazlo". así de corto. Parece que hay mucho que podemos hacer allí.
Des: ¿Y qué enviaremos en enero?
Fergal: Voy a tener que censurar esta parte de la conversación. Enviaremos algo.
Des: Sí, apuesto. Bueno. Esto ha sido genial. Nos pondremos en contacto, supongo, en dos semanas más cuando todo el mundo haya cambiado de nuevo. Pero si no, podrían ser unos meses. Muchas gracias.
Fergal: Para cuando esto esté en la web, estoy seguro de que estará desactualizado y parecerá una tontería. Pero esa es la naturaleza de este negocio.
Des: Absolutamente. Por eso estás trabajando en ello.
Fergal: Por eso estamos trabajando. Es emocionante.