Интерком о продукте: как ChatGPT изменил все
Опубликовано: 2022-12-10Может быть, вы действительно увлекаетесь глубокими нейронными сетями и обработкой естественного языка, может быть, вы просто технический энтузиаст — скорее всего, вы уже наткнулись на ChatGPT, совершенно новый чат-бот OpenAI. Ажиотаж растет, но остается вопрос: действительно ли это меняет правила игры или еще слишком рано говорить об этом?
В недавнем выпуске наш директор по машинному обучению Фергал Рейд пролил свет на последние достижения в технологии нейронных сетей. Мы болтали о DALL-E, GPT-3 и о том, является ли шумиха вокруг ИИ только этим или в этом что-то есть. Он сказал нам, что все начинает масштабироваться. И вот так, мы снова в этом.
ChatGPT, прототип чат-бота OpenAI с искусственным интеллектом, был запущен на прошлой неделе, и он гуляет по залам Интернета, вызывая удивленную реакцию от несгибаемых техно-позитивистов до вечных техноскептиков. Бот работает на основе GPT-3.5, ИИ, генерирующего текст, и, согласно OpenAI, он может генерировать текст в формате диалога, что «позволяет отвечать на дополнительные вопросы, признавать свои ошибки, оспаривать неверные предпосылки и отклонять неуместные запросы».
Хотя еще рано говорить о том, что он применяется в реальных условиях, он, несомненно, очень многообещающий. На самом деле, по мнению Фергала Рейда, изменение возможностей, которое мы наблюдали за последний год, предполагает, что это пространство может быть «таким же большим, как Интернет». И именно поэтому мы решили представить вам специальный выпуск об этих последних разработках в мире ИИ, о том, что они означают, и не пора ли применить их в реальных сценариях, таких как поддержка клиентов.
Вот некоторые из наших любимых выводов из разговора:
- Увеличивая масштаб и обучая эти модели все большим и большим количеством данных, эти боты начали демонстрировать качественные изменения, такие как изучение абстрактных понятий без контролируемого обучения.
- Прямо сейчас ChatGPT лучше всего работает с задачами, где легко проверить ответ, или творческими контекстами, где нет такой вещи, как правильный ответ.
- Хотя мы наблюдаем значительно лучшие способности к рассуждениям у этих моделей, у них все еще есть проблемы с галлюцинациями — если они чего-то не знают, они это выдумывают.
- Если вы предложите этим моделям подсказку «давайте подумаем шаг за шагом», показатели точности повысятся, и вы получите более качественные входные данные, чем если бы они просто давали ответ мгновенно.
- Наши технологические интерфейсы постепенно становятся более разговорными, и мы только начинаем видеть, что качество понимания естественного языка становится достаточно хорошим, чтобы разблокировать их.
- Есть много интересных применений этой технологии в поддержке, таких как расширение агентов, но есть работа, которую нужно проделать, прежде чем ее можно будет развернуть.
Если вам нравится наша дискуссия, посмотрите другие выпуски нашего подкаста. Вы можете подписаться на iTunes, Spotify, YouTube или получить RSS-канал в выбранном вами проигрывателе. Далее следует слегка отредактированная стенограмма эпизода.
Большой дебют ChatGPT
Дес Трейнор: Привет, Фергал.
Фергал Рид: Привет, ребята. Как это работает? Спасибо, что вернул меня.
Дес Трейнор: Хорошо. Хорошо, что ты вернулся. Всего пять недель назад вы были в подкасте, чтобы рассказать о том, что происходит с ИИ. И ты снова вернулся, потому что произошло больше вещей.
Фергал Рид: Это были напряженные пять недель.
Дес Трейнор: Это были напряженные пять недель и напряженные семь дней. Семь дней назад была среда, 30 ноября, и я получил электронное письмо с приглашением на открытое бета-тестирование вещи под названием ChatGPT. Что случилось?
«Это стало вирусным, это стало диким, и все были очень взволнованы»
Фергал Рид: Что случилось? Итак, это интересный вопрос. OpenAI выпустила свою самую последнюю систему машинного обучения, систему искусственного интеллекта, и они выпустили ее очень публично, и это была ChatGPT. И это довольно похоже на их нынешнее предложение, GPT-3, GPT-3.5, но оно было упаковано по-другому, в него не нужно было вставлять кредитную карту, и я думаю, все просто видели, что «Вау, было огромное здесь недавно произошли изменения в возможностях». И это стало вирусным, оно стало безумным, и все были очень взволнованы. И примерно в то же время они выпустили свою самую последнюю модель GPT-3.5, такую как davinci-003, которая во многом делает то же самое, но, может быть, немного хуже говорит: «Эй, я большая языковая модель и не могу сделать это для вас». Но он похож по возможностям.
Дес Трейнор: Давайте дадим несколько быстрых определений, чтобы всех заземлить. Очевидно, что OpenAI — это организация, которая много работает над AI и ML. Вы сказали GPT: что это означает?
Фергал Рид: На самом деле я не помню. Трансформатор общего назначения или что-то в этом роде [Generative Pre-Trained Transformer].
Дес Трейнор: Но это имя что-нибудь значит?
Фергал Рид: Да, я думаю, ключевой элемент — это трансформер. Долгое время люди пытались понять: «Эй, как лучше всего обучать нейронные сети, которые справляются с задачами обработки текста и естественного языка?» И это было долгое время, были эти LSTM [длинная кратковременная память], которые сочетали краткосрочную структуру вашего текста с долгосрочной структурой вашего предложения и моделями последовательности, и все работали над этим. .
«По мере того, как вы загружаете все больше и больше обучающих данных, они, кажется, демонстрируют качественные изменения с точки зрения того, что они могут делать. Так что это похоже на: «Эй, кажется, это вроде как понятно»».
А затем Google опубликовал довольно революционную статью «Внимание — это все, что вам нужно» с довольно большим тезисом: «Эй, вместо этих традиционных моделей последовательности, вот новый способ сделать это, новая модель», которую они называют модель трансформатора или архитектура трансформатора. Когда вы смотрите на конкретное слово, модель запоминает другие части предложения, на которые вам также следует смотреть в связи с этим словом. Вы можете изучать вещи немного эффективнее, чем с моделями последовательности, и вы можете обучать их быстрее, эффективнее и масштабировать их дальше.
Итак, все начали использовать преобразователи для всех видов данных последовательности. Кроме того, одна вещь, в которую OpenAI действительно внесла свой вклад, — это идея о том, что вы можете взять эти архитектуры-трансформеры и действительно увеличить масштаб. Вы можете добавить гораздо больше обучающих данных и намного больше вычислений. И, возможно, очень удивительно, и я действительно думаю, что это ключевой момент, когда вы вводите все больше и больше обучающих данных, они, кажется, демонстрируют качественные изменения с точки зрения того, что они могут делать. Итак, это похоже на: «Эй, кажется, это вроде как понимает это». Или я могу сказать «сделай это счастливее» или «сделай это печальнее», что является очень абстрактным понятием. Где оно этому научилось? Мы не давали этому контролируемому обучению, когда вы кодируете определение грусти или счастья. Он только начал изучать эти абстрактные концепции и эти абстракции из массы обучающих данных.
По сути, OpenAI и некоторые другие просто продвигают эту часть масштабирования все больше и больше. Есть и другие вещи. С GPT-3.5 они обучают его немного по-другому, чтобы попытаться больше выровнять его. Но, по сути, главное здесь — это большой масштаб, множество обучающих данных и, на самом деле, простые модели. Вы можете делать замечательные вещи, о которых 20 лет назад люди сказали бы: «Ну, компьютер никогда этого не сделает; он никогда не сможет написать мне песню», а теперь он такой: «Какую песню ты бы хотел?» «Сделайте звук более счастливым». Итак, да, это замечательное время, потому что многие вещи, которые мы считали областью только человеческого интеллекта, просто нуждались в тоннах обучающих данных и большой модели.
Может ли ChatGPT быть креативным?
Дес: И затем, что произошло с прошлой среды, так это то, что Твиттер, а затем семь дней спустя, общий Интернет или средства массовой информации, подхватили это. Я видел все виды откровенно выдающихся применений, с точки зрения которых я просто не мог себе представить, что это возможно. Я видел «напишите мне инструкцию по копированию DVD в стиле песни Тейлор Свифт, где она злится из-за того, что рассталась со своим парнем» или что-то в этом роде. Но на самом деле у него есть шанс. Кроме того, я видел других, например, «как установить Intercom на iOS», и это тоже относительно правильно. И все между ними. И самая сумасшедшая вещь, которую я видел, заключается в том, что для любой из этих вещей вы можете вернуться назад и сказать: «А теперь дайте мне это в стиле гангстера 1940-х годов и скажите это по-немецки», и «Теперь переведите немецкий на испанский». , но также добавить больше гнева», или что-то в этом роде. И все это он делает немедленно, практически с нулевой задержкой, и во всех случаях вы можете видеть, что он делает.
Я использую один личный пример: когда вы пытаетесь рассказать своему ребенку сказку перед сном, у вас может не хватить ракурсов. Существует столько разных способов, чтобы, например, три дракона могли уйти в лес и заблудиться. Тем не менее, GPT-3 на самом деле отлично подходит для того, чтобы дать мне еще 10 историй. Что я заметил, так это то, что в течение долгого времени в истории с ИИ, даже совсем недавно, несколько лет назад, люди говорили: «Он отлично подходит для конкретных вещей, но он никак не может справиться с творчеством». Справедливо ли сказать, что мы на самом деле находимся в обратном мире?
Фергал: Ага. Я имею в виду, когда люди говорят об ИИ, они всегда говорят: «Ну, первое, что он собирается делать, — это эти механические, ручные задачи». И тогда у людей будет все это время, чтобы пойти и сделать эти очень творческие вещи-
Des: Иди в лес и-
Фергал: Делайте искусство все время, красивые стихи. А потом такое: «О, вау. Эти ручные задачи требуют действительно четкого зрения и обработки вещей для решения. Но творчество, где нет неправильного ответа, и нет штрафа за неправильный ответ… Да, стихотворение не совсем идеальное, но это нормально, и отрендеренный образ DALL·E 2 может быть не совсем тем, что вы имели в виду, но это все еще красивое изображение, и вы можете выбрать 1 из 10, это работает.
«Кажется, эта штука очень хороша в такой интуитивной части, и она очень хороша в том, чтобы обмануть нашу интуитивную часть. Поэтому, когда вы смотрите на это с первого взгляда, это выглядит правильно ».
Des: И вы также можете видеть, для чего это делается. Я думаю, одна вещь, которую люди не понимают, это то, что это возвращает вам то, что, вероятно, было у вас в голове, потому что вы все равно это увидите. Когда я говорю: «Дайте мне инструкции, чтобы открыть счет в банке в стиле песни Rage Against the Machine», я вижу: «Да, мы будем драться, чтобы открыть счет, и мы будем бесить всех». ночь." И я вижу, что он делает. Я даже не применяю здесь шкалу точности, я просто говорю: «А, ты постарался», и ты отдаешь должное этому.
Фергал: Да, я думаю, что это, вероятно, правда. В какой степени мы умеем оценивать близкие промахи с точки зрения нефактической информации? Может быть, мы просто не так хороши в этом. Может быть, мы не заботимся об этом глубоко. И я имею в виду, что нам придется рассмотреть вопрос о фактах, но даже если вы зададите вопрос о фактах… Скажем, вы зададите вопрос в службу поддержки клиентов. Недавно я спросил одного о двухфакторной аутентификации: «Как вы сбрасываете двухфакторную аутентификацию Intercom?» И в ответ я получил что-то вроде: «Вау, это отличный ответ». И я смотрю на это и «подождите, это не то, как вы сбрасываете свой 2FA». И это красивый URL-адрес, в нем есть ссылка на статью нашего справочного центра, и это тоже было выдумано.
«Я думаю, что большинство людей, в том числе и мы сами, у которых взорван мозг, взорваны идеей правдоподобности на первый взгляд».
Люди говорят о людях и человеческом мозге, и у нас есть интуитивная часть, которая действительно хорошо распознает закономерности, а затем у нас есть логическая, аналитическая, рассуждающая часть, которая медленнее и точнее. Кажется, что эта штука очень хороша в такого рода интуитивных действиях, и она очень хороша в обмане наших интуитивных действий. Поэтому, когда вы смотрите на это с первого взгляда, это выглядит правильно, и пока вы действительно не примените свои более медленные системные рассуждения, это может быть трудно увидеть. И я думаю, что эта интуитивная часть, это размышление, вероятно, является тем, на что мы больше полагаемся, чтобы судить о творческих усилиях, искусстве, картинах и сонетах. По крайней мере изначально. Итак, он очень хорош в создании вещей, правдоподобных на первый взгляд, но потом, может быть, когда вы на самом деле потратите время на то, чтобы подумать об этом, вы-
Des: См. проблемы. И быть правдоподобным на первый взгляд действительно важно, потому что я думаю, что большинство людей, включая нас самих, у которых взорвался мозг, взорваны идеей правдоподобности на первый взгляд. Вы отдаете ему должное за это, несмотря на то, что он может не иметь большой применимости в реальном мире. Вы никогда не повесите эту картину в музее, и вы никогда не прочтете этот сонет, и вы никогда не получите награду за этот роман.
Я вижу, как многие люди, такие как контент-маркетологи, говорят что-то вроде: «Это навсегда изменит мою работу». И я такой: «Да, но, может быть, не так, как ты думаешь. Если вы думаете, что ваша работа будет заключаться в том, чтобы просто вводить подсказки и нажимать вкладки, возможно, ваша работа может не существовать». Точно так же я вижу, как менеджеры в Твиттере говорят: «О, это значительно облегчит сезон оценки эффективности». Во всех этих случаях я как-
Фергал: С этим что-то не так.
«Возможно, действительно большой вклад, который эта технология вносит в человечество, — это честный разговор о том, какой объем работы мы можем устранить».
Дес: Точно. Вы все здесь молчите вслух, если ваша работа на самом деле связана с написанием ложной чуши, которая может быть...
Фергал: Зачем ты вообще это делаешь?
Дес: Что ты делаешь? В яблочко. Я понимаю, что в случае, скажем, контент-маркетинга могут быть причины, по которым вам просто нужно ранжироваться по определенным словам, но не путайте это с ремеслом письма.
Фергал: Я имею в виду, возможно, это и хорошо. Вполне возможно, что бредовая работа, вещи, которые человек считает бесполезными, например, эти обзоры производительности, могут просто передать GPT. А затем, через некоторое время, все как бы понимают, что происходит, и человек с другой стороны говорит: «Ну, я передам это GPT для анализа». И, может быть, тогда мы сможем честно поговорить о том, какое ядро на самом деле действительно ценно и как избавиться от работы.
Дез: Зачем мы занимаемся всей этой перформативной ерундой?
Фергал: Да, вполне возможно, что действительно большой вклад, который эта технология вносит в человечество, — это честный разговор о том, сколько работы мы можем исключить. И это может быть здорово. Это может сильно изменить ситуацию.
Проблема с галлюцинациями чат-ботов
Дес: Если говорить о реальных приложениях, о чем я думаю, по крайней мере, о моем непосредственном опыте, и даже о том, что вы сказали о варианте использования 2FA, вы не можете развернуть его напрямую сегодня во многих областях, где есть определенная правильный ответ, особенно если риск дать неправильный ответ довольно высок. Таким образом, вы не хотите, чтобы эта штука потребляла медицинские записи и выплевывала диагнозы, потому что я могу гарантировать вам, что диагноз будет действительно хорошо написан, действительно правдоподобен для неспециалиста и, возможно, будет иметь низкую вероятность точности. Мы не знаем вероятность точности, но она будет варьироваться в зависимости от входных данных.
Фергал: Меня бы очень напугало, если бы кто-нибудь пришел ко мне и сказал: «Эй, Фергал, мы хотим, чтобы твоя команда начала использовать это для медицинской диагностики. Было бы здорово." Это было бы очень страшно.
«Во-первых, у этой технологии абсолютно проблемы с тем, что многие люди называют галлюцинациями, где, если она чего-то не знает, она просто это выдумывает».
Дез: Но есть и другие, может быть, менее серьезные, но столь же неточные варианты использования, где вы могли бы использовать его для диагностики заключения в судебном деле. Опять же, я уверен, что это звучало бы хорошо, и это было бы обернуто всем правильным шаблонным языком, но в конечном итоге он все равно не знал бы, что он говорит. Я попросил его дать мне идеи о том, как создать современный почтовый клиент, чтобы конкурировать и побеждать в области производительности. И читается очень хорошо, но только когда поцарапаешь, понимаешь, что на самом деле там ничего нет. Это просто красиво звучащее слово за красиво звучащим словом без особо острых мнений. Для меня это заставляет задуматься о том, как мы могли бы сделать это более применимым.
Фергал: Прежде чем мы углубимся в это, есть две вещи, которые, я думаю, будут полезны здесь. Во-первых, у этой технологии абсолютно проблемы с тем, что многие люди называют галлюцинациями, когда, если она чего-то не знает, она просто это выдумывает. Это пагубно, и есть много областей, где вероятность галлюцинации в 1% является нарушением условий сделки. И нам всем понравилось бы, если бы эта вероятность была равна нулю. Но в то же время точность повысилась по сравнению с тем, где уровень техники был год назад, по сравнению с тем, где он был три года назад. Давать правильный ответ в большинстве случаев гораздо лучше. Это значительно лучше в «понимании». Я изо всех сил пытаюсь сказать: «О, это просто распознает образы, он ничего не понимает», или, по крайней мере, я изо всех сил пытаюсь сказать это без «Что вы подразумеваете под пониманием?»
Мы определенно на пути к тому, что, хотя он все еще будет решать проблемы, и это большая проблема, он становится все лучше и лучше в том, чтобы давать вам правильный ответ, когда у него есть правильный ответ. Итак, как же выглядит эта кривая? На данный момент это трудно распаковать, но мы получаем значительно лучшие модели, которые намного лучше делают правильные вещи, но иногда все еще делают катастрофически неправильные вещи. Мы должны обратить внимание на обе эти вещи. Да, на данный момент это очень сложно развернуть во многих производственных условиях, по крайней мере, без какого-либо облака или каких-либо возможностей вокруг этого, но это также становится намного лучше. Если вы спросите у него что-то, что действительно хорошо освещено в Википедии, оно становится лучше.
Ярким примером этого является компьютерное программирование. Вы можете попросить его о задаче программирования, которую он еще не видел, и если вы попросите его сгенерировать целый модуль или систему, он как бы борется, у вас есть своего рода переломный момент. Но если вы попросите его написать функцию, пусть даже новую, придуманную, выходящую за рамки образца, он может дать вам неверный ответ, но шансы на то, что он даст вам что-то полезное, резко возросли.
Дес: Вы говорили раньше, что это в основном проходит первый этап нашего интервью по программированию, какой-то вопрос, основанный на массивах. Это просто гвоздь.
«Все начинают говорить о том, что грамматика собаки не очень хороша, и это очень важно, но не упускайте из виду тот факт, что собака говорит»
Фергал: Ага. В яблочко. У нас есть задача по программированию для решения проблем для инженеров, приходящих в Intercom. Несколько лет назад мне пришлось сидеть на них самому, и мы очень стараемся, чтобы их не было в Интернете. И если это так, мы пытаемся повторить и изменить его. И мы не в курсе, так что я не могу гарантировать, что этого нет. Но эта штука породила решение, которое просто пригвоздило его, и это проблема типа «старший инженер у доски в течение получаса». И он просто делает это одним выстрелом, одним движением.
Des: Ноль секунд.
Фергал: Ноль секунд. И это очень впечатляет. И, как и половина остального мира, я также играл с ChatGPT или GPT-3.5, и я дал ему много других вопросов о соревнованиях по программированию или вопросов по программированию, которые, я почти уверен, не соответствуют выборке. , и это делает очень хорошую работу. И это качественное изменение точности. Вы должны проверить свой код и убедиться, что он правильный, но это очень интересно и захватывающе.
Очень интересна также идея о том, что у него есть хотя бы рудиментарные возможности самоанализа. Если он пишет об ошибке, вы можете сказать: «Эй, это ошибка. Ты можешь починить это?" И иногда это дает вам прекрасное объяснение этому. И все эти модели обучены делать предсказание токенов; предсказать следующие несколько слов. По крайней мере традиционно, потому что я предполагаю, что он немного изменился за последний год, но основная часть обучения состоит только в том, чтобы предсказать следующий токен, предсказать следующее слово. И здесь происходит что-то удивительное — просто делая это в масштабе, вы достигаете определенного уровня понимания.
Я не хочу, чтобы это затерялось в более широкой дискуссии о галлюцинациях, которые реальны, и люди, возможно, не уделяли им должного внимания на прошлой неделе. Но есть эта метафора, не помню, кто ее придумал, о говорящей собаке, и кто-то говорит вам, что хочет, чтобы вы познакомились с их новой говорящей собакой, а вы такой: «Собаки не умеют говорить. ” Но вы подходите к собаке, и собака разговаривает с вами. Все начинают говорить о том, что грамматика собаки не очень хороша, и это очень важно, но не упускайте из виду тот факт, что собака говорит. Галлюцинации для меня таковы. Это кажется большим изменением — возможно, мы не сможем запустить его в производство, но кто знает, где оно будет через год, два года или три года.
«Это похоже на беспилотный автомобиль, верно? Ты должен быть готов взять на себя управление в любой момент».
Дес: Да, галлюцинации для меня вовсе не делают его бесполезным. А давайте будем пессимистами и скажем, что по описанию пациента из пяти абзацев можно сразу поставить точный диагноз на 70%. И в большинстве этих диагностических вопросов есть какой-то быстрый тест, который может проверить, правда это или нет, например: «Похоже, у вас Х, вот быстрый тест на Х», и выясняется, был ли он правильным или нет — это по-прежнему серьезное изменение производительности. Если мы предположим, что вещь все еще несовершенна, но попытаемся извлечь выгоду из точности 70%, возможно, есть еще вещи, которые она может сделать, и которые будут чрезвычайно ценными.
Фергал: У меня есть две мысли по этому поводу. Первая мысль заключается в том, что кому-то нужно изучить это, потому что возможно, что эта вещь имеет отрицательный результат, что новая система с человеком в цикле, доктором и ИИ имеет более высокую вероятность катастрофической ошибки, потому что усталость, переутомление врач иногда не проявляет должного усердия, но перед ними стоит привлекательная, но неправильная система. Это похоже на беспилотный автомобиль, верно? Вы должны быть готовы вступить во владение в любой момент. В этом режиме могут быть области, где система в целом с человеком на самом деле хуже, чем просто-
Des: Люди могут на самом деле доверять.
Фергал: Люди могут переусердствовать. Как они это называют? Нормализация девиантности. Люди изучают это в контексте аварий на ядерных реакторах и тому подобное. Что пошло не так? «О, мы привыкли к этому сокращению, и оно не всегда было действительным», и так далее. Это одна вещь, которую я бы сказал. Но тогда, когда мы думаем о медицинских вещах, контрапункт состоит в том, что в какой-то части мира нет доступа к врачу. Так что я не знаю, где провести эту границу. Трудно провести границу. В конечном счете, в процессе развития эти вещи, вероятно, будут становиться все лучше и лучше, и настолько хороши, что, в конце концов, система в целом действительно превзойдет все, что есть у людей в настоящее время.
Обучение чат-ботов шаг за шагом
Дес: Вы говорили, что когда он генерирует код, вы можете сказать: «Эй, это буги-вуги». Другой пример, который я видел, который был популярен в Твиттере какое-то время, был «Расскажи мне о своих мыслях построчно» или что-то в этом роде. Это как будто вы говорите ему, как думать о вещах, или вы даете ему новую информацию, а затем не заставляете его пересматривать свое мнение. Что там происходит?
Фергал: Я думаю, что там происходит что-то захватывающее, и мы должны поговорить здесь прямо на переднем крае. Это спекуляция, а я зритель – я не делаю эту работу. Я думаю, Google совсем недавно опубликовал статью о том, как большие языковые модели могут самосовершенствоваться, поэтому я думаю, что там есть что-то захватывающее, что стоит распаковать.
Во-первых, около года назад люди обнаружили, что, хотя эти модели часто ошибаются, вы можете подсказать им классическое «давайте думать шаг за шагом». У вас была бы модель, и вы могли бы задать ей простой математический вопрос, например: «У Алисы и Боба есть три плитки шоколада, и они дают три Еве» или что-то в этом роде. — Сколько их осталось? Эти вещи борются с базовой математикой, поэтому такие вещи часто бывают неправильными. Но вы могли сказать что-то вроде: «Давайте думать шаг за шагом», и это заставляло его выводить свои рассуждения шаг за шагом по пути. И показатели точности выросли, когда вы это сделали, и в этом есть смысл. Он обучен завершать текст. И так шаг за шагом прорабатывается каждый шаг…
Дес: Это похоже на то, что вы не умножаете вероятность неудачи. Потому что тогда, если вы выполняете каждый шаг с вероятностью 90 %, а пять шагов вдруг оказываются правильными только на 50 %.

Фергал: Возможно. Я имею в виду, трудно предположить, что именно происходит внутри, но, возможно, что-то в этом роде. Но недавно была очень интересная статья, в которой говорилось: «Эй, мы знаем, что можем повысить точность, сказав: «Давайте думать шаг за шагом». И мы можем использовать это для получения более качественных результатов, чем просто интуитивно, сразу дать ответ. Вы можете использовать это для создания нового набора обучающих данных и повторного обучения модели для повышения ее точности. Для меня это увлекательно, потому что эти вещи могут самосовершенствоваться, по крайней мере, до некоторой степени.
«Здесь очень интересный мир, в котором языковые модели и НЛП начинают немного больше походить на мир AlphaGo. Я думаю, что это очень захватывающее время, и очень трудно сказать, каковы здесь пределы».
Недавно я видел демонстрацию на мероприятии Microsoft, где они показывали Copilot или одну из этих моделей, может быть, davinci, они не уточнили, что-то делали с приглашением Python, где они давали ему задачу на естественном языке, немного похожую на нашу задачу программирования Intercom. , а затем попросил систему синтезировать код и поместить код в подсказку Python, и когда она ошиблась, система попыталась выполнить код и увидела, что он неправильный, поэтому ей потребовался еще один прыжок и еще один, пока он не получил его. Правильно. Здесь очень интересный мир, в котором языковые модели и НЛП начинают больше походить на мир AlphaGo. Я думаю, что это очень захватывающее время, и очень трудно сказать, каковы здесь пределы.
Я думаю, что есть много вещей, о которых в течение долгого времени люди в лингвистике или что-то в этом роде сказали бы: «В ИИ мы никогда не сможем ответить на них по большому плану» или что-то в этом роде. Типа «Трактор пошел по дороге и свернул в поле. Пожалуйста, объясните, что произошло в этой шутке». Исторически компьютеры плохо с этим справлялись. «Волшебный трактор пошел по дороге и превратился в поле». Такой небольшой модификатор меняет смысл. И в некоторых областях это становится действительно хорошо. Вы можете задать ему основные семантические вопросы или попросить его порассуждать. Примерно два или три года назад, всякий раз, когда я видел новую систему машинного обучения, она всегда выглядела волшебно и удивительно в начале, и всякий раз, когда вы вникали в нее и скрывались под капотом, вы думали: «О, это просто логистическая регрессия». ». Как только я понял это, это было гораздо менее впечатляющим. И я изо всех сил пытаюсь сделать это здесь. Может быть, это потому, что так сложно понять сложность модели. Но эти вещи кажутся качественно отличными от тех, что были у нас.
Боты с искусственным интеллектом против Google
Дез: Прежде чем мы перейдем к поддержке, в которую мы углубимся, я видел комментарии, в которых говорилось, что это такой же важный момент для Интернета, как и для Google. Я также видел, я бы сказал, холодную воду, а именно: «не дайте себя одурачить, генерация случайных текстов песен — это в лучшем случае уловка». И, очевидно, спектр аппетита зависит от того, являетесь ли вы техно-позитивистом или кем-то еще. Что вы думаете о Google? Является ли это потенциально таким же большим, как Google? Является ли это угрозой для Google? Мысли о том, как Google может отреагировать?
Фергал: Итак, я буду здесь слишком спекулятивным, вступая в тотальный футуризм и прочее. Я очень оптимистично отношусь к ИИ и машинному обучению. Я чувствую, что изменения в возможностях, которые мы наблюдали за последний год, и, конечно же, если вы экстраполируете их еще на год или два, столь же велики, как Интернет. Потенциал. И мы собираемся выяснить, как производить эти вещи. Придется проделать массу работы над тем, как заставить их отвечать на основе базы знаний и так далее. Но общая сумма новых возможностей, которые мы получили и, вероятно, получим, кажется мне такой же большой, как Интернет. Я могу ошибаться, но я бы...
Des: Это порядок величин. Таким образом, больше, чем Google.
«Я думаю, что это момент спутника — люди посмотрят на это и скажут: «Вау, сюда что-то прибывает»
Фергал: Да, я так думаю. Не только ChatGPT, который вышел на прошлой неделе. Но общий прогресс кажется, что мы видим значительно лучшие способности к рассуждениям, элементарным рассуждениям и рассуждениям, которые могут быть неправильными, но иногда довольно убедительными. Я бы не поверил, если бы пять лет назад вы рассказали мне о его успехах в программировании. Так что я думаю, что здесь есть что-то большое. Существует много продуктивности, которую можно разблокировать, и очень трудно сказать, где это остановится. Кроме того, я думаю, что здесь есть петли обратной связи. Я чувствую, что это момент спутника. С ChatGPT вы можете сказать: «Эй, технология не намного лучше» или «она становится раздутой», но не стоит недооценивать способность низкого трения, позволяющую войти и поиграть с чем-то. Каждый может это сделать. И я думаю, что это момент спутника — люди посмотрят на это и скажут: «Вау, сюда что-то прибывает».
Des: Ссылка на Sputnik здесь, извините.
Фергал: Это было, Боже мой, еще в пятидесятых. Русские отправили этот спутник в космос, который вращался вокруг Земли и передавал радиосигналы. И люди по всему миру могли внезапно включить свои радиоприемники и услышать сигнал, исходящий от спутника. И это повествование, которое обычно рассказывают на западе. Люди внезапно проснулись и сказали: «Вау, здесь произошло изменение возможностей, о котором мы не знали». А затем, предположительно, это вызвало космическую гонку, Аполлон и все такое прочее. Так что я как бы чувствую, что, может быть, реакция все еще разыгрывается, но я вижу так много людей, которые на самом деле не обращали на это внимания, но вдруг обрадовались этому. Возможно, ажиотаж утихнет. Мы находимся в середине этого, так что это трудно предсказать. Но если это не то, скоро будет что-то другое.
Может ли ChatGPT усилить поддержку клиентов?
Des: А как насчет поддержки клиентов? Intercom — это платформа поддержки клиентов, и потенциал, который GPTChat, GPT-3.5 или любая из этих технологий могут сделать поддержку лучше, быстрее, дешевле, успешнее или более комплексной, — это то, о чем мы постоянно говорим. Я знаю, что вы думали об этом с точки зрения поддержки. Ранее мы говорили о том, что есть среды, где неправильный ответ — это очень и очень плохо, а есть среды, где это на самом деле вполне терпимо. У нас 25 000 клиентов. Некоторые банки, которые, вероятно, не могут себе это позволить. Other people would happily afford one because it means they can support all their customers faster. What do you think about this technology as it applies to support?
“We made a conscious design decision very early on that it would never say anything that hadn't been explicitly curated by the team”
Fergal: Yeah. We try and pay a lot of attention to changes in developments in this space. We were looking at GPT-3 pretty early, and our initial thoughts were that the accuracy was not quite there yet. The hallucination problem is a big problem to just nakedly say, “Hey, it has consumed the Intercom help center. Let's ask questions about resetting my two-factor authentication.” It just failed. We've been looking at the GPT-3.5 family and some other models recently. We have resolution bots in production. It's not using language models that are as large – they're maybe medium language models, embeddings, and so on. And it gets very good accuracy at the sort of thing it does. We made a conscious design decision very early on that it would never say anything that hadn't been explicitly curated by the team. I think that worked well for a lot of businesses because it might deliver the wrong answer sometimes – we try carefully to control that – but it's always going to deliver you a relevant answer or an answer that's not going to mislead you.
Des: Yeah, and specifically, the way in which it gets it wrong is it might give you a wrong correct answer. The thing it gives you will be something that somebody in your company has said: “This is a correct, cohesive piece of text.” It just might not be the right one for the question.
Fergal: And we encourage our customers to always write the answer in such a way that, “Oh, to reset your account, do the following thing.” So if it is delivered wrongly, at least the end user is not disoriented.
Des: Yes, they don't go and do it for no reason.
Fergal: They can go like, “Oh, this is a stupid bot. It gave me the wrong answer,” as opposed to, “I am misled, and I'm now going to waste a bunch of time…” So initially, with GPT-3, we were like, “Oh, it's really cool but difficult to see the end-to-end usage of this.” It's been a couple of years, and I'm not aware of anyone who has deployed GPT-3 in a total end-to-end way to answer the customer's questions.
Des: End-to-end meaning no agent in the mix. Because the risk there is that there'll be an unknown unknown. If someone goes to your business and asks a question that you didn't see because GPT dealt with it, gave it the wrong answer, and the customer goes off and does the wrong thing, no one actually knows what's happened except for the bot. And the bot doesn't even know it's wrong because it doesn't know if it's spoofing or not. So you end up in a potentially dangerous world.
Fergal: Exactly, and we've quite carefully designed the resolution bot to avoid getting into those situations. We calibrate it, we check that, when it says something helped the customer, it did help the customer, and we have ways of checking that between explicit and implicit customer feedback. But it's conservatively designed.
“The probability of giving the wrong answer and totally making stuff up is too high, at least to use it for end users in a naked way”
At some point, these open domain question-answering things or something you could build on the top of GPT-3.5 will get good enough that, for a certain portion of our customers, that equation changes where it's like, “Hey, I'm not answering medically critical things,” and the inaccuracy rate has fallen. It was 90% accurate; now it's 99% accurate; now it's 99.9%. How commonly it gives you the wrong answer will eventually fall below the critical threshold where it's like, “Hey, just being able to take this out of the box is worth it. I don't have to go and curate these answers.” So that will probably come. When will that come, is it here today, or has it come in the last few weeks with davinci-003 and ChatGPT is obviously something we've been assessing.
And it's certainly a work in progress because you always have to go and play with the prompts. When you interface with ChatGPT or GPT-3, we could take an end user's question and ramp it in something that says, “Hey, you're a very conservative customer support agent. If you don't know something or you're not completely sure, you always say, 'I don't know,'” and you reason with it step by step, and you're super conservative, and maybe we can wrap it to get the benefit of the deeper natural language understanding, which these models have, and the deeper ability to synthesize and rewrite text, which can be beautiful. It can be really nice. Maybe we can get those benefits and constrain the hallucinations and the errors enough.
Des: Is that another version of walking through this line by line?
Fergal: Yeah.
Des: Is that whole field what people call prompt engineering?
Fergal: Prompt engineering. We're joking that the machine learning team at Intercom is going to be a prompt engineering team, and we're joking about that as we play with it. But there are people who really sweat the prompts and have gotten really good at prompt engineering. It's a real thing, and it makes it difficult to say, “Oh, this new tech is definitely not good enough,” because what will the best prompts be in six months? That said, we don't think it's here yet. All the prompt engineering we've done on davinci in the last week can get it to be more conservative, but not enough. The probability of giving the wrong answer and totally making stuff up is too high, at least to use it for end users in a naked way.
Support agent augmentation
Des: We talked earlier about the doctor augmentation question. Is there a version of it where you can do it from the agent augmentation question?
Fergal: Well, at Intercom, we've been thinking about this area very deeply for an extended period, and in the last few months, we have had internal discussions about the future of the customer support inbox and generative models – models that generate stuff as opposed to just classify things – and we believe that their time is coming for support augmentation, and I think that seeing ChatGPT explode recently and all the excitement about it is evidence of that. It's evidence that these things are getting good. And there are a lot of things you can do in the inbox or in a context like the inbox to constrain and sand off the rougher edges of these things.
An example might be to curate the responses it's allowed to give and use the generative model to predict what should happen, but only actually allow the suggestion to present to the teammate, like a macro or a conversation response, and hopefully provide a beautiful interface to make it easy for them. Alternatively, to have it go and search for a new knowledge base, and there are techniques you can use to try and constrain it to that. And then, maybe show, “This is the answer that our bot wrote from your knowledge base,” and side by side with that, “Here is the original source article,” so that the customer support rep can look at them side by side-
Des: And see if it adds up.
Fergal: Yeah, and see if it adds up.
“They have to go and find the article themselves, then they have to read it and check the answer, and then they have to copy paste it and reformat it. So maybe there's a productivity boost”
Des: So there's an angle where the AI explains its epistemological basis for how it concludes this. And in that world, if you're a support rep, you don't even need to know if it's actually right – you just need to know if the logic stacks up. Obviously, it'd be better if you knew if it was right, as well. But if it says, “Hey, I read how to reset a 2FA article linked here. I suggest that this is how you reset 2FA,” you're probably, “That's the right article to read.”
Fergal: The problem is that when they get it wrong, they're so good at seeming right that they'll-
Des: Invent the idea of the article.
Fergal: Yeah, yeah, totally. And so, you might need to go beyond that. You might need to have the untrusted part of the interface, which is maybe the composer, and it pre-fills something, and there's also a trusted part of the interface beside that, maybe just above it, that shows the original source article, the relevant paragraph. And so, you can look at both.
Obviously, we study customer support flow very carefully and closely, and we absolutely have some support agents where it's like, “Okay, I got the question,” and they have to go and find an article themselves. Some expert ones know it, they're instantly there, and they know exactly where to go. Maybe they've got a macro that does it, but then maybe someone who's newer in the company and they're still being trained in, or maybe it's only part of their job, they have to go and find the article themselves, then they have to read it and check the answer, and then they have to copy paste it and reformat it. So maybe there's a productivity boost. Maybe you can make someone twice as efficient or something.
Des: All that agent behavior will also inform the system. If you put it live and agents are forever going “Wrong, right, wrong, right,” all that feeds back in, and then it gets better. Or, if they're rewriting the answer to be more accurate, I assume we can learn from that. And then, very quickly, the system converges on all the right answers.
“There are a lot of trade-offs. It's very easy to say we want a system that will learn in production. But then it's like okay, who has to maintain that? Who has to debug that?”
Fergal: We could certainly build a system that does all of those things. GPT-3.5 won't nakedly do it. If you decide to build on it as a building block, not even an assessment, is that the right system to build on? Its capability is very good, but it's not the only generative model in town. But whatever we build on, and we're getting really into the roadmap, we would potentially build a learning loop. With most of our tech at the moment where we do that, we absolutely gather feedback. There are some parts of the resolution bot like predictive answers, where it predicts things to end users, where it actually does use what the users say, like, “that helps” as a training signal, and potentially we can end up building that.
There are a lot of trade-offs. It's very easy to say, “We want a system that will learn in production. But then it's like, “Okay, who has to maintain that? Who has to debug that?” Sometimes it's easier to get it to a stable stage and then lock it. So, it depends. We did metrics and analytics whenever we upgrade. We're getting into the details of our models and how we check the accuracy and calibrate them, and stuff.
Des: I know our inbox has this feature where, based on what you've said before, if I jump in the inbox, before I've said anything to try and start a conversation, it'll say, “Hey, I'm Des, co-founder of Intercom, thrilled to be chatting with you.” Whatever my most common thing is, that's automatically pre-written for me.
Fergal: Yep. Smart replies.
Des: Am I right in saying that it's just the mini version in some sense of what we're describing here? Because we were really just going for salutations and maybe ends and maybe handoffs, and the common boilerplate of a support conversation should be there for you. And that, alone, is a productivity boost. But the idea that we could get one degree sharper, and somewhere in the middle of all that boilerplate is, “Here's the meat of the answer,” is where you're talking about going, right?
“We believe its time is coming, and we're trying to figure out the best ways to make people more efficient and to leverage it in a production setting that actually works for people”
Fergal: Yeah, totally. And again, to separate things out – there's just the change in the world, an increased capability, GPT-3.5, and then there's the stuff that we're working on as we grind away on this problem and try to deliver things that will make it better for our customers. I think the capabilities have really improved, but we're still figuring out if we can use this. Is there a shortcut to where we want to go? Maybe we can use these capabilities as building blocks, there are loads of ways to potentially use them as building blocks. But in terms of the direction we were going on already anyway, there are a lot of things agents do such as greetings where it's very obvious. We don't ever want to annoy people. We don't ever want to have an agent read through a bunch of text and then be like, “Oh, that's useless. Why did you do that?” It reduces their trust in the system. It slows them down. We want to help them out.
Итак, для умных ответов мы начали с приветствия. Это было просто очевидно. Мы можем очень легко определить, когда вам, вероятно, понадобится приветствие — вы вступаете в новый разговор, и никто раньше ничего не говорил конечному пользователю. Это очень очевидно. Это был низко висящий фрукт. Людям очень понравился пользовательский интерфейс. Это легко, и это низкое трение. Теперь мы можем сделать только одно предложение, и бывают случаи, когда системе просто трудно сказать. На данный момент у нас есть этот поток макросов, и люди часто используют макросы. Они должны выбрать, какой из макросов. Должны ли мы активно предлагать эти макросы людям? Может быть, мы не хотим предварительно заполнять композитор, может быть, мы хотим просто показать некоторые предложения макросов, которые зависят от контекста. Есть много потоков, которые повторяются. Мы работали над такими вещами, как поиск потока, пытаясь понять общие шаги, через которые проходят люди.
Я полагаю, большое сообщение заключается в том, что мы верим, что такого рода генеративные технологии необходимо формировать и делать так, чтобы они не раздражали, чтобы они не давали вам неверных вещей и не вводили вас в заблуждение, и, конечно же, не заставляли вас работать или напрягаться. чем вы были бы без него. Мы считаем, что его время пришло, и мы пытаемся найти лучшие способы сделать людей более эффективными и использовать это в производственных условиях, которые действительно работают для людей.
AI-ML вне поддержки
Des: Мы говорим о поддержке. Какие другие отрасли, по вашему мнению, увидят ценность этого в первые дни? Похоже, что поддержка — это целевая среда для этого типа технологий, но есть ли другие?
Фергал: Очевидно, мы рассчитываем на поддержку. Столько всего написано. Типа: «О, агент довольно рано распознает, что это проблема следующего рода», вроде сброса моей учетной записи или что-то в этом роде. В этой области так много структуры. Это сочетание реальной структуры проблемы клиента и технологии, которая очень хорошо справляется с естественным языком и меняет его форму. Мы видим кнопку, которую вы можете нажать, чтобы сделать то, что находится в композиторе, более формальным, или кнопку, чтобы сделать его более извиняющимся, верно? Мы думаем, что это очень, очень захватывающая область на данный момент. Я не хочу вдаваться во все исключительно спекулятивно. Но еще до этого в этой области была вся команда по машинному обучению. Мы большие сторонники поддержки.
Внешняя поддержка — все, где есть структура задачи и утверждающий человек, способный определить, правильный ответ или нет. Это может показаться странной интуицией, но в компьютерных науках или криптографии мы обращаем внимание на определенные типы задач, где легко проверить правильность ответа, но трудно пойти и найти этот ответ. Классы сложности и все такое прочее. Но да, людям интересны такие проблемы. Я не могу не думать, что здесь есть подобная интуиция. У вас есть задача, в которой человеку довольно легко проверить, правильный ответ или нет, но ему трудно пойти, посмотреть и выудить это. Или, может быть, команде все равно, достаточно ли правильный ответ, потому что не существует такого понятия, как правильное, например: «Напиши мне стихотворение о X, Y».
Des: Этот класс задач, где либо проверка ответа очень дешева, но его создание очень дорого, либо нет правильного ответа.
Фергал: А еще ответ может быть другим через полгода или год. Возможно, через год ответ будет примерно таким: «В любое время, когда компьютер может проверить, правильный ответ или нет». Или может случиться так, что каждый раз, когда предметная область достаточно проста, система машинного обучения обязательно даст вам или, скорее всего, даст вам правильный ответ. Это развивающаяся вещь. Я думаю, что сейчас трудно установить ограничения.
«Что мы отправляем в январе?»
Другие области, такие как компьютерное программирование, например. Человек, сидящий за своим терминалом, в любом случае должен просмотреть код, и он может это сделать, и где-то в вашем коде может быть незаметная ошибка. Иногда проще написать код самому, чем найти незаметную ошибку. Но в большинстве случаев, если вы посмотрите на рабочий процесс компьютерного программиста, он скажет: «О, я знаю, как это сделать, но я точно не помню, как использовать эту библиотеку. Я иду в Google для этого. Я собираюсь перейти к переполнению стека». Идея состоит в том, что когда вы увидите ответ номер три на Stack Over, вы скажете: «О да, верно. Это то, что я хочу." Есть целый рабочий процесс, который занимает много времени программиста, и появляется второй пилот, и на этом заканчивается работа. А затем переформатируйте код, чтобы он подходил. Это очень мощно.
Мы начали говорить о том, «Что такое Copilot для поддержки клиентов?» У нас есть прототипы, и вы можете со многим поэкспериментировать. Может быть, вы не отвечаете на вопрос полностью, вы просто даете ему ответ из двух или трех слов, он записывает его, а затем вы его модифицируете, и вы говорите: «Сделайте это более формальным, сделайте это длиннее, сделайте что короче». Такое ощущение, что мы можем многое там сделать.
Des: А что мы отправляем в январе?
Фергал: Придется подвергнуть цензуре эту часть разговора. Отправим что-нибудь.
Дес: Да, я уверен. Хорошо. Это было здорово. Мы зарегистрируемся, я думаю, еще через две недели, когда весь мир снова изменится. Но если нет, то может быть несколько месяцев. Спасибо большое.
Фергал: К тому времени, когда это появится в сети, я уверен, что оно устареет и будет выглядеть глупо. Но такова природа этого бизнеса.
Дес: Абсолютно. Вот почему вы работаете над этим.
Фергал: Вот почему мы работаем. Это увлекательно.