产品对讲：ChatGPT 如何改变一切

已发表: 2022-12-10

也许你真的很喜欢深度神经网络和自然语言处理，也许你只是一个技术爱好者——你可能已经偶然发现了 OpenAI 的全新聊天机器人 ChatGPT。炒作正在升温，但问题仍然存在：它真的会改变游戏规则，还是现在下结论还为时过早？

在最近的一集中，我们的机器学习总监 Fergal Reid 阐述了神经网络技术的最新突破。我们聊了聊 DALL-E、GPT-3，以及围绕 AI 的炒作是否只是这样，或者是否有任何意义。他告诉我们事情开始扩大。就这样，我们又来了。

ChatGPT 是 OpenAI 的原型人工智能聊天机器人，它于上周推出，它一直在互联网的大厅里巡回演出，激发了从顽固的技术实证主义者到永远的技术怀疑论者的惊人反应。该机器人由文本生成人工智能 GPT-3.5 提供支持，根据 OpenAI 的说法，它可以生成对话格式的文本，这“使得回答后续问题、承认错误、挑战不正确的前提成为可能，并且拒绝不恰当的请求。”

虽然现在看到它应用于现实世界还为时过早，但它无疑是非常有前途的。事实上，对 Fergal Reid 来说，我们在过去一年中看到的能力变化表明这个空间可能“与互联网一样大”。这就是为什么我们决定为您带来一集关于 AI 世界最新发展的特别节目，它们意味着什么，以及是否是时候将其应用到客户支持等现实场景中。

以下是谈话中我们最喜欢的一些要点：

通过扩大规模并用越来越多的数据训练这些模型，这些机器人开始表现出质的变化，比如在没有监督学习的情况下学习抽象概念。
目前，ChatGPT 在易于验证答案的问题或没有正确答案的创意环境中表现最佳。
虽然我们从这些模型中看到了显着更好的推理能力，但它们仍然存在幻觉问题——如果它们不知道某事，它们就会编造出来。
如果你用提示“让我们一步一步地思考”来提示这些模型，准确率就会上升，你会得到比让它立即给出答案更好的输入。
我们的技术界面正逐渐变得更具对话性，我们才刚刚开始看到自然语言理解的质量足以解锁它们。
这项技术有许多令人兴奋的应用支持，例如代理增强，但在部署之前还有很多工作要做。

如果您喜欢我们的讨论，请查看我们播客的更多剧集。 您可以关注 iTunes、Spotify、YouTube 或在您选择的播放器中获取 RSS 提要。 以下是该剧集经过轻微编辑的文字记录。

ChatGPT重磅登场

Des Traynor：嘿，Fergal。

Fergal Reid：嗨，伙计们。怎么样了？谢谢你让我回来。

德·特雷纳：好。你回来真好大约五周前，我们在播客上邀请您谈论 AI 正在发生的事情。你又回来了，因为发生了更多事情。

Fergal Reid：这五个星期很忙。

Des Traynor：这是忙碌的五个星期和忙碌的 7 天。 7 天前是 11 月 30 日星期三，我收到一封电子邮件，邀请我参加一个名为 ChatGPT 的公开测试版。发生了什么？

“它像病毒一样传播开来，它变得疯狂，每个人都非常兴奋”

弗格尔·里德：发生了什么事？所以，这是一个有趣的问题。 OpenAI 发布了他们最新的机器学习系统，AI 系统，他们发布的非常公开，就是 ChatGPT。它与他们目前的产品 GPT-3、GPT-3.5 非常相似，但包装不同，你不需要将信用卡放入其中，我想每个人都看到了“哇，有一个巨大的最近这里的能力发生了变化。” 它像病毒一样传播开来，变得疯狂起来，每个人都非常兴奋。大约在同一时间，他们发布了他们最新的 GPT-3.5 模型，比如 davinci-003，它做了很多相同的事情，但它可能不太擅长说，“嘿，我是一个大型语言模型，不能为你做那件事。” 但就能力而言，它是相似的。

Des Traynor：让我们做一些简单的定义来让每个人都扎根。 OpenAI 显然是在 AI 和 ML 方面做了大量工作的机构。你说 GPT：那代表什么？

Fergal Reid：我其实不记得了。通用变压器或类似的东西[生成预训练变压器]。

Des Traynor：但是这个名字有什么意义吗？

Fergal Reid：是的，我认为关键部分是变压器。很长一段时间，人们都在试图弄清楚，“嘿，训练处理文本和自然语言处理任务的神经网络的最佳方法是什么？” 很长一段时间以来，这些 LSTM [长短期记忆] 将文本的短期结构与句子的长期结构和序列模型相结合，每个人都在研究这些.

“随着你推送越来越多的训练数据，它们似乎在它们能做什么方面表现出质的变化。所以，就像，'嘿，这似乎有点理解'”

然后，谷歌发表了一篇非常具有革命性的论文，“注意力就是你所需要的”，其中有一个非常宏大的论点：“嘿，这里有一种新的方法，一种新模型，而不是这些传统的序列模型，”他们称之为变压器模型或变压器架构。当您查看特定单词时，模型将学习句子的其他部分，您也应该结合该单词查看这些部分。与使用序列模型相比，您可以更有效地学习事物，并且可以更快、更有效地训练它，并进一步扩展它。

因此，每个人都开始将转换器用于各种序列数据。然后，OpenAI 真正贡献的一件事是你可以采用这些转换器架构并真正扩大规模的想法。您可以添加更多的训练数据，并为它们添加更多的计算。也许非常令人惊讶，我真的认为这是关键，随着你推送越来越多的训练数据，他们似乎在他们能做什么方面表现出质的变化。所以，就像，“嘿，这似乎有点明白了。” 或者我可以说“让这个更快乐”或“让这个更悲伤”，这是一个非常抽象的概念。这是从哪里学来的？我们没有给它这种监督学习，你可以在其中编码悲伤或快乐的定义。它才刚刚开始学习这些抽象的概念，从大量的训练数据中进行这些抽象。

基本上，OpenAI 和其他一些人一直在越来越多地推动这种扩展。还有其他事情。对于 GPT-3.5，他们对其进行了一些不同的训练，以尝试使其更加对齐。但基本上，这里最重要的是规模很大，训练数据很多，实际上是一些简单的模型。你可以做一些了不起的事情，而在 20 年前，人们会说，“好吧，计算机永远做不到；它永远无法为我写歌，”现在就像是，“你想要什么样的歌？” “让声音更快乐。” 所以，是的，这是一个了不起的时代，因为很多我们认为只是人类智能领域的东西只需要大量的训练数据和一个大模型。

ChatGPT 可以有创意吗？

Des：然后，自上周三以来发生的事情是 Twitter——然后 7 天后，一般互联网或媒体——抓住了这一点。我已经看到了各种坦率的杰出用途，我无法想象这是可能的。我看到“给我写一份说明，让我按照泰勒斯威夫特歌曲的风格复制 DVD，她因为与男友分手而生气”或类似的东西。但它实际上有一个尝试。然后，我看到其他人喜欢“如何在 iOS 上安装 Intercom”，它也相对正确。以及介于两者之间的一切。我看到的最疯狂的事情是，对于任何这些事情，你都可以回头说，“现在，以 1940 年代黑帮的风格给我，并用德语说出来，”和“现在把德语翻译成西班牙语，但也增加了更多的愤怒，”或其他什么。它会立即执行所有这些操作，延迟几乎为零秒，而且在所有情况下，您都可以看到它的目的。

我举的一个个人例子是，当你试图在睡前给孩子讲故事时，你可能会找不到角度。只有这么多不同的方法，例如，三只龙可能会进入森林并迷路。然而，GPT-3 实际上非常适合给我提供 10 个以上的故事。我注意到，在最长的时间里，关于人工智能的故事，甚至就在几年前，人们会说，“它对特定的东西很好，但它无法解决创造力问题。” 可以说感觉就像我们真的身处逆向世界吗？

弗加尔：是的。我的意思是，当人们谈论 AI 时，总是说，“好吧，它要做的第一件事就是那些死记硬背的手动任务。” 然后人类将有所有这些时间去做这些极具创造性的事情——

Des:走进森林然后-

Fergal：一直在创作艺术，美丽的诗歌。然后，就像，“哦，哇。这些手动任务需要非常敏锐的眼光和处理事情才能解决。但是创造力，没有错误的答案，也不会因错误而受到惩罚……是的，这首诗不是很完美，但没关系，渲染的 DALL·E 2 图像可能与你的想法不完全一样，但它仍然是一幅美丽的图像，您可以从 10 个中选择 1 个，这很有效。

“这东西似乎非常擅长那种直觉的部分，而且它非常擅长愚弄我们的直觉部分。所以当你一眼看去，它看起来是正确的”

Des:你也可以看到它的用途。我认为人们没有意识到的一件事是，它会把你脑海中可能存在的东西还给你，因为无论如何你都会看到它。当我说，“给我开一个银行账户的说明，就像一首 Rage Against the Machine Song 的风格，”我明白了，“是的，我们要为开户而战，我们要激怒所有人夜晚。” 我可以看到它在做什么。我什至没有在那里应用精度等级，我只是说，“啊，你试过了，”你为此给予了赞扬。

Fergal：是的，我认为这可能是真的。我们在多大程度上擅长根据非事实信息来判断有惊无险？也许我们只是不太擅长。也许我们并不关心它。我的意思是，我们将不得不讨论这个事实问题，但即使你问它一个事实问题……假设你问它一个客户支持问题。我最近问了一个关于双因素身份验证的问题，“你如何重置你的内部通信双因素身份验证？” 我得到的答案就像是，“哇，这是一个很好的答案。” 我看着它，“等等，这不是你重置 2FA 的方式。” 这是一个漂亮的 URL，它包含对我们的帮助中心文章的引用，而且也是编造的。

“我认为大多数人，包括我们自己在内，都被他们的想法所震撼，乍一看似乎有道理的想法让他们感到震惊”

人们谈论人类和人类大脑，我们有这个非常擅长识别模式的直觉部分，然后我们有逻辑、分析和推理部分，它更慢、更精确。这东西似乎非常擅长那种直觉的部分，而且它非常擅长愚弄我们的直觉部分。所以当你一眼看去时，它看起来是正确的，但在你真正应用你较慢的系统推理之前，很难看出这一点。我认为直觉、推测可能是我们判断创造性努力、艺术、图片和十四行诗时更依赖的东西。至少在最初。因此，它非常擅长生成乍一看似乎有道理的东西，但也许，当你真正花时间思考它时，你——

Des：查看问题。乍一看似是而非非常重要，因为我认为大多数人，包括我们自己，都被乍一看似是而非的想法所震撼。尽管事实上它可能没有很多现实世界的适用性，但您为此给予了很多赞誉。你永远不会把那幅画挂在博物馆里，你永远不会真正读到那首十四行诗，你永远不会因为那本小说而获奖。

我看到很多像内容营销人员这样的人说，“这将永远改变我的工作。” 我想，“是的，但也许不是你想的那样。如果你认为你的工作只是简单地输入提示和点击标签，那么你的工作可能不存在。” 同样，我在 Twitter 上看到经理们说，“哦，这会让绩效评估季变得容易得多。” 在所有这些情况下，我就像——

Fergal：这有点不对劲。

“这项技术对人类做出的真正巨大贡献可能是关于我们可以消除的工作量的诚实对话”

德斯：没错。你们都在这里大声说出安静的一点，如果你的工作实际上涉及你写虚假的 BS，那可能是 -

Fergal：你一开始为什么要这么做？

德斯：你在做什么？确切地。我明白，在内容营销的情况下，可能有一些原因你只需要对某些词进行排名，但不要将其误认为是实际写作的技巧。

Fergal：我的意思是，这可能是一件好事。有可能那些狗屁的工作，那些让人觉得没有价值的事情，比如这些绩效评估，可以直接交给 GPT。然后，过了一会儿，每个人都意识到这是怎么回事，另一边的人说，“好吧，我要把它交给 GPT 来分析。” 也许那时我们可以就什么是真正有价值的内核以及如何消除工作量进行坦诚的对话。

Des：为什么我们要做所有这些表演性的废话？

Fergal：是的，这项技术对人类做出的真正巨大贡献可能是关于我们可以消除的工作量的诚实对话。那可能很棒。那可能会发生巨大的变化。

聊天机器人幻觉的问题

Des：谈到实际的应用程序，这是我的想法，至少是我的直接经验，甚至你所说的 2FA 用例，你今天不能在很多有明确定义的领域直接部署它正确答案，特别是如果给出错误答案的风险很高。所以你不希望这个东西消耗医疗记录并吐出诊断，因为我可以向你保证诊断会写得非常好，对于外行人来说真的很可信，而且准确率可能很低。我们不知道准确性的概率，但它会根据输入而变化。

Fergal：如果有人来找我说，“嘿，Fergal，我们希望你的团队开始使用它进行医学诊断，我肯定会很害怕。那会很好。” 那将是极其可怕的。

“有一件事是这项技术绝对存在很多人称之为幻觉的问题，如果它不知道某事，它就会弥补”

Des：但是还有其他可能不那么严重但同样不准确的用例，您可以在这些用例中使用它来诊断法律案件的结论。同样，我确信它听起来不错，并且会用所有正确的样板语言包装它，但它最终仍然不会真正知道它在说什么。我已经要求它给我关于如何构建现代电子邮件客户端以在生产力领域竞争和取胜的想法。它读起来真的很好，但只有当你刮开它时，你才会意识到那里实际上什么都没有。这只是一个接一个好听的词，没有特别尖锐的意见。对我来说，这让我想知道我们可以如何使它更适用。

Fergal：在我们开始之前，我认为有两件事有助于梳理这里。一件事是这项技术绝对存在很多人称之为幻觉的问题，如果它不知道某事，它就会弥补。这是有害的，并且有很多领域 1% 的幻觉概率是一个交易破坏者。如果这个概率为零，我们都会很高兴。但与此同时，与一年前的最先进技术相比，与三年前相比，准确性有所提高。在很多时候给你正确的答案也绝对更好。它在“理解”方面要好得多。我很难说，“哦，它只是在做模式识别，它什么都不懂，”或者至少，我很难说，“你说的理解是什么意思？”

我们肯定正处于这样的轨道上，虽然它仍然会弥补问题，这是一个大问题，但当它有正确的答案时，它会越来越好地为你提供正确的答案。那么，这条曲线是什么样的？目前很难拆开包装，但我们正在获得更好的模型，这些模型更擅长做正确的事情，但有时仍然会做灾难性的错误事情。我们应该注意这两件事。是的，目前很难在很多生产环境中部署它，至少在没有一些云或周围的一些可供性的情况下是这样，但它也在变得更好。如果你问它一些在维基百科上涵盖得很好的东西，它会变得更好。

一个最终的例子是计算机编程。你可以要求它提出一个它从未见过的编程挑战，如果你要求它生成一个完整的模块或系统，它就会遇到困难，你就会遇到断点。但是如果你要求它编写一个函数，即使是一个新的、虚构的、样本外的函数，它可能会给你错误的答案，但它给你一些有用的东西的机会已经大大增加了。

Des：你之前说，它基本上通过了我们编程面试的第一阶段，某种基于数组的问题。它只是钉它。

“每个人都开始谈论狗的语法不是很好，这很重要，但不要忽视狗正在说话的事实”

弗加尔：是的。确切地。我们为来 Intercom 的工程师提供解决问题的编程挑战。几年前我不得不亲自坐下，我们非常努力地确保它在互联网上不可用。如果是，我们会尝试迭代并更改它。而且我们还没有跟上速度，所以我不能保证它不在那里。但这件事产生了一个解决方案，刚刚解决它，那就是“高级工程师在白板上半小时”之类的问题。它只是一次完成，一次完成。

Des：零秒。

Fergal：零秒。这非常令人印象深刻。和世界上一半的人一样，我也一直在玩 ChatGPT 或 GPT-3.5，我给了它很多其他编程竞赛问题或编程问题，我很确定这些问题是样本外的，它做得很好。这是准确性的质变。你必须检查你的代码并确保它没有错，但这是非常有趣和令人兴奋的。

同样令人兴奋的是，它至少具有基本的自省能力。如果它写了一个错误，你可以说，“嘿，有一个错误。你能修好它吗？” 有时，它会给你一个美丽的解释。所有这些模型都经过训练来做标记预测；预测接下来的几个词。至少传统上是这样，因为我猜它在去年发生了一些变化，但大部分训练只是预测下一个标记，预测下一个单词。这里发生了一些惊人的事情——只要大规模地这样做，你就会达到一定程度的理解。

我不想在更广泛的关于幻觉的讨论中迷失它，这是真实的，上周人们可能没有给予足够的重视。但是有一个比喻，我不记得是谁想出来的，一只会说话的狗，有人告诉你他们想让你去见见他们新的会说话的狗，你就像，“狗不会说话。 ” 但是你走到狗身边，狗就和你交谈了。每个人都开始谈论狗的语法不太好，这很重要，但不要忽视狗正在说话的事实。对我来说幻觉就是这样。这感觉像是一个巨大的变化——也许我们无法投入生产，但谁知道一年、两年或三年后它会在哪里。

“这就像自动驾驶汽车，对吧？你必须准备好随时接管”

Des:是的，幻觉的东西，对我来说，并没有让它变得毫无用处。让我们悲观地说，给定一个病人的五段描述，它可以立即给你 70% 的准确诊断。在大多数诊断问题中，有一些快速测试可以验证这是否正确，例如，“听起来你有 X，这里是 X 的快速测试，”然后结果是对还是错 –这仍然是一个巨大的生产力变化。如果我们假设它仍然存在缺陷，但尝试利用 70% 的准确率，它可能仍然可以做一些非常有价值的事情。

Fergal：对此我有两个想法。第一个想法是，有人需要研究一下，因为这可能是完全负面的，因为人、医生和 AI 参与循环的新系统更有可能发生灾难性错误，因为疲倦、过度劳累医生有时不尽职，但摆在他们面前的是一个诱人但不正确的系统。这就像自动驾驶汽车，对吧？你必须随时准备接管。在该制度中可能存在一些领域，其中整个系统与人类实际上比仅仅-

Des：人们实际上会过度信任。

Fergal：人们可能会过度信任。他们怎么称呼它？偏差归一化。人们在核反应堆灾难之类的背景下研究这一点。什么地方出了错？ “哦，我们已经习惯了这条捷径，而这条捷径并不总是有效的，”等等。这是我要说的一件事。但是，与此相反，当我们考虑医疗问题时，世界上的某些地区无法获得医生。所以我不知道在哪里划定界限。这是一个很难划定的界限。最终，在轨道上，这些东西可能会变得越来越好，并且足够好，最终，作为一个整体，这个系统确实会超越人们目前拥有的任何东西。

逐步训练聊天机器人

Des：你是说当它生成代码时，你可以说，“嘿，那是布吉。” 我看到的另一个在 Twitter 上流行了一段时间的例子是“逐行告诉我你的想法”，或者其他什么。这几乎就像你在告诉它如何思考事物，或者你在给它新的信息，然后不强迫它重新考虑它的意见。那里发生了什么？

Fergal：我认为那里正在发生一些有趣的事情，我们必须在这里就最前沿进行对话。这是推测，我是一个旁观者——我不是在做这项工作。我认为谷歌最近发表了一篇关于大型语言模型如何自我改进的论文，所以我认为其中有一些令人着迷的东西值得一探究竟。

首先，大约一年前，人们发现虽然这些模型经常会出错，但您可以用经典的“让我们逐步思考”来提示他们。你会有一个模型，可以问它一个简单的数学问题，比如“爱丽丝和鲍勃有三块巧克力，他们给夏娃三块”，或者类似的问题。 “他们还剩多少？” 这些东西与基础数学相冲突，所以它经常会犯这样的错误。但是你可以说“让我们一步步思考”之类的话，这会迫使它在整个过程中逐步输出推理。当你这样做时，准确率会上升，这是有道理的。它经过训练可以完成文本。因此，一步一步地，每一步都被设计成……

Des：这几乎就像你没有乘以失败的可能性。因为那样的话，如果你以 90% 的概率运行每一步，而在五步之后，突然之间，概率只有 50% 是正确的。

弗加尔：也许吧。我的意思是，很难推测内部到底发生了什么，但可能是这样的。但最近有一篇非常有趣的论文说，“嘿，我们知道我们可以通过说‘让我们一步一步地思考’来提高准确性。”我们可以用它来获得更好的输出，而不仅仅是凭直觉，立即给出答案。您可以使用它来构建新的训练数据集并重新训练模型以提高其准确性。对我来说，这很吸引人，因为这些东西可以自我改进，至少在某种程度上是这样。

“这里有一个非常有趣的世界，语言模型和 NLP 开始看起来有点像 AlphaGo 的世界。我认为这是一个非常激动人心的时刻，很难说这里的限制是什么”

我最近在 Microsoft 活动上看到了一个演示，他们展示了 Copilot 或其中一个模型，也许是达芬奇，他们没有指定，用 Python 提示做一些事情，他们给它一个自然语言问题，有点像我们的对讲机编程问题，然后让系统合成代码，把代码放到Python提示符里，当它出错的时候，系统尝试执行代码，看到是错的，于是又走了一遍又一遍，直到搞定正确的。这里有一个非常有趣的世界，语言模型和 NLP 开始看起来有点像 AlphaGo 的世界。我认为这是一个非常激动人心的时刻，很难说这里的限制是什么。

我认为有很多事情，长期以来，语言学或其他方面的人会说，“在 AI 中，我们永远无法在一个宏伟的计划中回答这些问题，”或类似的话。就像“拖拉机开到路上，变成了一片田地。请解释那个笑话中发生了什么。” 从历史上看，计算机在这方面做得不好。 “神奇的拖拉机顺着路走下去，变成了一片田地。” 像这样的轻微修饰符会改变意思。它在某些领域变得非常擅长。你可以问它基本的语义问题或让它进行推测。直到大约两三年前，每当我看到一个新的机器学习系统时，一开始它总是看起来很神奇和令人惊奇，而每当你进入它并在引擎盖下时，你就像，“哦，这只是逻辑回归” 一旦我明白了这一点，它就不那么令人印象深刻了。我在这里努力做到这一点。也许那是因为很难理解模型的复杂性。但这些东西感觉上与我们拥有的能力有着质的不同。

人工智能机器人与谷歌

Des：在我们深入探讨支持之前，我看到评论说这对互联网来说是一个与谷歌一样重要的时刻。我还看到过，我想说，冷水浇灌，也就是说，“别被愚弄了，生成随机歌词充其量只是一种噱头。” 很明显，你的兴趣范围很广，这取决于你是不是技术实证主义者或其他什么人。你对谷歌的事情有什么看法？这可能和谷歌一样大吗？这是对谷歌的威胁吗？关于谷歌可能如何反应的想法？

Fergal：所以，我会在这里超级投机，进入完全未来主义和东西。我非常看好人工智能和机器学习。我觉得我们在过去一年中看到的能力变化，当然如果你再往前推一两年，就会和互联网一样大。潜力。我们将不得不弄清楚如何将这些东西产品化。关于如何限制他们从知识库中回答等问题，需要做大量的工作。但对我来说，我们已经获得和可能获得的新功能的总和与互联网一样大。我可能是错的，但那就是我会——

Des：这是数量级。所以，比谷歌更大。

“我认为这是一个人造卫星时刻——人们会看着这个然后走，哇，有东西到了这里”

弗加尔：是的，我想是的。不仅是上周刚刚推出的 ChatGPT。但总的进步感觉就像我们看到了显着更好的推理能力，基本推理和推理可能是错误的，但有时非常引人注目。如果你在五年前告诉我它在编程挑战中的成功，我是不会相信的。所以我认为这里有一些重要的东西。有很多生产力可以释放，很难说它会在哪里停止。而且，我认为这里有反馈循环。我觉得这是人造卫星时刻。使用 ChatGPT，您可以说，“嘿，技术并没有那么好”或“它被夸大了”，但不要低估低摩擦能够进入并玩弄某些东西的能力。每个人都可以做到。我认为这是一个人造卫星时刻——人们会看着这个然后说，“哇，有东西到了这里。”

Des：抱歉，这里是 Sputnik 参考资料。

Fergal：我的天哪，那是在五十年代。俄罗斯人把这颗卫星放在绕地球轨道运行并广播无线电信号的太空中。全世界的人们都可以突然调谐他们的收音机并接收到来自人造卫星的信号。这是西方普遍讲述的故事。人们突然惊醒，“哇，这里发生了我们之前没有意识到的能力变化。” 然后，据推测，这引发了太空竞赛和阿波罗号以及所有类似的事情。所以我觉得也许反应还在继续，但我看到很多原本没有真正注意这个的人突然对此感到兴奋。也许炒作会平息。我们正处于其中，因此很难预测。但如果不是这样，很快就会有其他事情发生。

ChatGPT 能否为客户支持提供支持？

Des：客户支持怎么样？ Intercom 是一个客户支持平台，GPTChat、GPT-3.5 或任何这些技术的潜力可以使支持更好、更快、更便宜、更成功或更端到端，这是我们一直在做的事情。我知道您一直在从支持的角度考虑这个问题。早些时候，我们谈到了在某些环境中，错误答案是非常非常糟糕的，而在某些环境中，它实际上是可以容忍的。我们有 25,000 名客户。有些是银行，它们可能负担不起。其他人会很乐意买一台，因为这意味着他们可以更快地支持所有客户。 What do you think about this technology as it applies to support?

“We made a conscious design decision very early on that it would never say anything that hadn't been explicitly curated by the team”

Fergal: Yeah. We try and pay a lot of attention to changes in developments in this space. We were looking at GPT-3 pretty early, and our initial thoughts were that the accuracy was not quite there yet. The hallucination problem is a big problem to just nakedly say, “Hey, it has consumed the Intercom help center. Let's ask questions about resetting my two-factor authentication.” It just failed. We've been looking at the GPT-3.5 family and some other models recently. We have resolution bots in production. It's not using language models that are as large – they're maybe medium language models, embeddings, and so on. And it gets very good accuracy at the sort of thing it does. We made a conscious design decision very early on that it would never say anything that hadn't been explicitly curated by the team. I think that worked well for a lot of businesses because it might deliver the wrong answer sometimes – we try carefully to control that – but it's always going to deliver you a relevant answer or an answer that's not going to mislead you.

Des: Yeah, and specifically, the way in which it gets it wrong is it might give you a wrong correct answer. The thing it gives you will be something that somebody in your company has said: “This is a correct, cohesive piece of text.” It just might not be the right one for the question.

Fergal: And we encourage our customers to always write the answer in such a way that, “Oh, to reset your account, do the following thing.” So if it is delivered wrongly, at least the end user is not disoriented.

Des: Yes, they don't go and do it for no reason.

Fergal: They can go like, “Oh, this is a stupid bot. It gave me the wrong answer,” as opposed to, “I am misled, and I'm now going to waste a bunch of time…” So initially, with GPT-3, we were like, “Oh, it's really cool but difficult to see the end-to-end usage of this.” It's been a couple of years, and I'm not aware of anyone who has deployed GPT-3 in a total end-to-end way to answer the customer's questions.

Des: End-to-end meaning no agent in the mix. Because the risk there is that there'll be an unknown unknown. If someone goes to your business and asks a question that you didn't see because GPT dealt with it, gave it the wrong answer, and the customer goes off and does the wrong thing, no one actually knows what's happened except for the bot. And the bot doesn't even know it's wrong because it doesn't know if it's spoofing or not. So you end up in a potentially dangerous world.

Fergal: Exactly, and we've quite carefully designed the resolution bot to avoid getting into those situations. We calibrate it, we check that, when it says something helped the customer, it did help the customer, and we have ways of checking that between explicit and implicit customer feedback. But it's conservatively designed.

“The probability of giving the wrong answer and totally making stuff up is too high, at least to use it for end users in a naked way”

At some point, these open domain question-answering things or something you could build on the top of GPT-3.5 will get good enough that, for a certain portion of our customers, that equation changes where it's like, “Hey, I'm not answering medically critical things,” and the inaccuracy rate has fallen. It was 90% accurate; now it's 99% accurate; now it's 99.9%. How commonly it gives you the wrong answer will eventually fall below the critical threshold where it's like, “Hey, just being able to take this out of the box is worth it. I don't have to go and curate these answers.” So that will probably come. When will that come, is it here today, or has it come in the last few weeks with davinci-003 and ChatGPT is obviously something we've been assessing.

And it's certainly a work in progress because you always have to go and play with the prompts. When you interface with ChatGPT or GPT-3, we could take an end user's question and ramp it in something that says, “Hey, you're a very conservative customer support agent. If you don't know something or you're not completely sure, you always say, 'I don't know,'” and you reason with it step by step, and you're super conservative, and maybe we can wrap it to get the benefit of the deeper natural language understanding, which these models have, and the deeper ability to synthesize and rewrite text, which can be beautiful. It can be really nice. Maybe we can get those benefits and constrain the hallucinations and the errors enough.

Des: Is that another version of walking through this line by line?

Fergal: Yeah.

Des: Is that whole field what people call prompt engineering?

Fergal: Prompt engineering. We're joking that the machine learning team at Intercom is going to be a prompt engineering team, and we're joking about that as we play with it. But there are people who really sweat the prompts and have gotten really good at prompt engineering. It's a real thing, and it makes it difficult to say, “Oh, this new tech is definitely not good enough,” because what will the best prompts be in six months? That said, we don't think it's here yet. All the prompt engineering we've done on davinci in the last week can get it to be more conservative, but not enough. The probability of giving the wrong answer and totally making stuff up is too high, at least to use it for end users in a naked way.

Support agent augmentation

Des: We talked earlier about the doctor augmentation question. Is there a version of it where you can do it from the agent augmentation question?

Fergal: Well, at Intercom, we've been thinking about this area very deeply for an extended period, and in the last few months, we have had internal discussions about the future of the customer support inbox and generative models – models that generate stuff as opposed to just classify things – and we believe that their time is coming for support augmentation, and I think that seeing ChatGPT explode recently and all the excitement about it is evidence of that. It's evidence that these things are getting good. And there are a lot of things you can do in the inbox or in a context like the inbox to constrain and sand off the rougher edges of these things.

An example might be to curate the responses it's allowed to give and use the generative model to predict what should happen, but only actually allow the suggestion to present to the teammate, like a macro or a conversation response, and hopefully provide a beautiful interface to make it easy for them. Alternatively, to have it go and search for a new knowledge base, and there are techniques you can use to try and constrain it to that. And then, maybe show, “This is the answer that our bot wrote from your knowledge base,” and side by side with that, “Here is the original source article,” so that the customer support rep can look at them side by side-

Des: And see if it adds up.

Fergal: Yeah, and see if it adds up.

“They have to go and find the article themselves, then they have to read it and check the answer, and then they have to copy paste it and reformat it. So maybe there's a productivity boost”

Des: So there's an angle where the AI explains its epistemological basis for how it concludes this. And in that world, if you're a support rep, you don't even need to know if it's actually right – you just need to know if the logic stacks up. Obviously, it'd be better if you knew if it was right, as well. But if it says, “Hey, I read how to reset a 2FA article linked here. I suggest that this is how you reset 2FA,” you're probably, “That's the right article to read.”

Fergal: The problem is that when they get it wrong, they're so good at seeming right that they'll-

Des: Invent the idea of the article.

Fergal: Yeah, yeah, totally. And so, you might need to go beyond that. You might need to have the untrusted part of the interface, which is maybe the composer, and it pre-fills something, and there's also a trusted part of the interface beside that, maybe just above it, that shows the original source article, the relevant paragraph. And so, you can look at both.

Obviously, we study customer support flow very carefully and closely, and we absolutely have some support agents where it's like, “Okay, I got the question,” and they have to go and find an article themselves. Some expert ones know it, they're instantly there, and they know exactly where to go. Maybe they've got a macro that does it, but then maybe someone who's newer in the company and they're still being trained in, or maybe it's only part of their job, they have to go and find the article themselves, then they have to read it and check the answer, and then they have to copy paste it and reformat it. So maybe there's a productivity boost. Maybe you can make someone twice as efficient or something.

Des: All that agent behavior will also inform the system. If you put it live and agents are forever going “Wrong, right, wrong, right,” all that feeds back in, and then it gets better. Or, if they're rewriting the answer to be more accurate, I assume we can learn from that. And then, very quickly, the system converges on all the right answers.

“There are a lot of trade-offs. It's very easy to say we want a system that will learn in production. But then it's like okay, who has to maintain that? Who has to debug that?”

Fergal: We could certainly build a system that does all of those things. GPT-3.5 won't nakedly do it. If you decide to build on it as a building block, not even an assessment, is that the right system to build on? Its capability is very good, but it's not the only generative model in town. But whatever we build on, and we're getting really into the roadmap, we would potentially build a learning loop. With most of our tech at the moment where we do that, we absolutely gather feedback. There are some parts of the resolution bot like predictive answers, where it predicts things to end users, where it actually does use what the users say, like, “that helps” as a training signal, and potentially we can end up building that.

There are a lot of trade-offs. It's very easy to say, “We want a system that will learn in production. But then it's like, “Okay, who has to maintain that? Who has to debug that?” Sometimes it's easier to get it to a stable stage and then lock it. So, it depends. We did metrics and analytics whenever we upgrade. We're getting into the details of our models and how we check the accuracy and calibrate them, and stuff.

Des: I know our inbox has this feature where, based on what you've said before, if I jump in the inbox, before I've said anything to try and start a conversation, it'll say, “Hey, I'm Des, co-founder of Intercom, thrilled to be chatting with you.” Whatever my most common thing is, that's automatically pre-written for me.

Fergal: Yep. Smart replies.

Des: Am I right in saying that it's just the mini version in some sense of what we're describing here? Because we were really just going for salutations and maybe ends and maybe handoffs, and the common boilerplate of a support conversation should be there for you. And that, alone, is a productivity boost. But the idea that we could get one degree sharper, and somewhere in the middle of all that boilerplate is, “Here's the meat of the answer,” is where you're talking about going, right?

“We believe its time is coming, and we're trying to figure out the best ways to make people more efficient and to leverage it in a production setting that actually works for people”

Fergal: Yeah, totally. And again, to separate things out – there's just the change in the world, an increased capability, GPT-3.5, and then there's the stuff that we're working on as we grind away on this problem and try to deliver things that will make it better for our customers. I think the capabilities have really improved, but we're still figuring out if we can use this. Is there a shortcut to where we want to go? Maybe we can use these capabilities as building blocks, there are loads of ways to potentially use them as building blocks. But in terms of the direction we were going on already anyway, there are a lot of things agents do such as greetings where it's very obvious. We don't ever want to annoy people. We don't ever want to have an agent read through a bunch of text and then be like, “Oh, that's useless. 你为什么这么做？” It reduces their trust in the system. It slows them down. We want to help them out.

因此，对于聪明的回复，我们从问候语开始。这只是一件显而易见的事情。我们可以很容易地判断出您何时可能需要问候语——您进入了一个新的对话并且之前没有人对最终用户说过任何话。这很明显。那是一个低垂的果实。人们真的很喜欢这个用户界面。这很容易，而且摩擦很小。现在，我们只能在那里提出一个建议，而且有时系统很难判断。目前，我们有这个宏流程，人们经常使用宏。他们必须选择哪个宏。我们应该主动向人们推荐这些宏吗？也许我们不想预先填充作曲家，也许我们只想显示一些与上下文相关的宏观建议。有很多流程是重复的。我们一直致力于寻找流程之类的东西，试图了解人们经历的常见步骤。

我想重要的信息是我们确实相信这种生成技术需要被塑造和完善，这样它就不会让人讨厌，这样它就不会给你错误的东西和误导你，当然也不会给你带来更多的工作或压力比没有它还要好。我们相信它的时代即将到来，我们正在努力找出提高人们效率的最佳方法，并在真正为人们工作的生产环境中利用它。

AI-ML 超越支持

Des：我们正在谈论支持。您认为还有哪些其他行业会在早期看到它的价值？感觉支持是此类技术的目标丰富的环境，但还有其他吗？

Fergal：显然，我们看好支持。写的东西太多了。就像，“哦，代理人很早就意识到这是以下类型的问题，”比如重置我的帐户或类似的事情。那个区域有很多结构。真实的客户问题结构与非常擅长处理自然语言并对其进行重塑的技术相结合。我们可以看到一个按钮，你可以按下它来让作曲家的内容更正式，或者按下按钮让它更道歉，对吧？我们认为目前这是一个非常非常令人兴奋的领域。我不想完全投机地进入一切。但甚至在此之前，机器学习团队都在这个领域。我们坚信支持。

外部支持，任何在任务中有结构的地方，以及能够辨别答案正确或错误的人类批准者。这似乎是一种奇怪的直觉，但在计算机科学或密码学中，我们关注某些类型的问题，在这些问题中很容易验证答案是否正确，但很难找到答案。复杂性类，诸如此类的东西。但是，是的，人们对这样的问题很感兴趣。我不禁认为这里有类似的直觉。你面临的挑战是，人类很容易验证答案是否正确，但他们去查找并找出答案却很费力。或者团队可能不关心答案是否足够正确，因为没有正确的东西，比如“给我写一首关于 X、Y 的诗。”

Des：这类问题要么验证答案非常便宜但创建答案非常昂贵，要么没有有效答案。

Fergal：而且，六个月或一年后答案可能会有所不同。可能是一年后，答案可能更像是“计算机可以检查答案是否正确的任何时间。” 或者可能是只要领域足够简单，机器学习系统肯定会给你或很可能给你正确的答案。这是一个不断发展的事情。我认为目前很难设定限制。

“我们一月份要运送什么？”

例如，其他领域，如计算机编程。坐在终端前的人无论如何都必须检查代码，他们能够做到这一点，并且您的代码中某处可能存在细微的错误。有时，自己编写代码比识别细微错误更容易。但很多时候，如果你看一下计算机程序员的工作流程，就像，“哦，我知道怎么做，但我不记得如何使用这个库。我要去谷歌了。我要去 Stack overflow。” 这个想法是，当你在 Stack Over 上看到第三个答案时，你会说，“哦，是的，没错。这就是我想要的。” 有一个像这样的整个工作流程占用了程序员的大量时间，而 Copilot 出现了，就结束了。然后重新格式化代码以适应。这非常强大。

我们开始讨论，“客户支持的 Copilot 是什么？” 我们有原型，您可以玩很多东西。也许你没有回答完整的问题，你只是给它两个或三个词的答案，它写出来，然后你修改它，你就像，“让它更正式，让它更长，让这么短。” 感觉我们可以在那里做很多事情。

Des：我们在 1 月份发货的是什么？

Fergal：将不得不审查这部分对话。我们会运送一些东西。

Des：是的，我敢打赌。好的。这太棒了。我猜，再过两周，当整个世界再次发生变化时，我们将进行登记。但如果没有，可能需要几个月。非常感谢。

Fergal：当它出现在网络上时，我敢肯定它会过时并且看起来很愚蠢。但这就是这项业务的性质。

德斯：当然。这就是你努力的原因。

Fergal：这就是我们工作的原因。是兴奋的。

分辨率机器人广告