GPT 将继续存在。 它会带我们去哪里?

已发表: 2023-02-03

GPT 正在我们面前展开,我们不会错过任何一个节拍。 当我们探索这项新技术的潜力和局限性时,它会不会辜负炒作?

自去年 11 月下旬推出以来,ChatGPT 因其能够产生类似人类的反应而俘获了全世界人们的心。 然而,与任何新技术一样,炒作与现实之间往往存在差距。 尤其是生成式 AI,是非常自然的炒作机器。

我们理解这种怀疑——大型语言模型非常善于表现得似是而非,即使它们是错误的。 但说实话,我们非常乐观。 在过去的八周里,我们构建了 AI 驱动的功能并将它们交付给 160 个测试版客户,反馈非常有希望。 以至于本周早些时候,我们的机器学习总监 Fergal Reid 和我在播客上发布了一集特别节目,分享我们对我们构建的内容和学到的内容的见解。

这一次,我们超越了内部通信,甚至超越了客户服务。 在今天的节目中,我们将深入探讨 GPT 的方方面面——从怀疑到它在商业沟通中的作用,从创造性工作的中断到用户界面的未来。

以下是一些要点:

  • 不仅仅是技术在进步——我们越来越了解要构建什么,如何定制和集成它,所有这些动力都在推动行业向前发展。
  • 也许人机界面的未来将由个性化的人工智能机器人提供便利,这些机器人可以理解用户的意图并调解他们的互动。
  • 这些模型解锁了许多新能力,一眼就能骗过人,但它们仍然缺乏通过图灵测试所需的常识推理。
  • GPT 可能会扰乱客户服务行业,但如果自动化提高了座席的生产力,它最终可以释放提升其业务价值的能力。

通过在 Apple 播客、Spotify、YouTube 上关注 Intercom on Product 或在您选择的播放器中获取 RSS 提要,确保您不会错过任何亮点。 以下是该剧集经过轻微编辑的文字记录。


超越炒作

Des Traynor:嗨,欢迎收看 Intercom 播客。 Fergal 再次加入我的行列,我们将讨论 GPT 的所有内容。 Fergal,ChatGPT 推出已经整整八周了。 人们已经在针对它开发有用的产品,并且已经有一波怀疑论者说这是一个玩具,它不成熟,还没有为任何事情做好准备,这只是典型的新技术反应。 你的头在哪里? 怀疑论有根据吗? 我们是否跨越了一些真正重要的感知悬崖?

Fergal Reid:是的,我认为怀疑主义有一定的合理性。 这些东西几乎是自然的炒作机器。 查看它并看到它做一些看起来不错的事情是如此容易。 除非你真的深入研究它,否则它看起来很棒。 然后,当你深入研究它时,你会说,“啊,这是错误的,我觉得被误导了。” 这些机器旨在生成似是而非的东西,如果似是而非,但错误对你来说是个问题,它可能会非常令人失望。 所以我理解很多人对这项技术持怀疑态度的默认立场。

“ChatGPT,就像今天在互联网上一样,可能只是一个玩具,但这并不意味着我们不能利用底层技术并从中构建非常有价值的业务功能”

然而,我们一直非常看好生成式人工智能,自从我们上次发言以来,我们已经构建了一些功能,我们已经将它们运送到 Beta 版,我们的 Beta 版有 160 多位客户使用这些功能:总结,一些作曲家的功能更具实验性,试图让人们更快。 然后我们还有一波原型形式的其他功能,这些功能还没有完全实现——高价值的东西——但我们认为我们看到了这一点。 所以,我们理解怀疑,我们很乐观,现在我们有了数据——真实的客户使用情况,真实的客户告诉我们他们有一份他们想做的特定工作,他们每天都在做,这对那。 对我来说,这让怀疑论者的立场开始变得有些摇摇欲坠。

Des:事实上,人们实际上每天都在使用这个东西来完成他们的部分工作。

弗加尔:是的。 这是最终的仲裁者。 当人们实际使用它时,很难怀疑它,而不仅仅是作为玩具。 那里有一条逻辑线。 我们在《大西洋月刊》和类似的地方看到过一些文章,人们说,“嘿,看,这东西更像是玩具,而不是真正有价值的产品。” 而 ChatGPT,就像今天在 Internet 上一样,可能只是一个玩具,但这并不意味着我们不能利用底层技术并从中构建非常有价值的业务功能。

在过去的几个月里,我的团队可能是几个这样做的团队之一,就像,“哇,这提供了真正的价值,”我认为我们可能是成功的客户服务领域的大公司之一有一个开发周期,我们实际上已经将它交到数百名客户手中并从中得到反馈。 他们真的告诉我们,“是的,这真的节省了我的时间; 这让我的工作变得更快。” 是的,怀疑变得更难维持。 这是一个论点。 我认为你也可以从不同的角度来攻击这种怀疑:我们已经看到很多推文和文章对这项技术持怀疑态度,因为上一代没有跨越鸿沟,也没有带来变革。 他们持怀疑态度,因为新技术总是被夸大。 但这些都不是好的论据。 这些论点在一段时间内是正确的,然后就会变得非常错误。 你可能会因为过于乐观而失败,但你也可能因为——

Des:空白和悲观。

弗加尔:没错。 空白和悲观。

“同时发生的动态如此之多,它们将相互反馈并相互放大”

Des:你看到的相似之处是人们对他们听说过的每一个新的创业点子都嗤之以鼻。 问题是 90% 的初创公司都没有成功。 所以在 90% 的时间里,你是正确的并且看起来非常聪明。 然后你把一个后来成为价值数万亿美元的企业搞砸了,每个人都说,“对,结果……”我想是 Nat Friedman 说的,“悲观者听起来很聪明,乐观者变得富有,”或者类似的话. 当你真正重视每个观点时,它有一些道理:当你错了时,你错的程度会推翻你对技术的怀疑程度。

弗加尔:是的,100%。 看,我相信人工智能及其价值。 我认为我们有足够的证据证明真正的价值。 在过去十年中,我们看到机器学习和人工智能的趋势总体上越来越大。 我们有了新的能力。 我觉得我的团队有足够的证据表明,至少有一些功能已为 GPT-3.5 和六个月前还没有的其他大型语言模型解锁。 我相信有一个悬垂; 我们现在可以构建的产品比以前多得多。 所以,是的,我们很乐观,我们开始看到我们发布测试版的客户告诉我们,“是的,这行得通,这太棒了。”

我们还没有完全跨越它的最后一块。 我们知道,就我们客户花费 99% 的时间完成的任务的核心价值而言,这具有变革性。 因此,我们提供了摘要功能和其他功能以节省收件箱中的时间。 但是这里有一些我们还没有构建的大东西,我们正在内部努力,但我们还没有在市场上看到它们。 因此,我们认为真正令人兴奋的事情还在后头。

Des:我相信有人会在评论中纠正我的一些转换层次结构,但我们已经使用实时功能来转换特定的工作流程,通过转换,我们的意思是将这样做的成本降低到 5%它曾经是什么。 在总结的情况下。 然后,它可能会改变非常常见的工作流程。 然后,它可能正在转变工作,然后是转变组织,在最高层,它正在转变业务。 但很明显,随着我们确定越来越多的用例,我们可以在这些用例中提供很多价值,我们正在通过这个编织我们的方式,对我来说,客户服务世界不可避免的转变。

“我们在内部接触了我们的客户,并且不得不比我们想要的更早结束测试版招募,因为这是我们收到的最大的回应之一”

弗加尔:当然。 有很多方法可以同时改变这种情况。 有太多的动力同时发生,它们会相互反馈和放大。 第一个很明显:可用的技术越来越好。 那不是停止。 OpenAI 和 Anthropic 等其他参与者一直在构建新模型,它们令人兴奋。 那不是停止。 所以,这是一个动态。 还有另一种动力,那就是我们在围绕这些构建产品方面做得越来越好。 我们越来越擅长采用这些模型并弄清楚他们擅长的事情类型。 还有另一种动力,那就是我们在定制它们、构建正确的提示并将它们集成到我们现有系统中方面做得越来越好。 然后我们客户的期望越来越高。

我们确实发现,自从 ChatGPT 以来,我们的客户产生了巨大的兴趣。 他们可以看到承诺并相信这里有一些东西。 有了测试版,我们在内部找到了我们的客户,并且不得不比我们想要的更早地结束测试版招募,因为这是我们得到的最大的回应之一。 人们想参与其中。 因此,在我看来,所有这些事情加在一起将比其中任何一个单独放大得多。

Des:你如何分解它很有趣。 技术在改进,企业能力在提高,这只是在当地的情况下采用它。 然后企业使用该技术思考或概念化新产品和机会的能力正在提高。 与客户对技术的期望相同。 作为一个简单的例子,我们距离人们期望能够在文本字段中扩展文本可能只有一年的时间。 你会看到这些东西随处可见。

Fergal:即使是一年。 显然,我们很多人都看到了微软关于将这些功能引入 Word 和其他东西的公告。 如果大型主流办公生产力工具能够做到这一点,它将会迅速改变。 它可能真的很快。

人工智能助手的兴起

Des:这是我要指责的另一种怀疑论——无论如何,它与我有轻微的共鸣。 我认为 Kevin Cannon 有一条有趣的推文,他说,“未来是由人们使用 GPT 来扩展诸如‘我想要这份工作’之类的东西,变成一封可爱的信,比如‘亲爱的先生’或‘女士’,等等,等等,等等……然后是收件人,单击摘要按钮,看到那个人刚刚说,“我想要这份工作,这是我的简历,”或者其他什么。 从某种意义上说,你会忍不住看着它们,然后想,这一切到底有什么意义? 如果正式语言、专业写作和商务英语成为我们所有人沟通的戏剧方式的毫无意义的渠道,那么将来,我会向你发送提示,你会回复提示,比如,“我想要工作。” “你不能得到这份工作。”

弗加尔:是的。 难以回答的问题。 这是严重的推测。 我给你一些意见。 可能有某些上下文,对吗? 比方说一份法律文件。 你可以对你的法律团队中的某个人说,“嘿,我需要一份合同。 它必须做 X、Y 和 Z。” 该请求将变成 10 页合法材料。 收件人会说,“哦,它会做它说的三件事吗?” 他们的法律团队会说,“是的,确实如此。” 这是极端的一端,其中有很大的扩展和压缩,但在一些奇怪的边缘情况下,第二页的第 13 条条款可能会出现在法庭上,等等。 很明显,这很重要。 我们无法摆脱它。 我们不能只有这四个要点。 我们需要这一切。 当你写的时候你可能不认为它很重要,但它可能会在以后变得重要。 这感觉就像是一个极端,“不,感觉必须存在”,以应对所有这些边缘情况。

而另一个极端可能是防御者和接受者不关心那些细节的情况。 两者都不会关心这些细节,他们只是在观察一些社交礼节或“这就是你写商业信函的方式”的形式。 我正在给一家大公司写信,我最好写一封商业信函,”也许那些东西会消失。

Des:以同样的方式,我认为当电子邮件对话转移到 SMS、iMessage 或 WhatsApp 时,我认为那里的类比。 想想你不再说的所有废话。 “希望这对你有好处,”或者其他什么。 所有的狗屎都没有了。

Fergal: Twitter 的限制、格式、媒介允许您更简洁。 我认为这是一个真正的动态。 我们交流的方式和撰写帮助中心文章的方式可能不是最佳的撰写方式。 也许我们应该更简短。 在机器学习团队中,有另一种思考方式。 世界的未来将由代理人进行中介。 曾几何时,这对每个人来说都是显而易见的。 您的网络浏览器有一个用户代理将其串起来等等。 正如我所说,这是你的代理人在为你浏览所有这些链接和东西的奇怪互联网。 它会为你做事,回来告诉你事情。 然后,所有这些东西都集中起来,现在你有了搜索引擎等等。

“如果我们只看到 DALL·E 2 图像生成,那将是一回事。 但不,我们正在看到音频合成、图像合成、文本理解、文本合成和文本压缩方面的转变”

科技未来主义和科幻小说等中有一个古老的想法,你可能会有一个代理人了解你、你的意图、你想要什么,并且足够聪明,可以弄清楚什么应该引起你的注意,什么不应该引起你的注意到。 所以可能,在未来,这种方式更像是那样。 如果你想知道一个特定的细节,你身边的软件足够聪明,可以把它放在它的摘要版本中。 但它足够聪明,知道您也不想知道该细节并将其排除在外。

也许我们会生活在用户界面发生变化的未来,我对特定业务或任务的用户界面并不像今天那样真正受该业务或任务控制。 相反,它是为我量身定制的。 这听起来很奇特,但我认为它会很快发生。 这些语言模型非常强大,它们开始被用来编写代码等等,而且从这里到我采取行动的距离很近。 我们已经看到了一些原型,人们正在研究能够很好地理解网站的模型,可以接受英语句子并为您浏览网站。 然后,我们是否正在走向一个人人都与网站互动的未来? 你还需要一个网站吗?

Des:这是新的 SEO 吗? 确保你的 GPT 能理解你?

弗加尔:是的。 也许网站会变成一些看起来更像是公开公开的 API 的东西,这是带有 UI 和格式的东西,因为 UI 是由代理格式化的。

Des:我们都只是在和 Siri 之类的东西交谈。

“也许这就是机器人未来的样子。 我们都有一个为我们量身定制的机器人来处理接口,你真的不需要太担心那个中间层”

Fergal:是的,我认为 Google 和 Apple 可以看到这个未来。 我们不知道时间线,但同样,我一直使用的思考工具是:如果你有一个非常聪明的人,他了解你,曾与你共事,也许是个人助理,你正在与他们打交道,然后你想预订假期吗? 他们会问你什么? 在你在 booking.com 或其他网站上看到的一半内容中,他们不会问你这个问题——他们只是会为你预订假期,然后可能会回来澄清问题:“哦,你想去住公寓,但那里没有空间。 酒店可以吗?” 但这是一个适应性强的用户界面。 同样,我不会过分关注 ChatGPT 和刚刚发布的内容。 你花一两年时间。 它移动得太快了。 如果你因为当前的限制而持怀疑态度,你会——

Des:你的怀疑不会切中要害。

弗加尔:没错。 Transformer 非常强大,人们使用的 Transformer 架构也非常强大。 我们在这里看到了多种方式的改进。 如果我们只看到 DALL·E 2 图像生成,那将是一回事。 但不,我们看到了音频合成、图像合成、文本理解、文本合成、文本压缩方面的转变。 我们看到了如此多的平行进步。 它可以编写代码。 它可能很快就能在网站上运行。 所以也许这就是机器人未来的样子。 我们都有一个为我们量身定制的机器人来处理接口,你真的不需要太担心那个中间层。

Des:我在 Twitter 上看到的一个超级原型场景是有人训练了一个机器人用他自己的声音说话,我相信,然后拨打一个号码并在银行电话树中导航,有效地接通代理,请求获得他们所有的信息外汇交易退款什么的。 这是一种标准,您只需要提出要求,他们就会去做。 它一直走到最后。 从字面上看,他们只是说了句“走”,然后就走开了。 这显然是超级做作的,也许是超级封闭的,但它仍然是一个端到端自动执行的非常真实的用例。

Fergal:我认为这是一个非常有趣的领域。 我们谈论了很多关于客户服务将如何改变的问题,而我们的头脑总是去的地方是当您拥有像 ChatGPT 这样的机器人时会发生什么,但它是为您的业务定制的,并且非常擅长回答问题,并且客户服务问题的成本将会下降。 但它还有另一面。 当用户拥有可以处理客户服务交互并且不会放弃或厌倦的机器人时,客户服务将如何改变? 那里可能会发生很大的变化。

Des:基本上,新的 B2B 将是 bot-to-bot。

弗加尔:也许吧。 用户可能需要一段时间才能拥有这种技术,但这是一件值得考虑的有趣事情。

真实性难题

Des:你通常如何看待这个双面的创造世界,最终,什么可以被视为欺骗——这看起来像一幅画,但它不是一幅画,它是生成的——相对于检测,人们可以说的想法,“嘿,我真的手写了那个代码,那不是生成代码。” 驾驭这个世界对人类有多重要? 西部世界有一个著名的场景,一个西部机器人工厂,一个人想要——

Fergal:这是对旧事物的翻拍。

Des:哦,是吗? 给我的消息。 我不知道这是对旧事物的翻拍。 但在西部世界中,有一个场景,一个男人撞到一个女人,和她交谈,然后,最后,他说,“我必须问,你是真的吗?” 她的回答是,“如果你不得不问,为什么这很重要?” 我认为那里有些东西。 超过我们的检测能力是否会被视为真实的定义? 真实性甚至不再是一回事了吗? 在银行业的例子中,一个人如何说,“嘿,Fergal,这实际上是你,还是你训练的机器人?” 特别是如果你已经训练它如何回答那个问题。

Fergal:那里有一些大问题。 那里至少有五个问题我可能忘记了。 你可以谈谈图灵测试,这是一篇非常有先见之明的论文,关于我们如何能够判断一台计算机何时变得足够智能,然后一个测试是一个功能失调的测试——如果人类法官能够可靠地辨别这两者通过文本界面或其他方式,我们可以说它不智能。 当它通过时,我们应该接受它在功能上是智能的。 它被歪曲了很多,但他的论文更像是,“如果达到这一点,它正在做一些非常有趣的事情。” 这是从功能上处理事物的一种方式。

“讲一个发生了很多事情的故事,然后问它一个复杂的、重要的问题,它仍然会被绊倒”

Des:我们已经过去了,我会说。 左右。

Fergal:总是有一些关于通过图灵测试的头条新闻。 我认为最初的表述类似于熟练的审讯者之类的东西。 我们还没有到那个地步。 如果有人受过提出正确问题的训练,这些东西很快就会崩溃。 它没有人类所拥有的深层世界模型。

德斯:对。 你会怎么做来问一个自我参照的问题? 你会要求某人在语言上绊倒它吗?

Fergal:技术在这方面越来越好。 但它更像是设置一个复杂的域。 讲一个发生了很多事情的故事,然后问它一个复杂的、重要的问题,它仍然会被绊倒。 它会以一种孩子不会的方式被绊倒。 但我认为正确的思考方式是你正在处理外星智能。 你想称它为智能,但它的形状会有所不同。 所以,这将是一堆七岁孩子无法写的东西——我将能够编写计算机程序,但你可能称之为常识推理的东西还不存在。 也就是说,从哲学上讲,这是在谈论这个东西是否有生命和感知的东西。 不,显然不是,大多数人会使用大多数定义。 但这有点转向人工智能问题的哲学。

回到你原来的观点,如果你想为这些系统建立验证码怎么办? 那看起来像什么? 是的,人们有加水印和检测文本是否由这些模型生成的方法,但我不知道如果你有一个真正擅长注入适量噪声的模型,那是否可靠。

我要提醒这个领域的任何人的一件事是,有机器学习系统,就像“我如何使我的机器学习系统具有足够好的质量,使其在现实生活中达到我 99% 的图像检测阈值?” 这是一个标准。 还有另一个标准:与对抗性输入相比,我如何构建我的机器学习系统才能更好地工作? 那是一个完全不同的球赛。

“至少在一段时间内,任何拥有大型语言模型的大玩家都会试图阻止你,如果你将它用于这样的邪恶任务”

Des:防御性设计。

Fergal:防守设计。 如何抵御对抗性输入? 总的来说,这真的很难。 如果你告诉我,“哦,我有一个新奇的机器学习系统,可以在复杂的环境中检测欺诈或保护我的系统,”我会非常怀疑。 有欺诈检测系统,但这与试图攻击机器学习系统的人不同。

我认为,当你在与机器人交谈时,当你在与大型语言模型交谈时,当它不希望你与你交谈时,检测整个问题会很困难。 而且,如果我们在未来遇到这样一种情况,即客户服务被假装成用户的机器人淹没,那将很难处理。 但我想,至少在一段时间内,如果你将它用于这样的恶意任务,任何拥有大型语言模型的大玩家都会试图阻止你。 并且会有一些控制,因为这些高质量的模型很难在任何类型的消费模型硬件上托管和运行。 可以有一些问责制。

迫在眉睫的中断

Des:如果我们放大一点,我们可能离能够产生听起来似是而非的音乐不远了。 大堂音乐,那种东西。

弗加尔:是的。 穆扎克。

Des:音乐,没错。 在某种程度上,有一些通用的公式化歌曲——我认为像 65 首排名第一的歌曲有相同的四个和弦或类似的东西,或者无论如何都是排名靠前的歌曲。 而且,显然,丹·布朗的小说都遵循一种简单的格式。 这并不意味着它不好,但是当任何在某种程度上以公式化的形式表达的东西都可以被复制,并且最终你可以获得一个 0 美元的版本时,社会会在多大程度上发生变化? 《达芬奇密码》仍然是《达芬奇密码》,从任何标准定义来看,它都是一本相当不错的书,但现在您可以以 0 美元或 5 美分或其他任何价格买到它的廉价地下室版本。 然后,你认为它发生在每一种创造力中。 同样,这并不是说这些技术的输出具有可比性,但它们可能是价格的 1%。 你认为世界在那种未来会发生怎样的变化?

“这就是杰文斯悖论——有时,让某样东西变得更便宜意味着你最终会做更多的事情。 这些动态真的很难预测”

Fergal:我有很多不同的想法。 你可以看看过去的类比。 你可以看看绘画,然后摄影出现了,突然间很容易捕捉到风景图像,但是——

Des:我敢肯定画家们不喜欢它,对吧?

Fergal:我不太了解历史,但总的来说,有些现任者在出现混乱时会感到不安。

Des:我认为收音机或盒式磁带也是如此——现场音乐家就像,“嗯,哟,这是我们的演出。”

弗加尔:是的。 每个电影院过去都有一位钢琴师来演奏配乐,但现在已经不复存在了。 留声机和钢琴调音器、织布机和勒德分子……这样的例子数不胜数。 而且我确实认为还有其他领域面临迫在眉睫的破坏,并且将会就什么是有价值的进行艰难的对话。 同样,对于客户支持,您必须保持敏感。 总是有更好的结果和更坏的结果。 人们可能会看到大型语言模型在编写代码方面变得越来越好,然后会说,“嘿,作为一名程序员,我投入多年的这项宝贵技能,天哪,它不会再有用了。”

“在一个高度自动化的世界里,客户支持代表会更少,还是会更多,因为他们可以为企业带来的价值被放大了?”

有不同的方式来思考这个问题。 你可以从 AWS 的角度来考虑。 我们在 Intercom 经常使用 Amazon,如果我们必须在没有 AWS 的情况下完成我们所做的一切,那么我们将花费更多的程序员时间来完成它。 这是否意味着我们因此雇用了更少的程序员? 好吧,这可能意味着如果没有这种支持技术,我们将无法开展业务。 这就是杰文斯悖论——有时,让某样东西变得更便宜意味着你最终会做更多的事情。 这些动态真的很难预测。 在一个高度自动化的世界中,客户支持代表的数量会减少,还是会增加,因为他们可以为企业带来的价值被放大了?

Des:当我们拿走所有真实的东西时,我们实际上看到了它们带来的价值,你会说,“我想要更多。”

Fergal:你想要更多; 你需要更多。 突然间就像,“哇,如果我们有很多这样的销售代表,我们可以为我们的业务释放什么价值?” 每个人都可以比现在多做 10 倍。 你永远不会知道。 我认为这是有时会被遗漏的事情。 人们总是对技术颠覆做出反应,总是说,“哦,你可以爬上价值阶梯,找到一份更好的工作。 如果你想去任何地方,你都可以成为一名产品经理。” 这可能是一种方式。 但另一种方法是,只要在你目前所做的事情上提高效率,就可以改变你需要做的事情的数量。

Des:或者更多的企业因此成为可能。

Fergal:更多的业务成为可能。 这是最好的事情。 我认为这一切都将随着人工智能艺术等事物的发展而展开。 显然,关于剽窃和侵犯版权存在争论。 如果有人去用一大堆图片训练 DALL·E 2,那算侵权吗? 如果他们学习了艺术家的风格,然后你要求它创作出像他们一样的作品,那会怎样? 那是侵犯版权吗? 法律体系和社会可能需要解决很多问题。 我认为有时辩论中遗漏的一件事是,即使你决定训练当前模型是侵犯版权——我们不接受人类这样做; 人类被允许观察事物并复制他们的风格——有人仍然会建立模型,在开放的、允许的工作上接受训练,并且他们会非常擅长生成图像。 我认为那艘船已经航行到一定程度了。

能开多大?

Des:在这里抛出一些针,你引用了 AWS 作为一个例子,我们这里没有庞大的服务器团队。 我们没有装满服务器的文件柜。 你的 AI 团队是否因为 OpenAI、Anthropic 等的存在而变小了? 如果它们不存在,您会构建一个 AI 版本的服务器团队吗?

Fergal:是的,我的意思是,这真是个问题。 有不同的方式来看待它。 人工智能团队会被打乱吗? 我们在这方面来回走动。 让我们看看当前版本的大型语言模型。 最近在玩GPT,做电影推荐。 就像,“嘿,我喜欢看 X 和 Y。有什么建议吗?” 而且还不错。 我敢肯定它不如拥有所有最佳数据的经过良好调整的推荐系统好,但它比随机挑选电影要好得多。 它会输出,它会像推理一样吐出来。 它的推理,就像它所做的一切一样,是似是而非的,但还不错。 再说一次,即使技术现在不是很好——我不会急着用它或任何东西来制作电影推荐系统——如果它变得好 10 倍或 100 倍怎么办? 如果你给它提供更多的训练数据或更好的训练制度会怎么样?

“将这种新功能与它擅长的特定事物结合起来有很多机会,它有很多脚手架,很多产品都围绕着它工作”

Des:只需等待 GPT-4。

Fergal:是的,GPT-6,不管它看起来像什么,对吧? 无论 100 亿美元能为你购买计算和强化、学习人类反馈,如果那是事实的话。 如果发生这种情况怎么办? 你还去建立推荐系统吗? 有人找你做推荐系统,你去做吗? Sam Altman 就此发表了演讲。 想象一下,我们可以让它达到人类水平。 如果你拥有人类水平的通用智能,你还需要一个机器学习团队吗? Or would you just sit down like, “Hi, how's it going? Today I'm going to teach you how to be a movie recommender.” You've got to give lots of examples, and it's got to be able to consume a data set about movies. But maybe it's just like, “Hey, AI system, write the code to consume the data set about movies.” 我不知道。

“You're getting into big questions, Des. And maybe that's just where all our heads are going at the moment. But you can get into big questions about, like, by the time that's disrupted, what percentage of current human economic activity is disrupted?”

Des: Yeah, totally correct.

Fergal: But that's a very bullish case. Maybe we hit some asymptote before then, and I certainly don't think we're near that point at the moment. I think you still need your machine learning team. And I think we're certainly in this happy Jevons Paradox for a while where a lot of stuff is unlocked, and maybe we're doing slightly different work than we were before – we're certainly doing a lot more prompt engineering – but these systems are not yet good enough to just train-

Des: Yeah. To outsource the whole thing to OpenAI, and they'll solve our problems.

“If you put 100X more resources into model training or dataset creation, what return do you get? Is it 10X, a 100X, a 1000X? I don't know if anyone knows that”

Fergal: Right, yeah. I really hesitate to speculate about when. Just to give you one super concrete limitation. All these models have a prompt size. The amount of context you can pass to it with a prompt is limited. And that limit is baked in pretty low down. And so, a lot of the stuff the team is doing at the moment is around, “Hey, how do we work around that? How do we give them a relevant article?” And we're using more traditional machine learning techniques – traditional as in, invented five years ago. The classic stuff.

There are tons of opportunities with the marriage of this new capability in specific things it's good at with a lot of scaffolding, a lot of product work around that. I think there will be disruption, and it feels like extremely disruptive tech to me, particularly when you project a few years out. But we don't know how big it'll be. And I don't think anyone knows how big it'll be yet. Maybe the folks in OpenAI do. But if you put 100X more resources into model training or dataset creation, what return do you get? Is it 10X, a 100X, a 1000X? I don't know if anyone knows that. There's certainly no consensus on it.

Des: There was that quote from Sam Altman where he was asked something – I think it was some irrelevant question about challenges in San Francisco or something like that – and his answer was, “When you believe that artificial general intelligence is as close as I do, you struggle to think about any other problem.” When I read that, I was like, “Okay, well, he's certainly leaned a certain way.” Now, he could still be thinking in 20 years, but some societal problems are kind of irrelevant against the greater potential wave of what could be happening here.

“There's clearly a pitfall to avoid and an attractive pitfall to fall into”

Fergal: Yeah. Full disclaimer mode now. I think there's a lot of merit to that style of thinking, personally. I remembered there were times in the history of computation when it was like, “Oh, if you've got a million dollars to solve a computing problem and you need to solve it as soon as possible, what you need to do is sit with the million dollars for two years and then buy the fastest computer that the million could buy.

Des: I remember my own career. In 2006 or 2007, mobile websites were all the thing. Pre-iPhone, right? And people were talking about WAP and JMI files or JNI files, and everyone hyped up their mobile strategy. And literally, by the time I finished working out what I thought was the right recommendation for a client, the iPhone had launched. And I was like, “You know what? 别担心。 Sit on your hands. Apple's going to solve this entire problem.” And sure enough, two months later, “Hey, it turns out all our websites are mobile-ready.” Sometimes, a tech wave can be so big that any temporal thing you do will just be irrelevant against the magnitude of what's going to happen.

Fergal: Yeah, if you believe AGI is close, I guess I can logically see that position. Now, clearly, it seems like there's a terrible mistake to make there where-

Des: Yeah, where we're wrong, and you've probably just been sitting on your hands.

Fergal: You've given yourself a license to ignore terrible, terrible things. So obviously, you've got to wait, and I'm not making any judgment on that. But yeah, there's clearly a pitfall to avoid and an attractive pitfall to fall into. I think it's very hard to bet against increasingly general intelligence. And I don't know timelines and stuff, but I think there are big questions for people to think about. Now, that's definitely way outside customer support or customer service.

Des: No, yeah. Well, look, thank you very much. We'll check in in six weeks to find out that this podcast is yet again out of date. We'll see where we're at again. But for now, thank you very much.

Fergal: Thanks, Des.

CTA-Intercom-on-Product