產品對講:ChatGPT 如何改變一切
已發表: 2022-12-10也許你真的很喜歡深度神經網絡和自然語言處理,也許你只是一個技術愛好者——你可能已經偶然發現了 OpenAI 的全新聊天機器人 ChatGPT。 炒作正在升溫,但問題仍然存在:它真的會改變遊戲規則,還是現在下結論還為時過早?
在最近的一集中,我們的機器學習總監 Fergal Reid 闡述了神經網絡技術的最新突破。 我們聊了聊 DALL-E、GPT-3,以及圍繞 AI 的炒作是否只是這樣,或者是否有任何意義。 他告訴我們事情開始擴大。 就這樣,我們又來了。
ChatGPT 是 OpenAI 的原型人工智能聊天機器人,它於上週推出,它一直在互聯網的大廳裡巡迴演出,激發了從頑固的技術實證主義者到永遠的技術懷疑論者的驚人反應。 該機器人由文本生成人工智能 GPT-3.5 提供支持,根據 OpenAI 的說法,它可以生成對話格式的文本,這“使得回答後續問題、承認錯誤、挑戰不正確的前提成為可能,並且拒絕不恰當的請求。”
雖然現在看到它應用於現實世界還為時過早,但它無疑是非常有前途的。 事實上,對 Fergal Reid 來說,我們在過去一年中看到的能力變化表明這個空間可能“與互聯網一樣大”。 這就是為什麼我們決定為您帶來一集關於 AI 世界最新發展的特別節目,它們意味著什麼,以及是否是時候將其應用到客戶支持等現實場景中。
以下是談話中我們最喜歡的一些要點:
- 通過擴大規模並用越來越多的數據訓練這些模型,這些機器人開始表現出質的變化,比如在沒有監督學習的情況下學習抽象概念。
- 目前,ChatGPT 在易於驗證答案的問題或沒有正確答案的創意環境中表現最佳。
- 雖然我們從這些模型中看到了顯著更好的推理能力,但它們仍然存在幻覺問題——如果它們不知道某事,它們就會編造出來。
- 如果你用提示“讓我們一步一步地思考”來提示這些模型,準確率就會上升,你會得到比讓它立即給出答案更好的輸入。
- 我們的技術界面正逐漸變得更具對話性,我們才剛剛開始看到自然語言理解的質量足以解鎖它們。
- 這項技術有許多令人興奮的應用支持,例如代理增強,但在部署之前還有很多工作要做。
如果您喜歡我們的討論,請查看我們播客的更多劇集。 您可以關注 iTunes、Spotify、YouTube 或在您選擇的播放器中獲取 RSS 提要。 以下是該劇集經過輕微編輯的文字記錄。
ChatGPT重磅登場
Des Traynor:嘿,Fergal。
Fergal Reid:嗨,伙計們。 怎麼樣了? 謝謝你讓我回來。
德·特雷納:好。 你回來真好大約五週前,我們在播客上邀請您談論 AI 正在發生的事情。 你又回來了,因為發生了更多事情。
Fergal Reid:這五個星期很忙。
Des Traynor:這是忙碌的五個星期和忙碌的 7 天。 7 天前是 11 月 30 日星期三,我收到一封電子郵件,邀請我參加一個名為 ChatGPT 的公開測試版。 發生了什麼?
“它像病毒一樣傳播開來,它變得瘋狂,每個人都非常興奮”
弗格爾·里德:發生了什麼事? 所以,這是一個有趣的問題。 OpenAI 發布了他們最新的機器學習系統,AI 系統,他們發布的非常公開,就是 ChatGPT。 它與他們目前的產品 GPT-3、GPT-3.5 非常相似,但包裝不同,你不需要將信用卡放入其中,我想每個人都看到了“哇,有一個巨大的最近這裡的能力發生了變化。” 它像病毒一樣傳播開來,變得瘋狂起來,每個人都非常興奮。 大約在同一時間,他們發布了他們最新的 GPT-3.5 模型,比如 davinci-003,它做了很多相同的事情,但它可能不太擅長說,“嘿,我是一個大型語言模型,不能為你做那件事。” 但就能力而言,它是相似的。
Des Traynor:讓我們做一些簡單的定義來讓每個人都紮根。 OpenAI 顯然是在 AI 和 ML 方面做了大量工作的機構。 你說 GPT:那代表什麼?
Fergal Reid:我其實不記得了。 通用變壓器或類似的東西[生成預訓練變壓器]。
Des Traynor:但是這個名字有什麼意義嗎?
Fergal Reid:是的,我認為關鍵部分是變壓器。 很長一段時間,人們都在試圖弄清楚,“嘿,訓練處理文本和自然語言處理任務的神經網絡的最佳方法是什麼?” 很長一段時間以來,這些 LSTM [長短期記憶] 將文本的短期結構與句子的長期結構和序列模型相結合,每個人都在研究這些.
“隨著你推送越來越多的訓練數據,它們似乎在它們能做什麼方面表現出質的變化。 所以,就像,'嘿,這似乎有點理解'”
然後,谷歌發表了一篇非常具有革命性的論文,“注意力就是你所需要的”,其中有一個非常宏大的論點:“嘿,這裡有一種新的方法,一種新模型,而不是這些傳統的序列模型,”他們稱之為變壓器模型或變壓器架構。 當您查看特定單詞時,模型將學習句子的其他部分,您也應該結合該單詞查看這些部分。 與使用序列模型相比,您可以更有效地學習事物,並且可以更快、更有效地訓練它,並進一步擴展它。
因此,每個人都開始將轉換器用於各種序列數據。 然後,OpenAI 真正貢獻的一件事是你可以採用這些轉換器架構並真正擴大規模的想法。 您可以添加更多的訓練數據,並為它們添加更多的計算。 也許非常令人驚訝,我真的認為這是關鍵,隨著你推送越來越多的訓練數據,他們似乎在他們能做什麼方面表現出質的變化。 所以,就像,“嘿,這似乎有點明白了。” 或者我可以說“讓這個更快樂”或“讓這個更悲傷”,這是一個非常抽象的概念。 這是從哪裡學來的? 我們沒有給它這種監督學習,你可以在其中編碼悲傷或快樂的定義。 它才剛剛開始學習這些抽象的概念,從大量的訓練數據中進行這些抽象。
基本上,OpenAI 和其他一些人一直在越來越多地推動這種擴展。 還有其他事情。 對於 GPT-3.5,他們對其進行了一些不同的訓練,以嘗試使其更加對齊。 但基本上,這裡最重要的是規模很大,訓練數據很多,實際上是一些簡單的模型。 你可以做一些了不起的事情,而在 20 年前,人們會說,“好吧,計算機永遠做不到; 它永遠無法為我寫歌,”現在就像是,“你想要什麼樣的歌?” “讓聲音更快樂。” 所以,是的,這是一個了不起的時代,因為很多我們認為只是人類智能領域的東西只需要大量的訓練數據和一個大模型。
ChatGPT 可以有創意嗎?
Des:然後,自上週三以來發生的事情是 Twitter——然後 7 天后,一般互聯網或媒體——抓住了這一點。 我已經看到了各種坦率的傑出用途,我無法想像這是可能的。 我看到“給我寫一份說明,讓我按照泰勒斯威夫特歌曲的風格複製 DVD,她因為與男友分手而生氣”或類似的東西。 但它實際上有一個嘗試。 然後,我看到其他人喜歡“如何在 iOS 上安裝 Intercom”,它也相對正確。 以及介於兩者之間的一切。 我看到的最瘋狂的事情是,對於任何這些事情,你都可以回頭說,“現在,以 1940 年代黑幫的風格給我,並用德語說出來,”和“現在把德語翻譯成西班牙語,但也增加了更多的憤怒,”或其他什麼。 它會立即執行所有這些操作,延遲幾乎為零秒,而且在所有情況下,您都可以看到它的目的。
我舉的一個個人例子是,當你試圖在睡前給孩子講故事時,你可能會找不到角度。 只有這麼多不同的方法,例如,三隻龍可能會進入森林並迷路。 然而,GPT-3 實際上非常適合給我提供 10 個以上的故事。 我注意到,在最長的時間裡,關於人工智能的故事,甚至就在幾年前,人們會說,“它對特定的東西很好,但它無法解決創造力問題。” 可以說感覺就像我們真的身處逆向世界嗎?
弗加爾:是的。 我的意思是,當人們談論 AI 時,總是說,“好吧,它要做的第一件事就是那些死記硬背的手動任務。” 然後人類將有所有這些時間去做這些極具創造性的事情——
Des:走進森林然後——
Fergal:一直在創作藝術,美麗的詩歌。 然後,就像,“哦,哇。 這些手動任務需要非常敏銳的眼光和處理事情才能解決。 但是創造力,沒有錯誤的答案,也不會因錯誤而受到懲罰……是的,這首詩不是很完美,但沒關係,渲染的 DALL·E 2 圖像可能與你的想法不完全一樣,但它仍然是一幅美麗的圖像,您可以從 10 個中選擇 1 個,這很有效。
“這東西似乎非常擅長那種直覺的部分,而且它非常擅長愚弄我們的直覺部分。 所以當你一眼看去,它看起來是正確的”
Des:你也可以看到它的用途。 我認為人們沒有意識到的一件事是,它會把你腦海中可能存在的東西還給你,因為無論如何你都會看到它。 當我說,“給我開一個銀行賬戶的說明,就像一首 Rage Against the Machine Song 的風格,”我明白了,“是的,我們要為開戶而戰,我們要激怒所有人夜晚。” 我可以看到它在做什麼。 我什至沒有在那裡應用精度等級,我只是說,“啊,你試過了,”你為此給予了讚揚。
Fergal:是的,我認為這可能是真的。 我們在多大程度上擅長根據非事實信息來判斷有驚無險? 也許我們只是不太擅長。 也許我們並不關心它。 我的意思是,我們將不得不討論這個事實問題,但即使你問它一個事實問題……假設你問它一個客戶支持問題。 我最近問了一個關於雙因素身份驗證的問題,“你如何重置你的內部通信雙因素身份驗證?” 我得到的答案就像是,“哇,這是一個很好的答案。” 我看著它,“等等,這不是你重置 2FA 的方式。” 這是一個漂亮的 URL,它包含對我們的幫助中心文章的引用,而且也是編造的。
“我認為大多數人,包括我們自己在內,都被他們的想法所震撼,乍一看似乎有道理的想法讓他們感到震驚”
人們談論人類和人類大腦,我們有這個非常擅長識別模式的直覺部分,然後我們有邏輯、分析和推理部分,它更慢、更精確。 這東西似乎非常擅長那種直覺的部分,而且它非常擅長愚弄我們的直覺部分。 所以當你一眼看去時,它看起來是正確的,但在你真正應用你較慢的系統推理之前,很難看出這一點。 我認為直覺、推測可能是我們判斷創造性努力、藝術、圖片和十四行詩時更依賴的東西。 至少在最初。 因此,它非常擅長生成乍一看似乎有道理的東西,但也許,當你真正花時間思考它時,你——
Des:查看問題。 乍一看似是而非非常重要,因為我認為大多數人,包括我們自己,都被乍一看似是而非的想法所震撼。 儘管事實上它可能沒有很多現實世界的適用性,但您為此給予了很多讚譽。 你永遠不會把那幅畫掛在博物館裡,你永遠不會真正讀到那首十四行詩,你永遠不會因為那本小說而獲獎。
我看到很多像內容營銷人員這樣的人說,“這將永遠改變我的工作。” 我想,“是的,但也許不是你想的那樣。 如果你認為你的工作只是簡單地輸入提示和點擊標籤,那麼你的工作可能不存在。” 同樣,我在 Twitter 上看到經理們說,“哦,這會讓績效評估季變得容易得多。” 在所有這些情況下,我就像——
Fergal:這有點不對勁。
“這項技術對人類做出的真正巨大貢獻可能是關於我們可以消除的工作量的誠實對話”
德斯:沒錯。 你們都在這里大聲說出安靜的一點,如果你的工作實際上涉及你寫虛假的 BS,那可能是 -
Fergal:你一開始為什麼要這麼做?
德斯:你在做什麼? 確切地。 我明白,在內容營銷的情況下,可能有一些原因你只需要對某些詞進行排名,但不要將其誤認為是實際寫作的技巧。
Fergal:我的意思是,這可能是一件好事。 有可能那些狗屁的工作,那些讓人覺得沒有價值的事情,比如這些績效評估,可以直接交給 GPT。 然後,過了一會兒,每個人都意識到這是怎麼回事,另一邊的人說,“好吧,我要把它交給 GPT 來分析。” 也許那時我們可以就什麼是真正有價值的內核以及如何消除工作量進行坦誠的對話。
Des:為什麼我們要做所有這些表演性的廢話?
Fergal:是的,這項技術對人類做出的真正巨大貢獻可能是關於我們可以消除的工作量的誠實對話。 那可能很棒。 那可能會發生巨大的變化。
聊天機器人幻覺的問題
Des:談到實際的應用程序,這是我的想法,至少是我的直接經驗,甚至你所說的 2FA 用例,你今天不能在很多有明確定義的領域直接部署它正確答案,特別是如果給出錯誤答案的風險很高。 所以你不希望這個東西消耗醫療記錄並吐出診斷,因為我可以向你保證診斷會寫得非常好,對於外行人來說真的很可信,而且準確率可能很低。 我們不知道準確性的概率,但它會根據輸入而變化。
Fergal:如果有人來找我說,“嘿,Fergal,我們希望你的團隊開始使用它進行醫學診斷,我肯定會很害怕。 那會很好。” 那將是極其可怕的。
“有一件事是這項技術絕對存在很多人稱之為幻覺的問題,如果它不知道某事,它就會彌補”
Des:但是還有其他可能不那麼嚴重但同樣不准確的用例,您可以在這些用例中使用它來診斷法律案件的結論。 同樣,我確信它聽起來不錯,並且會用所有正確的樣板語言包裝它,但它最終仍然不會真正知道它在說什麼。 我已經要求它給我關於如何構建現代電子郵件客戶端以在生產力領域競爭和取勝的想法。 它讀起來真的很好,但只有當你刮開它時,你才會意識到那裡實際上什麼都沒有。 這只是一個接一個好聽的詞,沒有特別尖銳的意見。 對我來說,這讓我想知道我們可以如何使它更適用。
Fergal:在我們開始之前,我認為有兩件事有助於梳理這裡。 一件事是這項技術絕對存在很多人稱之為幻覺的問題,如果它不知道某事,它就會彌補。 這是有害的,並且有很多領域 1% 的幻覺概率是一個交易破壞者。 如果這個概率為零,我們都會很高興。 但與此同時,與一年前的最先進技術相比,與三年前相比,準確性有所提高。 在很多時候給你正確的答案也絕對更好。 它在“理解”方面要好得多。 我很難說,“哦,它只是在做模式識別,它什麼都不懂,”或者至少,我很難說,“你說的理解是什麼意思?”
我們肯定正處於這樣的軌道上,雖然它仍然會彌補問題,這是一個大問題,但當它有正確的答案時,它會越來越好地為你提供正確的答案。 那麼,這條曲線是什麼樣的? 目前很難拆開包裝,但我們正在獲得更好的模型,這些模型更擅長做正確的事情,但有時仍然會做災難性的錯誤事情。 我們應該注意這兩件事。 是的,目前很難在很多生產環境中部署它,至少在沒有一些雲或周圍的一些可供性的情況下是這樣,但它也在變得更好。 如果你問它一些在維基百科上涵蓋得很好的東西,它會變得更好。
一個最終的例子是計算機編程。 你可以要求它提出一個它從未見過的編程挑戰,如果你要求它生成一個完整的模塊或系統,它就會遇到困難,你就會遇到斷點。 但是如果你要求它編寫一個函數,即使是一個新的、虛構的、樣本外的函數,它可能會給你錯誤的答案,但它給你一些有用的東西的機會已經大大增加了。
Des:你之前說,它基本上通過了我們編程面試的第一階段,某種基於數組的問題。 它只是釘它。
“每個人都開始談論狗的語法不是很好,這很重要,但不要忽視狗正在說話的事實”
弗加爾:是的。 確切地。 我們為來 Intercom 的工程師提供解決問題的編程挑戰。 幾年前我不得不親自坐下,我們非常努力地確保它在互聯網上不可用。 如果是,我們會嘗試迭代並更改它。 而且我們還沒有跟上速度,所以我不能保證它不在那裡。 但這件事產生了一個解決方案,剛剛解決它,那就是“高級工程師在白板上半小時”之類的問題。 它只是一次完成,一次完成。
Des:零秒。
Fergal:零秒。 這非常令人印象深刻。 和世界上一半的人一樣,我也一直在玩 ChatGPT 或 GPT-3.5,我給了它很多其他編程競賽問題或編程問題,我很確定這些問題是樣本外的,它做得很好。 這是準確性的質變。 你必須檢查你的代碼並確保它沒有錯,但這是非常有趣和令人興奮的。
同樣令人興奮的是,它至少具有基本的自省能力。 如果它寫了一個錯誤,你可以說,“嘿,有一個錯誤。 你能修好它嗎?” 有時,它會給你一個美麗的解釋。 所有這些模型都經過訓練來做標記預測; 預測接下來的幾個詞。 至少傳統上是這樣,因為我猜它在去年發生了一些變化,但大部分訓練只是預測下一個標記,預測下一個單詞。 這裡發生了一些驚人的事情——只要大規模地這樣做,你就會達到一定程度的理解。
我不想在更廣泛的關於幻覺的討論中迷失它,這是真實的,上週人們可能沒有給予足夠的重視。 但是有一個比喻,我不記得是誰想出來的,一隻會說話的狗,有人告訴你他們想讓你去見見他們新的會說話的狗,你就像,“狗不會說話。 ” 但是你走到狗身邊,狗就和你交談了。 每個人都開始談論狗的語法不太好,這很重要,但不要忽視狗正在說話的事實。 對我來說幻覺就是這樣。 這感覺像是一個巨大的變化——也許我們無法投入生產,但誰知道一年、兩年或三年後它會在哪裡。
“這就像自動駕駛汽車,對吧? 你必須準備好隨時接管”
Des:是的,幻覺的東西,對我來說,並沒有讓它變得毫無用處。 讓我們悲觀地說,給定一個病人的五段描述,它可以立即給你 70% 的準確診斷。 在大多數診斷問題中,有一些快速測試可以驗證這是否正確,例如,“聽起來你有 X,這裡是 X 的快速測試,”然後結果是對還是錯 –這仍然是一個巨大的生產力變化。 如果我們假設它仍然存在缺陷,但嘗試利用 70% 的準確率,它可能仍然可以做一些非常有價值的事情。
Fergal:對此我有兩個想法。 第一個想法是,有人需要研究一下,因為這可能是完全負面的,因為人、醫生和 AI 參與循環的新系統更有可能發生災難性錯誤,因為疲倦、過度勞累醫生有時不盡職,但擺在他們面前的是一個誘人但不正確的系統。 這就像自動駕駛汽車,對吧? 你必須隨時準備接管。 在該制度中可能存在一些領域,其中整個系統與人類實際上比僅僅-
Des:人們實際上會過度信任。
Fergal:人們可能會過度信任。 他們怎麼稱呼它? 偏差歸一化。 人們在核反應堆災難之類的背景下研究這一點。 什麼地方出了錯? “哦,我們已經習慣了這條捷徑,而這條捷徑並不總是有效的,”等等。 這是我要說的一件事。 但是,與此相反,當我們考慮醫療問題時,世界上的某些地區無法獲得醫生。 所以我不知道在哪裡劃定界限。 這是一個很難劃定的界限。 最終,在軌道上,這些東西可能會變得越來越好,並且足夠好,最終,作為一個整體,這個系統確實會超越人們目前擁有的任何東西。
逐步訓練聊天機器人
Des:你是說當它生成代碼時,你可以說,“嘿,那是布吉。” 我看到的另一個在 Twitter 上流行了一段時間的例子是“逐行告訴我你的想法”,或者其他什麼。 這幾乎就像你在告訴它如何思考事物,或者你在給它新的信息,然後不強迫它重新考慮它的意見。 那裡發生了什麼?
Fergal:我認為那裡正在發生一些有趣的事情,我們必須在這裡就最前沿進行討論。 這是推測,我是一個旁觀者——我不是在做這項工作。 我認為谷歌最近發表了一篇關於大型語言模型如何自我改進的論文,所以我認為其中有一些令人著迷的東西值得一探究竟。
首先,大約一年前,人們發現雖然這些模型經常會出錯,但您可以用經典的“讓我們逐步思考”來提示他們。 你會有一個模型,可以問它一個簡單的數學問題,比如“愛麗絲和鮑勃有三塊巧克力,他們給夏娃三塊”,或者類似的問題。 “他們還剩多少?” 這些東西與基礎數學相衝突,所以它經常會犯這樣的錯誤。 但是你可以說“讓我們一步步思考”之類的話,這會迫使它在整個過程中逐步輸出推理。 當你這樣做時,準確率會上升,這是有道理的。 它經過訓練可以完成文本。 因此,一步一步地,每一步都被設計成……
Des:這幾乎就像你沒有乘以失敗的可能性。 因為那樣的話,如果你以 90% 的概率運行每一步,而在五步之後,突然之間,概率只有 50% 是正確的。
弗加爾:也許吧。 我的意思是,很難推測內部到底發生了什麼,但可能是這樣的。 但最近有一篇非常有趣的論文說,“嘿,我們知道我們可以通過說‘讓我們一步一步地思考’來提高準確性。”我們可以用它來獲得更好的輸出,而不僅僅是憑直覺,立即給出答案。 您可以使用它來構建新的訓練數據集並重新訓練模型以提高其準確性。 對我來說,這很吸引人,因為這些東西可以自我改進,至少在某種程度上是這樣。
“這裡有一個非常有趣的世界,語言模型和 NLP 開始看起來有點像 AlphaGo 的世界。 我認為這是一個非常激動人心的時刻,很難說這裡的限制是什麼”
我最近在 Microsoft 活動上看到了一個演示,他們展示了 Copilot 或其中一個模型,也許是達芬奇,他們沒有指定,用 Python 提示做一些事情,他們給它一個自然語言問題,有點像我們的對講機編程問題,然後讓系統合成代碼,把代碼放到Python提示符裡,當它出錯的時候,系統嘗試執行代碼,看到是錯的,於是又走了一遍又一遍,直到搞定正確的。 這裡有一個非常有趣的世界,語言模型和 NLP 開始看起來有點像 AlphaGo 的世界。 我認為這是一個非常激動人心的時刻,很難說這裡的限制是什麼。
我認為有很多事情,長期以來,語言學或其他方面的人會說,“在 AI 中,我們永遠無法在一個宏偉的計劃中回答這些問題,”或類似的話。 就像“拖拉機開到路上,變成了一片田地。 請解釋那個笑話中發生了什麼。” 從歷史上看,計算機在這方面做得不好。 “神奇的拖拉機順著路走下去,變成了一片田地。” 像這樣的輕微修飾符會改變意思。 它在某些領域變得非常擅長。 你可以問它基本的語義問題或讓它進行推測。 直到大約兩三年前,每當我看到一個新的機器學習系統時,一開始它總是看起來很神奇和令人驚奇,而每當你進入它並在引擎蓋下時,你就像,“哦,這只是邏輯回歸” 一旦我明白了這一點,它就不那麼令人印象深刻了。 我在這裡努力做到這一點。 也許那是因為很難理解模型的複雜性。 但這些東西感覺上與我們擁有的能力有著質的不同。
人工智能機器人與穀歌
Des:在我們深入探討支持之前,我看到評論說這對互聯網來說是一個與穀歌一樣重要的時刻。 我還看到過,我想說,冷水澆灌,也就是說,“別被愚弄了,生成隨機歌詞充其量只是一種噱頭。” 很明顯,你的興趣範圍很廣,這取決於你是不是技術實證主義者或其他什麼人。 你對谷歌的事情有什麼看法? 這可能和谷歌一樣大嗎? 這是對谷歌的威脅嗎? 關於谷歌可能如何反應的想法?
Fergal:所以,我會在這裡超級投機,進入完全未來主義和東西。 我非常看好人工智能和機器學習。 我覺得我們在過去一年中看到的能力變化,當然如果你再往前推一兩年,就會和互聯網一樣大。 潛力。 我們將不得不弄清楚如何將這些東西產品化。 關於如何限制他們從知識庫中回答等問題,需要做大量的工作。 但對我來說,我們已經獲得和可能獲得的新功能的總和與互聯網一樣大。 我可能是錯的,但那就是我會——
Des:這是數量級。 所以,比谷歌更大。
“我認為這是一個人造衛星時刻——人們會看著這個然後走,哇,有東西到了這裡”
弗加爾:是的,我想是的。 不僅是上周剛剛推出的 ChatGPT。 但總的進步感覺就像我們看到了顯著更好的推理能力,基本推理和推理可能是錯誤的,但有時非常引人注目。 如果你在五年前告訴我它在編程挑戰中的成功,我是不會相信的。 所以我認為這裡有一些重要的東西。 有很多生產力可以釋放,很難說它會在哪裡停止。 而且,我認為這裡有反饋循環。 我覺得這是人造衛星時刻。 使用 ChatGPT,您可以說,“嘿,技術並沒有那麼好”或“它被誇大了”,但不要低估低摩擦能夠進入並玩弄某些東西的能力。 每個人都可以做到。 我認為這是一個人造衛星時刻——人們會看著這個然後說,“哇,有東西到了這裡。”
Des:抱歉,這裡是 Sputnik 參考資料。
Fergal:我的天哪,那是在五十年代。 俄羅斯人把這顆衛星放在繞地球軌道運行並廣播無線電信號的太空中。 全世界的人們都可以突然調諧他們的收音機並接收到來自人造衛星的信號。 這是西方普遍講述的故事。 人們突然驚醒,“哇,這裡發生了我們之前沒有意識到的能力變化。” 然後,據推測,這引發了太空競賽和阿波羅號以及所有類似的事情。 所以我覺得也許反應還在繼續,但我看到很多原本沒有真正注意這個的人突然對此感到興奮。 也許炒作會平息。 我們正處於其中,因此很難預測。 但如果不是這樣,很快就會有其他事情發生。
ChatGPT 能否為客戶支持提供支持?
Des:客戶支持怎麼樣? Intercom 是一個客戶支持平台,GPTChat、GPT-3.5 或任何這些技術的潛力可以使支持更好、更快、更便宜、更成功或更端到端,這是我們一直在做的事情。 我知道您一直在從支持的角度考慮這個問題。 早些時候,我們談到了在某些環境中,錯誤答案是非常非常糟糕的,而在某些環境中,它實際上是可以容忍的。 我們有 25,000 名客戶。 有些是銀行,它們可能負擔不起。 其他人會很樂意買一台,因為這意味著他們可以更快地支持所有客戶。 What do you think about this technology as it applies to support?
“We made a conscious design decision very early on that it would never say anything that hadn't been explicitly curated by the team”
Fergal: Yeah. We try and pay a lot of attention to changes in developments in this space. We were looking at GPT-3 pretty early, and our initial thoughts were that the accuracy was not quite there yet. The hallucination problem is a big problem to just nakedly say, “Hey, it has consumed the Intercom help center. Let's ask questions about resetting my two-factor authentication.” It just failed. We've been looking at the GPT-3.5 family and some other models recently. We have resolution bots in production. It's not using language models that are as large – they're maybe medium language models, embeddings, and so on. And it gets very good accuracy at the sort of thing it does. We made a conscious design decision very early on that it would never say anything that hadn't been explicitly curated by the team. I think that worked well for a lot of businesses because it might deliver the wrong answer sometimes – we try carefully to control that – but it's always going to deliver you a relevant answer or an answer that's not going to mislead you.
Des: Yeah, and specifically, the way in which it gets it wrong is it might give you a wrong correct answer. The thing it gives you will be something that somebody in your company has said: “This is a correct, cohesive piece of text.” It just might not be the right one for the question.
Fergal: And we encourage our customers to always write the answer in such a way that, “Oh, to reset your account, do the following thing.” So if it is delivered wrongly, at least the end user is not disoriented.
Des: Yes, they don't go and do it for no reason.

Fergal: They can go like, “Oh, this is a stupid bot. It gave me the wrong answer,” as opposed to, “I am misled, and I'm now going to waste a bunch of time…” So initially, with GPT-3, we were like, “Oh, it's really cool but difficult to see the end-to-end usage of this.” It's been a couple of years, and I'm not aware of anyone who has deployed GPT-3 in a total end-to-end way to answer the customer's questions.
Des: End-to-end meaning no agent in the mix. Because the risk there is that there'll be an unknown unknown. If someone goes to your business and asks a question that you didn't see because GPT dealt with it, gave it the wrong answer, and the customer goes off and does the wrong thing, no one actually knows what's happened except for the bot. And the bot doesn't even know it's wrong because it doesn't know if it's spoofing or not. So you end up in a potentially dangerous world.
Fergal: Exactly, and we've quite carefully designed the resolution bot to avoid getting into those situations. We calibrate it, we check that, when it says something helped the customer, it did help the customer, and we have ways of checking that between explicit and implicit customer feedback. But it's conservatively designed.
“The probability of giving the wrong answer and totally making stuff up is too high, at least to use it for end users in a naked way”
At some point, these open domain question-answering things or something you could build on the top of GPT-3.5 will get good enough that, for a certain portion of our customers, that equation changes where it's like, “Hey, I'm not answering medically critical things,” and the inaccuracy rate has fallen. It was 90% accurate; now it's 99% accurate; now it's 99.9%. How commonly it gives you the wrong answer will eventually fall below the critical threshold where it's like, “Hey, just being able to take this out of the box is worth it. I don't have to go and curate these answers.” So that will probably come. When will that come, is it here today, or has it come in the last few weeks with davinci-003 and ChatGPT is obviously something we've been assessing.
And it's certainly a work in progress because you always have to go and play with the prompts. When you interface with ChatGPT or GPT-3, we could take an end user's question and ramp it in something that says, “Hey, you're a very conservative customer support agent. If you don't know something or you're not completely sure, you always say, 'I don't know,'” and you reason with it step by step, and you're super conservative, and maybe we can wrap it to get the benefit of the deeper natural language understanding, which these models have, and the deeper ability to synthesize and rewrite text, which can be beautiful. It can be really nice. Maybe we can get those benefits and constrain the hallucinations and the errors enough.
Des: Is that another version of walking through this line by line?
Fergal: Yeah.
Des: Is that whole field what people call prompt engineering?
Fergal: Prompt engineering. We're joking that the machine learning team at Intercom is going to be a prompt engineering team, and we're joking about that as we play with it. But there are people who really sweat the prompts and have gotten really good at prompt engineering. It's a real thing, and it makes it difficult to say, “Oh, this new tech is definitely not good enough,” because what will the best prompts be in six months? That said, we don't think it's here yet. All the prompt engineering we've done on davinci in the last week can get it to be more conservative, but not enough. The probability of giving the wrong answer and totally making stuff up is too high, at least to use it for end users in a naked way.
Support agent augmentation
Des: We talked earlier about the doctor augmentation question. Is there a version of it where you can do it from the agent augmentation question?
Fergal: Well, at Intercom, we've been thinking about this area very deeply for an extended period, and in the last few months, we have had internal discussions about the future of the customer support inbox and generative models – models that generate stuff as opposed to just classify things – and we believe that their time is coming for support augmentation, and I think that seeing ChatGPT explode recently and all the excitement about it is evidence of that. It's evidence that these things are getting good. And there are a lot of things you can do in the inbox or in a context like the inbox to constrain and sand off the rougher edges of these things.
An example might be to curate the responses it's allowed to give and use the generative model to predict what should happen, but only actually allow the suggestion to present to the teammate, like a macro or a conversation response, and hopefully provide a beautiful interface to make it easy for them. Alternatively, to have it go and search for a new knowledge base, and there are techniques you can use to try and constrain it to that. And then, maybe show, “This is the answer that our bot wrote from your knowledge base,” and side by side with that, “Here is the original source article,” so that the customer support rep can look at them side by side-
Des: And see if it adds up.
Fergal: Yeah, and see if it adds up.
“They have to go and find the article themselves, then they have to read it and check the answer, and then they have to copy paste it and reformat it. So maybe there's a productivity boost”
Des: So there's an angle where the AI explains its epistemological basis for how it concludes this. And in that world, if you're a support rep, you don't even need to know if it's actually right – you just need to know if the logic stacks up. Obviously, it'd be better if you knew if it was right, as well. But if it says, “Hey, I read how to reset a 2FA article linked here. I suggest that this is how you reset 2FA,” you're probably, “That's the right article to read.”
Fergal: The problem is that when they get it wrong, they're so good at seeming right that they'll-
Des: Invent the idea of the article.
Fergal: Yeah, yeah, totally. And so, you might need to go beyond that. You might need to have the untrusted part of the interface, which is maybe the composer, and it pre-fills something, and there's also a trusted part of the interface beside that, maybe just above it, that shows the original source article, the relevant paragraph. And so, you can look at both.
Obviously, we study customer support flow very carefully and closely, and we absolutely have some support agents where it's like, “Okay, I got the question,” and they have to go and find an article themselves. Some expert ones know it, they're instantly there, and they know exactly where to go. Maybe they've got a macro that does it, but then maybe someone who's newer in the company and they're still being trained in, or maybe it's only part of their job, they have to go and find the article themselves, then they have to read it and check the answer, and then they have to copy paste it and reformat it. So maybe there's a productivity boost. Maybe you can make someone twice as efficient or something.
Des: All that agent behavior will also inform the system. If you put it live and agents are forever going “Wrong, right, wrong, right,” all that feeds back in, and then it gets better. Or, if they're rewriting the answer to be more accurate, I assume we can learn from that. And then, very quickly, the system converges on all the right answers.
“There are a lot of trade-offs. It's very easy to say we want a system that will learn in production. But then it's like okay, who has to maintain that? Who has to debug that?”
Fergal: We could certainly build a system that does all of those things. GPT-3.5 won't nakedly do it. If you decide to build on it as a building block, not even an assessment, is that the right system to build on? Its capability is very good, but it's not the only generative model in town. But whatever we build on, and we're getting really into the roadmap, we would potentially build a learning loop. With most of our tech at the moment where we do that, we absolutely gather feedback. There are some parts of the resolution bot like predictive answers, where it predicts things to end users, where it actually does use what the users say, like, “that helps” as a training signal, and potentially we can end up building that.
There are a lot of trade-offs. It's very easy to say, “We want a system that will learn in production. But then it's like, “Okay, who has to maintain that? Who has to debug that?” Sometimes it's easier to get it to a stable stage and then lock it. So, it depends. We did metrics and analytics whenever we upgrade. We're getting into the details of our models and how we check the accuracy and calibrate them, and stuff.
Des: I know our inbox has this feature where, based on what you've said before, if I jump in the inbox, before I've said anything to try and start a conversation, it'll say, “Hey, I'm Des, co-founder of Intercom, thrilled to be chatting with you.” Whatever my most common thing is, that's automatically pre-written for me.
Fergal: Yep. Smart replies.
Des: Am I right in saying that it's just the mini version in some sense of what we're describing here? Because we were really just going for salutations and maybe ends and maybe handoffs, and the common boilerplate of a support conversation should be there for you. And that, alone, is a productivity boost. But the idea that we could get one degree sharper, and somewhere in the middle of all that boilerplate is, “Here's the meat of the answer,” is where you're talking about going, right?
“We believe its time is coming, and we're trying to figure out the best ways to make people more efficient and to leverage it in a production setting that actually works for people”
Fergal: Yeah, totally. And again, to separate things out – there's just the change in the world, an increased capability, GPT-3.5, and then there's the stuff that we're working on as we grind away on this problem and try to deliver things that will make it better for our customers. I think the capabilities have really improved, but we're still figuring out if we can use this. Is there a shortcut to where we want to go? Maybe we can use these capabilities as building blocks, there are loads of ways to potentially use them as building blocks. But in terms of the direction we were going on already anyway, there are a lot of things agents do such as greetings where it's very obvious. We don't ever want to annoy people. We don't ever want to have an agent read through a bunch of text and then be like, “Oh, that's useless. 你為什麼這麼做?” It reduces their trust in the system. It slows them down. We want to help them out.
因此,對於聰明的回复,我們從問候語開始。 這只是一件顯而易見的事情。 我們可以很容易地判斷出您何時可能需要問候語——您進入了一個新的對話並且之前沒有人對最終用戶說過任何話。 這很明顯。 那是一個低垂的果實。 人們真的很喜歡這個用戶界面。 這很容易,而且摩擦很小。 現在,我們只能在那裡提出一個建議,而且有時系統很難判斷。 目前,我們有這個宏流程,人們經常使用宏。 他們必須選擇哪個宏。 我們應該主動向人們推薦這些宏嗎? 也許我們不想預先填充作曲家,也許我們只想顯示一些與上下文相關的宏觀建議。 有很多流程是重複的。 我們一直致力於尋找流程之類的東西,試圖了解人們經歷的常見步驟。
我想重要的信息是我們確實相信這種生成技術需要被塑造和完善,這樣它就不會讓人討厭,這樣它就不會給你錯誤的東西和誤導你,當然也不會給你帶來更多的工作或壓力比沒有它還要好。 我們相信它的時代即將到來,我們正在努力找出提高人們效率的最佳方法,並在真正為人們工作的生產環境中利用它。
AI-ML 超越支持
Des:我們正在談論支持。 您認為還有哪些其他行業會在早期看到它的價值? 感覺支持是此類技術的目標豐富的環境,但還有其他嗎?
Fergal:顯然,我們看好支持。 寫的東西太多了。 就像,“哦,代理人很早就意識到這是以下類型的問題,”比如重置我的帳戶或類似的事情。 那個區域有很多結構。 真實的客戶問題結構與非常擅長處理自然語言並對其進行重塑的技術相結合。 我們可以看到一個按鈕,你可以按下它來讓作曲家的內容更正式,或者按下按鈕讓它更道歉,對吧? 我們認為目前這是一個非常非常令人興奮的領域。 我不想完全投機地進入一切。 但甚至在此之前,機器學習團隊都在這個領域。 我們堅信支持。
外部支持,任何在任務中有結構的地方,以及能夠辨別答案正確或錯誤的人類批准者。 這似乎是一種奇怪的直覺,但在計算機科學或密碼學中,我們關注某些類型的問題,在這些問題中很容易驗證答案是否正確,但很難找到答案。 複雜性類,諸如此類的東西。 但是,是的,人們對這樣的問題很感興趣。 我不禁認為這裡有類似的直覺。 你面臨的挑戰是,人類很容易驗證答案是否正確,但他們去查找並找出答案卻很費力。 或者團隊可能不關心答案是否足夠正確,因為沒有正確的東西,比如“給我寫一首關於 X、Y 的詩。”
Des:這類問題要么驗證答案非常便宜但創建答案非常昂貴,要么沒有有效答案。
Fergal:而且,六個月或一年後答案可能會有所不同。 可能是一年後,答案可能更像是“計算機可以檢查答案是否正確的任何時間。” 或者可能是只要領域足夠簡單,機器學習系統肯定會給你或很可能給你正確的答案。 這是一個不斷發展的事情。 我認為目前很難設定限制。
“我們一月份要運送什麼?”
例如,其他領域,如計算機編程。 坐在終端前的人無論如何都必須檢查代碼,他們能夠做到這一點,並且您的代碼中某處可能存在細微的錯誤。 有時,自己編寫代碼比識別細微錯誤更容易。 但很多時候,如果你看一下計算機程序員的工作流程,就像,“哦,我知道怎麼做,但我不記得如何使用這個庫。 我要去谷歌了。 我要去 Stack overflow。” 這個想法是,當你在 Stack Over 上看到第三個答案時,你會說,“哦,是的,沒錯。 這就是我想要的。” 有一個像這樣的整個工作流程佔用了程序員的大量時間,而 Copilot 出現了,就結束了。 然後重新格式化代碼以適應。這非常強大。
我們開始討論,“客戶支持的 Copilot 是什麼?” 我們有原型,您可以玩很多東西。 也許你沒有回答完整的問題,你只是給它兩個或三個詞的答案,它寫出來,然後你修改它,你就像,“讓它更正式,讓它更長,讓這麼短。” 感覺我們可以在那裡做很多事情。
Des:我們在 1 月份發貨的是什麼?
Fergal:將不得不審查這部分對話。 我們會運送一些東西。
Des:是的,我敢打賭。 好的。 這太棒了。 我猜,再過兩週,當整個世界再次發生變化時,我們將進行登記。 但如果沒有,可能需要幾個月。 非常感謝。
Fergal:當它出現在網絡上時,我敢肯定它會過時並且看起來很愚蠢。 但這就是這項業務的性質。
德斯:當然。 這就是你努力的原因。
Fergal:這就是我們工作的原因。 是興奮的。