Intercom on Product: ChatGPT がすべてを変えた方法

公開: 2022-12-10

深層ニューラルネットワークや自然言語処理に夢中になっている方もいるかもしれませんし、単なる技術愛好家かもしれません。OpenAI の最新のチャットボットである ChatGPT に出くわしたことがあるかもしれません。誇大宣伝は高まっていますが、疑問は残ります: それは本当にゲームチェンジャーなのか、それとも判断するには時期尚早なのか?

最近のエピソードでは、当社の機械学習担当ディレクターである Fergal Reid が、ニューラルネットワーク技術における最新のブレークスルーに光を当てました。私たちは DALL-E、GPT-3 について話し、AI を取り巻く誇大広告がそれだけなのか、それとも何かがあるのかについて話しました。彼は、物事が拡大し始めていると私たちに言いました。そして、そのように、私たちは再びそれに取り組んでいます。

OpenAI の人工知能チャットボットのプロトタイプである ChatGPT が先週ローンチされ、インターネットのホールを回っており、頑固な技術実証主義者から絶え間ない技術懐疑論者まで、驚くべき反応を引き起こしています。このボットは、テキスト生成 AI である GPT-3.5 を搭載しており、OpenAI によると、ダイアログ形式でテキストを生成できます。不適切な要求を拒否します。」

実際の用途に適用されるのはまだ早いですが、間違いなく非常に有望です. 実際、Fergal Reid 氏にとって、この 1 年間に見られた機能の変化は、このスペースが「インターネットと同じくらい大きい」可能性があることを示唆しています。そのため、AI の世界におけるこれらの最新の開発、その意味、およびそれをカスタマーサポートなどの実際のシナリオに適用する時が来たかどうかについて、特別なエピソードをお届けすることにしました。

会話からのお気に入りのポイントのいくつかを次に示します。

規模を拡大し、より多くのデータを使用してこれらのモデルをトレーニングすることで、これらのボットは教師あり学習なしで抽象的な概念を学習するなど、質的な変化を示し始めました。
現在、ChatGPT は、答えを検証するのが簡単な問題や、正解などない創造的なコンテキストで最高のパフォーマンスを発揮します。
これらのモデルの推理能力は劇的に向上していますが、まだ幻覚の問題があります。
これらのモデルに「段階を追って考えてみましょう」というプロンプトを表示すると、正解率が上がり、すぐに答えを出すよりも優れた入力が得られます。
私たちのテクノロジーインターフェースは徐々に会話型になりつつあり、自然言語理解の質が十分に向上して、それらを解き放つことができるようになりつつあります。
エージェントの増強など、この技術のサポートには多くのエキサイティングなアプリケーションがありますが、展開する前に行うべき作業があります。

私たちの議論が気に入ったら、ポッドキャストの他のエピソードをチェックしてください。 iTunes、Spotify、YouTube をフォローしたり、選択したプレーヤーで RSS フィードを取得したりできます。 以下は、エピソードの軽く編集されたトランスクリプトです。

ChatGPTのビッグデビュー

デ・トレイナー:ねぇ、ファーガル。

ファーガル・リード:こんにちは。調子はどう？戻ってきてくれてありがとう。

デス・トレイナー:よかった。戻ってきてよかった。ちょうど 5 週間前にポッドキャストで、AI で起こっていることについて話してもらいました。さらに多くのことが起こったので、あなたは再び戻ってきました。

Fergal Reid:忙しい 5 週間でした。

Des Traynor:忙しい 5 週間、忙しい 7 日間でした。 7 日前は 11 月 30 日の水曜日で、ChatGPT と呼ばれるもののオープンベータへの招待が記載されたメールを受け取りました。どうしたの？

「口コミで広まり、大騒ぎになり、誰もが本当に興奮しました」

ファーガル・リード:どうしたの? ですから、それは興味深い質問です。 OpenAI は最新の機械学習システムである AI システムをリリースし、それを非常に公にリリースしました。それが ChatGPT でした。現在提供されている GPT-3、GPT-3.5 とかなり似ていますが、パッケージが異なり、クレジットカードを入れる必要がありませんでした。最近、ここで能力が変化しました。」そして、それはバイラルになり、ワイルドになり、誰もが本当に興奮しました. 同じ頃、davinci-003 のような最新の GPT-3.5 モデルがリリースされました。あなたのためにそれをすることはできません。でも能力的には似てる。

Des Traynor:全員の足場を固めるために簡単な定義をしましょう。 OpenAI は明らかに、AI と ML に関する多くの作業を行っている機関です。あなたはGPTと言いました：それは何の略ですか？

ファーガル・リード:実は覚えていません。汎用トランスまたはそのようなもの [Generative Pre-Trained Transformer]。

デ・トレイナー:でも、その名前に何か意味はあるの?

Fergal Reid:ええ、キーピースはトランスフォーマーだと思います。長い間、人々は「テキストや自然言語処理タスクを処理するニューラルネットワークをトレーニングする最善の方法は何か?」ということを理解しようとしていました。テキストの短期構造と文の長期構造を組み合わせた LSTM [長期短期記憶] とシーケンスモデルがあり、誰もがそれらに取り組んでいました。 .

「より多くのトレーニングデータをプッシュするにつれて、彼らができることに関して質的な変化が見られるようです。だから、『おや、これはなんとなくわかる気がする』みたいな」

その後、Google は非常に革新的な論文「Attention Is All You Need」を発表しました。これは非常に大きな論題でした。「ねえ、これらの従来のシーケンスモデルの代わりに、これを行う新しい方法、新しいモデルです」と彼らは呼んでいます。変圧器モデルまたは変圧器アーキテクチャ。特定の単語を見ているとき、モデルは文の他の部分を学習し、その単語と併せて見る必要があります。シーケンスモデルよりも少し効率的に物事を学習でき、より速く、より効率的にトレーニングし、さらにスケーリングすることができます。

それで、誰もがあらゆる種類のシーケンスデータにトランスフォーマーを使い始めました。そして、OpenAI が実際に貢献したことの 1 つは、これらのトランスフォーマーアーキテクチャを利用して実際に規模を押し上げることができるというこのアイデアでした。より多くのトレーニングデータを追加し、より多くの計算を行うことができます。そしておそらく非常に驚くべきことに、これが重要なことだと私は本当に思っています。トレーニングデータをプッシュするにつれて、できることに関して質的な変化が見られるようです。だから、「これはなんとなくわかった」みたいな。あるいは、「これをもっと幸せにする」「これをもっと悲しくする」ということもできますが、これは非常に抽象的な概念です。それはどこでそれを学んだのですか？私たちは、悲しみや幸福の定義をコード化するこの教師あり学習を与えませんでした。大量のトレーニングデータからこれらの抽象的な概念と抽象化を学習し始めたばかりです。

基本的に、OpenAI と他のいくつかは、そのスケーリング部分をますます推し進めています。他にもあります。 GPT-3.5 では、少し異なる方法でトレーニングして、さらに調整しようとしています。しかし基本的に、ここで重要なことは、多くのスケール、多くのトレーニングデータ、そして実際には一種の単純なモデルです。 20 年前なら、人々はこう言っていたでしょう。それは私に曲を書くことは決してできないだろう」そして今は「どんな曲が欲しいですか？」のようなものです. 「音をもっと楽しく。」ええ、今は注目に値する時期です。なぜなら、私たちが人間の知性だけの領域だと思っていた多くのことが、膨大な量のトレーニングデータと大きなモデルを必要とするだけだからです。

ChatGPT はクリエイティブにできますか?

De:そして、先週の水曜日以降に起こったことは、Twitter、そしてその 7 日後、一般のインターネットまたはメディアがこれをキャッチしたことです。これが可能だとは想像もできなかったという点で、あらゆる種類の率直に優れた用途を見てきました。「テイラー・スウィフトの歌のスタイルで、彼女がボーイフレンドと別れたので怒っているDVDをコピーするための指示を書いてください」などを見ました。しかし、実際にはそれを試しています。そして、「Intercom を iOS にインストールするにはどうすればよいですか」というような他の人も見てきましたが、それも比較的正しいと言えます。そしてその間のすべて。そして、私が見たクレイジーなことは、これらのいずれについても、「1940年代のギャングのスタイルでそれをドイツ語で言ってください」と「ドイツ語をスペイン語に翻訳してください」と言うことができるということです。、さらに怒りを追加します」など。そして、これらすべてのことをほぼ 0 秒の遅延内で即座に実行し、すべての場合において、何をしようとしているのかを確認できます。

私が使用する個人的な例の 1 つは、就寝前に子供に物語を伝えようとしているときに、アングルが不足する可能性があることです。たとえば、3 匹のドラゴンが森に入って道に迷うなど、さまざまな方法があります。しかし、GPT-3 は実際には、さらに 10 のストーリーを提供してくれる優れものです。私が気付いたのは、AI の話に関しては、つい最近の数年前までずっと、人々は「特定のものには優れているが、創造性に取り組む方法はない」と言っていたことです。ここは実際に逆の世界にいるような気がすると言っても過言ではありませんか?

ファーガル：ええ。つまり、人々が AI について話すとき、それは常に「AI が最初に行うことは、単純な手作業のタスクです」ということです。そして、人間はこれらの非常に創造的なことを行うために、これまでずっと時間を費やすことになります.

Des:森に行き、そして-

ファーガル:常に芸術を、美しい詩を作りましょう。そして、「ああ、うわー。これらの手動タスクを解決するには、非常に難しいビジョンと処理が必要です。しかし、創造性には、間違った答えはなく、間違えてもペナルティはありません… ええ、詩は完全ではありませんが、大丈夫です。レンダリングされた DALL・E 2 のイメージは、あなたが考えていたものとまったく同じではないかもしれません.それでも美しい画像で、10 から 1 を選択できます。

「このことは、その種の直感的な作品に非常に優れているようであり、私たちの直感的な作品をだますのが非常に得意です. だから、パッと見たときは正しいように見える」

Des:また、それが何のために起こっているかを見ることができます。人々が気づいていないことの 1 つは、おそらく頭の中にあったものが戻ってくるということです。「レイジ・アゲインスト・ザ・マシーンの歌のスタイルで銀行口座を開設するように指示してください」と言うと、「ええ、私たちは口座を開くために戦うつもりです、そして私たちはすべてを怒らせるつもりです.夜。" そして、私はそれが何をしているのかを見ることができます。私はそこに精度スケールを適用していません.「ああ、あなたはやってみました.

ファーガル:ええ、それはおそらく本当だと思います。事実に基づかない情報の観点から、ヒヤリハットをどの程度判断できるのでしょうか? たぶん、私たちはそれが得意ではありません。たぶん、私たちはそれについて深く気にしていません。つまり、この事実性の問題に取り掛かる必要がありますが、事実に関する質問をする場合でも… カスタマーサポートの質問をするとしましょう. 私は最近、2 要素認証について、「Intercom の 2 要素認証をどのようにリセットしますか?」と尋ねました。私が得た答えは、「うわー、それは素晴らしい答えだ」というようなものでした。そして、私はそれを見て、「ちょっと待ってください。それは 2FA をリセットする方法ではありません。」これは美しい URL であり、ヘルプセンターの記事への参照があり、それも作成されています。

「私たちも含めて、ほとんどの人は、一見もっともらしいという考えに圧倒されていると思います。」

人々は人間と人間の脳について話しますが、パターンを認識するのに非常に優れたこの直感的な部分と、より遅くより正確な論理的、分析的、推論的な部分があります。このことは、そのような直感的な部分が非常に得意であるように思われ、私たちの直感的な部分をだますのが非常に得意です。一見すると正しいように見えますが、より遅い体系的な推論を実際に適用するまで、それを確認するのは難しい場合があります. そして、その直感的な部分、つまり推測することは、おそらく、創造的な努力、芸術、写真、ソネットを判断するために私たちがより頼っているものだと思います. 少なくとも最初は。一見するともっともらしいものを生み出すのは非常に得意ですが、実際に時間をかけて考えてみると...

Des:問題を参照してください。そして、一見もっともらしいということは非常に重要です。なぜなら、私たち自身を含め、ほとんどの人は、一見もっともらしいという考えに心を打たれていると思うからです。現実世界への適用性があまりないかもしれないという事実にもかかわらず、あなたはそれに多くの信用を与えています. その絵を美術館に展示することは決してないだろうし、そのソネットが何であれ実際に読むことは決してないだろうし、その小説で賞を受賞することも決してないだろう.

コンテンツマーケターなどの多くの人々が、「これは私の仕事を永遠に変えるだろう」などと言っているのを目にします。そして、私は「はい、でもあなたが考える方法ではないかもしれません. プロンプトを入力してタブを押すだけの仕事だと思っているなら、あなたの仕事は存在しない可能性があります。」同様に、マネージャーが Twitter で「ああ、そうすれば人事考課のシーズンがずっと楽になるだろう」と言っているのを目にします。これらすべての場合において、私は-

ファーガル:それには何か問題があります。

「この技術が人類にもたらす本当に大きな貢献は、私たちが削減できる仕事の量について率直に話し合うことである可能性があります。」

Des:その通りです。あなたは皆、ここで静かなビットを大声で言っています。あなたの仕事が実際に偽のBSを書くことを伴う場合、それは-

ファーガル:そもそもなぜそんなことをしているのですか?

Des:何をしているのですか。丁度。たとえば、コンテンツマーケティングの場合、特定の単語でランク付けする必要があるだけの理由があるかもしれませんが、それを実際の執筆技術と間違えないでください。

ファーガル:つまり、これは良いことかもしれません。これらの業績評価のように、その人が価値がないと感じているでたらめな仕事は、GPT に任せることができる可能性があります。そして、しばらくすると、それが起こっていることに誰もが気づき、反対側の人は、「それを分析するためにGPTに引き渡すつもりです」と言います。そして、実際に本当に価値のあるカーネルとは何か、そして仕事をなくす方法について率直に話し合うことができるかもしれません。

Des:なぜ私たちはすべてこのパフォーマンスのでたらめをやっているのですか?

Fergal:ええ、この技術が人類にもたらす本当に大きな貢献は、私たちが削減できる仕事の量について率直に話し合うことである可能性があります。そして、それは素晴らしいことです。それは大規模な変革をもたらす可能性があります。

チャットボットの幻覚の問題

Des:実際のアプリケーションについて言えば、私の心にあること、少なくとも直接の私の経験、そして 2FA のユースケースについてあなたが言ったことでさえ、決定的なものがある多くの分野で今日それを直接展開することはできないということです.特に、間違った答えを与えるリスクがかなり高い場合は、正しい答えに注意してください。したがって、このようなことで医療記録を消費したり、診断を吐き出したりすることは望ましくありません。なぜなら、診断が非常によく書かれており、素人にとって本当に信じられるように聞こえ、正確性の可能性が低い可能性があるからです。精度の確率はわかりませんが、入力によって異なります。

ファーガル:誰かが私のところに来て、「ねえ、ファーガル、あなたのチームにこれを医療診断に使い始めてほしい. それは素晴らしいことだ。" それは非常に恐ろしいことです。

「1つ言えることは、この技術は、多くの人が幻覚と呼ぶものに絶対的な問題を抱えているということです。つまり、何かを知らない場合、それを作り上げるだけです。」

Des:しかし、それほど深刻ではないが、同様に不正確なユースケースが他にもあります。それを使用して、訴訟の結論を診断することができます。繰り返しますが、それは良い音だと確信しており、適切なボイラープレート言語でラップされますが、最終的には何を言っているのか本当にわからないでしょう. 生産性の分野で競争し、勝つための最新の電子メールクライアントを構築する方法についてのアイデアを提供するように依頼しました. そして、それは本当によく読めますが、実際には何もないことに気付くのは、それを引っかいて初めてです。それは、特に鋭い意見がなくても、響きの良い言葉の次から次へと響きの良い言葉です。それは、私にとって、これをより適切にする方法について疑問に思います.

ファーガル:その話に入る前に、ここで紹介するのに役立つと思われることが 2 つあります。一つは、この技術には、多くの人が幻覚と呼ぶものに絶対的な問題があるということです。それは有害であり、幻覚の確率が 1% で契約を破るドメインがたくさんあります。そして、その確率がゼロであれば、私たちは皆大好きです. しかし同時に、精度は 1 年前の最先端技術の精度と 3 年前の精度に比べて向上しています。多くの場合、正しい答えを与えることも絶対に優れています。「理解」が飛躍的に向上します。「ああ、パターン認識をしているだけで、何も理解していません」と言うのに苦労しています。または、少なくとも、「理解とはどういう意味ですか?」という質問なしでは、それを言うのに苦労しています。

私たちは間違いなく、それがまだ物事を作り上げる軌道に乗っており、それは大きな問題ですが、正しい答えがあるときに正しい答えを与えることがますます良くなっています. では、その曲線はどのように見えるのでしょうか? 現時点で解凍するのは困難ですが、正しいことを行うのがはるかに優れている一方で、破滅的に間違ったことを行うこともあります。その両方に注意を払う必要があります。ええ、これは現時点で多くの本番設定で展開するのは非常に困難です。少なくとも、いくつかのクラウドやアフォーダンスがなければ、それははるかに良くなっています. ウィキペディアで本当によく取り上げられていることを尋ねると、それは良くなっています。

これの究極の例は、コンピュータプログラミングです。見たことのないプログラミングの課題を要求することができます。モジュール全体またはシステム全体を生成するように要求すると、ある種の苦労があり、一種の限界点があります。しかし、関数を作成するように依頼すると、新しい、作成された、サンプルから外れたものであっても、間違った答えが返される可能性がありますが、何か有用なものが得られる可能性は高くなります。

Des:以前おっしゃっていましたが、基本的にはプログラミングインタビューの最初の段階を通過するもので、ある種の配列ベースの質問です。それはただそれを釘付けにします。

「誰もが犬の文法があまり良くないことについて話し始めます。それは非常に重要ですが、犬が話しているという事実を見失わないでください。」

ファーガル：ええ。丁度。 Intercom に来るエンジニアには、問題解決プログラミングの課題があります。私は数年前に自分でそれらを座らなければなりませんでしたが、インターネット上で入手できないように懸命に努力しています. もしそうなら、私たちはそれを繰り返し、変更しようとします。そして、私たちはスピードに追いついていないので、それがそこにないことを保証することはできません. しかし、このことはまさにそれを釘付けにする解決策を生み出しました。それは「シニアエンジニアがホワイトボードに 30 分間座っている」ような問題です。そして、それはただ一発でそれを取得します。

Des:ゼロ秒。

ファーガル:ゼロ秒。そして、それは非常に印象的です。そして、世界の他の半分と同じように、私も ChatGPT や GPT-3.5 で遊んでいて、他の多くのプログラミングコンテストの質問やプログラミングの質問をしてきました。、そしてそれは非常に良い仕事をします。そして、それは精度の質的な変化です。コードをチェックして、間違っていないことを確認する必要がありますが、それは非常に興味深く刺激的なことです。

非常にエキサイティングなのは、少なくとも初歩的なイントロスペクション機能を備えているという考えです。それがバグを書いた場合、あなたは次のようになることができます。直せますか？」そして時々、それはあなたにそれの美しい説明を与えます. そして、これらのモデルはすべて、トークン予測を行うようにトレーニングされています。次のいくつかの単語を予測します。少なくとも伝統的には、昨年少し変わったと思いますが、トレーニングの大部分は、次のトークンを予測すること、次の単語を予測することだけです。そして、ここで驚くべきことが起こっています。それを大規模に行うだけで、ある程度の理解が得られます。

幻覚についてのより広い議論の中でそれが失われることを望んでいません。それは現実であり、人々はおそらく先週それに十分な注意を払っていませんでした. しかし、この比喩があります。誰がそれを思いついたか覚えていませんが、話す犬の話で、誰かがあなたに新しい話す犬に会いに行ってほしいと言います。」しかし、あなたは犬に近づき、犬はあなたと会話をします。誰もが犬の文法があまり良くないことについて話し始めます。これは非常に重要ですが、犬が話しているという事実を見失わないでください。私にとっての幻覚はそれです。これは大きな変化のように感じます。製品化できるものではないかもしれませんが、1 年後、2 年後、3 年後にどうなるかは誰にもわかりません。

「これは自動運転車のようなものですよね？いつでも引き継げるように準備しておく必要があります。」

Des:ええ、幻覚のことは、私にとっては、まったく役に立たないわけではありません。悲観的に言ってみましょう 5 段落の患者の説明があれば、70% の正確な診断が即座に得られるとしましょう。そして、これらの診断の質問のほとんどには、それが正しいかどうかを確認できる簡単なテストがあります。たとえば、「あなたは X を持っているようですね。これが X の簡単なテストです」というように、それが正しかったか間違っていたかがわかります。それは依然として生産性の大幅な変化です。まだ欠陥があると仮定しても、70% の精度を利用しようとすると、非常に価値のあることができる可能性があります。

ファーガル:それについては 2 つの考えがあります。最初に考えられるのは、これは正味マイナスである可能性があるため、誰かが研究する必要があるということです。ループ内の人間、医師、および AI を含む新しいシステムは、疲れて過労しているために壊滅的なエラーが発生する可能性が高くなります。医者は時々彼らの勤勉さをしませんが、彼らの前には魅力的であるが間違ったシステムがあります. これは自動運転車のようなものですよね？いつでも引き継げるように準備しておく必要があります。その政権には、人間とのシステム全体が実際には-

De:人々は実際に過信することができます。

ファーガル:人は過信することがあります。彼らはそれを何と呼んでいますか？逸脱の正規化。人々はこれを原子炉の災害などの文脈で研究しています。何が悪かったのか？「ああ、私たちはこのショートカットに慣れてしまいました。ショートカットが常に有効であるとは限りませんでした」など。それは私が言う1つのことです。しかし、反対に、医療について考えるとき、世界の一部では医者にアクセスできないということです。そのため、どこにその境界を引くべきかわかりません。境界線を引くのは難しいです。最終的には、軌道上で、このようなものはおそらくますます良くなり、最終的にはシステムが全体として、現在人々が持っているものよりも優れた性能を発揮するようになるでしょう.

チャットボットを段階的にトレーニングする

Des:コードを生成するときに、「おい、ブギーだ」と言えると言っていた。私が見たもう 1 つの例は、しばらくの間 Twitter で人気があったもので、「あなたの考えを 1 行ずつ説明してください」などでした。物事の考え方を教えているか、新しい情報を与えて、意見を再考するように強制していないようです. そこで何が起こっているのですか？

ファーガル:そこでは何か魅力的なことが起こっていると思います。私たちはここで最先端について話さなければなりません。これは憶測であり、私は傍観者です – 私はこの仕事をしていません. Google はかなり最近、大規模な言語モデルがどのように自己改善できるかについての論文を発表したと思います。

まず、おそらく 1 年ほど前に、これらのモデルは多くのことを間違える一方で、古典的な「段階を追って考えてみましょう」で促すことができることを人々が発見したことです。モデルを用意して、「アリスとボブが 3 つのチョコレートバーを持っていて、イブに 3 つ渡す」などの簡単な数学の質問をすることができます。「彼らは何人残っていますか？」これらのことは基本的な数学に苦労しているので、そのようなことを間違えることがよくあります. しかし、「段階的に考えてみましょう」のようなことを言うと、途中で段階的に推論を出力するように強制されます。そして、それを行うと正解率が上がりました。これは理にかなっています。テキストを完成させるように訓練されています。そして、一歩一歩、各ステップが設計されています…

Des:失敗の確率を乗算していないようです。各ステップを 90% の確率で実行している場合、5 つのステップで突然、確率は 50% しか正しくないからです。

ファーガル:たぶん。つまり、内部で何が起こっているのかを正確に推測するのは難しいですが、おそらくそのようなことです. しかし、最近非常に興味深い論文がありました。「ねえ、『段階的に考えてみましょう』と言うと、精度を改善できることがわかっています。」そして、それを使用して、直感的に考えるよりも優れた出力を得ることができます。即座に答えを出す。これを使用して、新しいトレーニングデータセットを構築し、モデルを再トレーニングして精度を向上させることができます。これらのことは、少なくともある程度は自己改善できるため、私にとっては魅力的です。

「ここには非常に興味深い世界があり、言語モデルと NLP が AlphaGo の世界に少し似てきています。今はとてもエキサイティングな時期だと思うし、限界がどこにあるのかを言うのは非常に難しい」

私は最近 Microsoft のイベントでデモを見ました。Copilot またはそれらのモデルの 1 つ (おそらく davinci) を示していましたが、彼らは指定していませんでしたが、Python プロンプトで何かを行い、自然言語の問題を与えました。、次にシステムにコードを合成してPythonプロンプトに入れるように依頼し、それがうまくいかなかったとき、システムはコードを実行しようとし、それが間違っていると判断したので、それが得られるまで何度も何度もやり直しました右。ここには非常に興味深い世界があり、言語モデルと NLP が AlphaGo の世界に少し似てきています。今はとてもエキサイティングな時期だと思うし、限界がどこにあるのかを言うのは非常に難しい.

長い間、言語学などで「AI では、大局的には答えられない」などと言われていたことがたくさんあると思います。「トラクターが道を下って、畑になった。その冗談で何が起こったのか説明してください。」コンピューターは歴史的にそれが苦手でした。「魔法のトラクターが道を下って、畑になりました」そんなちょっとした修飾語で意味が変わってきます。そして、一部のドメインではそれが非常にうまくなっています。基本的なセマンティックな質問をしたり、推測したりすることができます。 2、3 年前までは、新しい機械学習システムを見たときはいつでも、最初は魔法のように素晴らしく見えました。」それを理解すると、それほど印象的ではありませんでした。そして、私はここでそれを行うのに苦労しています。おそらく、モデルの複雑さを理解するのが非常に難しいためです。しかし、これらのものは、私たちが持っていたものとは質的に異なる機能のように感じます.

AI ボットと Google

Des:サポートについて詳しく説明する前に、これは Google と同じくらいインターネットにとって重要な瞬間であるというコメントを目にしました。私はまた、「だまされないでください。ランダムな歌詞を生成することはせいぜいギミックです」という冷水テイクを見てきました。そして、あなたがテクノ実証主義者であるかどうかに応じて、明らかに食欲のスペクトルがあります. Google のことについてどう思いますか。これは潜在的にGoogleと同じくらい大きいですか？これは Google に対する脅威ですか？ Google がどのように反応するかについての考えは?

Fergal:だから、私はここで非常に投機的になり、完全な未来主義などに入ります. 私は AI と機械学習に対して非常に強気です。過去 1 年間に見られた機能の変化は、さらに 1 年か 2 年先に推定すると確かに、インターネットと同じくらい大きいと感じています。可能性。そして、これらを製品化する方法を考え出さなければなりません。ナレッジベースなどから回答するように制約する方法について、多くの作業を行う必要があります。しかし、私たちが手に入れた、そして手に入れる可能性が高い新しい機能の合計は、インターネットと同じくらい大きいと感じています. 私は間違っているかもしれませんが、それは私がするところです-

Des:それは桁違いです。だから、Googleよりも大きい。

「これはスプートニクの瞬間だと思います。人々はこれを見て、うわー、何かがここに到着しています」

ファーガル:ええ、そう思います。先週登場したばかりのChatGPTだけではありません。しかし、全体的な進歩は、推論、初歩的な推論、および間違っている可能性のある推論において劇的に優れた能力を見ているように感じますが、時には非常に説得力があります. 5 年前にプログラミングの課題で成功したと話していたら、信じられなかったでしょう。ですから、ここに何か大きなものがあると思います。ロックを解除できる生産性はたくさんありますが、それがどこで止まるかを言うのは非常に困難です。また、ここにはフィードバックループがあると思います。これはスプートニクの瞬間だと思います。 ChatGPT を使用すると、「ねえ、技術はそれほど良くない」または「誇張されている」と言うことができますが、何かを試して遊ぶことができる低摩擦の能力を過小評価しないでください. 誰もがそれを行うことができます。そして、それはスプートニクの瞬間だと思います。人々はこれを見て、「うわー、何かがここに到着している」と言うでしょう。

De:スプートニクの参照はこちらです。

Fergal:これは 50 年代のことです。ロシア人は、この衛星を地球を周回する宇宙に置き、無線信号を放送しました。そして、世界中の人々が突然ラジオをチューニングして、スプートニクからのこの信号を受信することができました. そして、これは西洋で一般的に語られる物語です。人々は突然目を覚まし、「うわー、私たちが気付いていなかった能力の変化がここにある」と言っていました。そしておそらく、これが宇宙開発競争やアポロ計画などを引き起こしたのです。なので、まだ反応が出ていないのかなとは思いますが、今まであまり気にしていなかった人が急に盛り上がっているのをよく見かけます。多分誇大宣伝は死ぬでしょう。私たちはその真っ只中にいるので、予測するのは困難です。しかし、これがそうでない場合は、すぐに別のことが起こるでしょう。

ChatGPT はカスタマーサポートを強化できますか?

De:カスタマーサポートはどうですか? Intercom はカスタマーサポートプラットフォームであり、GPTChat、GPT-3.5、またはこれらのテクノロジのいずれかがサポートをより良く、より速く、より安く、より成功させ、よりエンドツーエンドにする可能性は、私たちが常に考えていることです。サポートの観点からこれについて考えてきたことを知っています。先ほど、間違った答えが非常に悪い環境があり、実際にはかなり許容できる環境があることについて話しました。 25,000 人の顧客がいます。いくつかは銀行であり、おそらくそれを買う余裕はありません。他の人は、すべての顧客をより迅速にサポートできることを意味するため、喜んで購入することができます。 What do you think about this technology as it applies to support?

“We made a conscious design decision very early on that it would never say anything that hadn't been explicitly curated by the team”

Fergal: Yeah. We try and pay a lot of attention to changes in developments in this space. We were looking at GPT-3 pretty early, and our initial thoughts were that the accuracy was not quite there yet. The hallucination problem is a big problem to just nakedly say, “Hey, it has consumed the Intercom help center. Let's ask questions about resetting my two-factor authentication.” It just failed. We've been looking at the GPT-3.5 family and some other models recently. We have resolution bots in production. It's not using language models that are as large – they're maybe medium language models, embeddings, and so on. And it gets very good accuracy at the sort of thing it does. We made a conscious design decision very early on that it would never say anything that hadn't been explicitly curated by the team. I think that worked well for a lot of businesses because it might deliver the wrong answer sometimes – we try carefully to control that – but it's always going to deliver you a relevant answer or an answer that's not going to mislead you.

Des: Yeah, and specifically, the way in which it gets it wrong is it might give you a wrong correct answer. The thing it gives you will be something that somebody in your company has said: “This is a correct, cohesive piece of text.” It just might not be the right one for the question.

Fergal: And we encourage our customers to always write the answer in such a way that, “Oh, to reset your account, do the following thing.” So if it is delivered wrongly, at least the end user is not disoriented.

Des: Yes, they don't go and do it for no reason.

Fergal: They can go like, “Oh, this is a stupid bot. It gave me the wrong answer,” as opposed to, “I am misled, and I'm now going to waste a bunch of time…” So initially, with GPT-3, we were like, “Oh, it's really cool but difficult to see the end-to-end usage of this.” It's been a couple of years, and I'm not aware of anyone who has deployed GPT-3 in a total end-to-end way to answer the customer's questions.

Des: End-to-end meaning no agent in the mix. Because the risk there is that there'll be an unknown unknown. If someone goes to your business and asks a question that you didn't see because GPT dealt with it, gave it the wrong answer, and the customer goes off and does the wrong thing, no one actually knows what's happened except for the bot. And the bot doesn't even know it's wrong because it doesn't know if it's spoofing or not. So you end up in a potentially dangerous world.

Fergal: Exactly, and we've quite carefully designed the resolution bot to avoid getting into those situations. We calibrate it, we check that, when it says something helped the customer, it did help the customer, and we have ways of checking that between explicit and implicit customer feedback. But it's conservatively designed.

“The probability of giving the wrong answer and totally making stuff up is too high, at least to use it for end users in a naked way”

At some point, these open domain question-answering things or something you could build on the top of GPT-3.5 will get good enough that, for a certain portion of our customers, that equation changes where it's like, “Hey, I'm not answering medically critical things,” and the inaccuracy rate has fallen. It was 90% accurate; now it's 99% accurate; now it's 99.9%. How commonly it gives you the wrong answer will eventually fall below the critical threshold where it's like, “Hey, just being able to take this out of the box is worth it. I don't have to go and curate these answers.” So that will probably come. When will that come, is it here today, or has it come in the last few weeks with davinci-003 and ChatGPT is obviously something we've been assessing.

And it's certainly a work in progress because you always have to go and play with the prompts. When you interface with ChatGPT or GPT-3, we could take an end user's question and ramp it in something that says, “Hey, you're a very conservative customer support agent. If you don't know something or you're not completely sure, you always say, 'I don't know,'” and you reason with it step by step, and you're super conservative, and maybe we can wrap it to get the benefit of the deeper natural language understanding, which these models have, and the deeper ability to synthesize and rewrite text, which can be beautiful. It can be really nice. Maybe we can get those benefits and constrain the hallucinations and the errors enough.

Des: Is that another version of walking through this line by line?

Fergal: Yeah.

Des: Is that whole field what people call prompt engineering?

Fergal: Prompt engineering. We're joking that the machine learning team at Intercom is going to be a prompt engineering team, and we're joking about that as we play with it. But there are people who really sweat the prompts and have gotten really good at prompt engineering. It's a real thing, and it makes it difficult to say, “Oh, this new tech is definitely not good enough,” because what will the best prompts be in six months? That said, we don't think it's here yet. All the prompt engineering we've done on davinci in the last week can get it to be more conservative, but not enough. The probability of giving the wrong answer and totally making stuff up is too high, at least to use it for end users in a naked way.

Support agent augmentation

Des: We talked earlier about the doctor augmentation question. Is there a version of it where you can do it from the agent augmentation question?

Fergal: Well, at Intercom, we've been thinking about this area very deeply for an extended period, and in the last few months, we have had internal discussions about the future of the customer support inbox and generative models – models that generate stuff as opposed to just classify things – and we believe that their time is coming for support augmentation, and I think that seeing ChatGPT explode recently and all the excitement about it is evidence of that. It's evidence that these things are getting good. And there are a lot of things you can do in the inbox or in a context like the inbox to constrain and sand off the rougher edges of these things.

An example might be to curate the responses it's allowed to give and use the generative model to predict what should happen, but only actually allow the suggestion to present to the teammate, like a macro or a conversation response, and hopefully provide a beautiful interface to make it easy for them. Alternatively, to have it go and search for a new knowledge base, and there are techniques you can use to try and constrain it to that. And then, maybe show, “This is the answer that our bot wrote from your knowledge base,” and side by side with that, “Here is the original source article,” so that the customer support rep can look at them side by side-

Des: And see if it adds up.

Fergal: Yeah, and see if it adds up.

“They have to go and find the article themselves, then they have to read it and check the answer, and then they have to copy paste it and reformat it. So maybe there's a productivity boost”

Des: So there's an angle where the AI explains its epistemological basis for how it concludes this. And in that world, if you're a support rep, you don't even need to know if it's actually right – you just need to know if the logic stacks up. Obviously, it'd be better if you knew if it was right, as well. But if it says, “Hey, I read how to reset a 2FA article linked here. I suggest that this is how you reset 2FA,” you're probably, “That's the right article to read.”

Fergal: The problem is that when they get it wrong, they're so good at seeming right that they'll-

Des: Invent the idea of the article.

Fergal: Yeah, yeah, totally. And so, you might need to go beyond that. You might need to have the untrusted part of the interface, which is maybe the composer, and it pre-fills something, and there's also a trusted part of the interface beside that, maybe just above it, that shows the original source article, the relevant paragraph. And so, you can look at both.

Obviously, we study customer support flow very carefully and closely, and we absolutely have some support agents where it's like, “Okay, I got the question,” and they have to go and find an article themselves. Some expert ones know it, they're instantly there, and they know exactly where to go. Maybe they've got a macro that does it, but then maybe someone who's newer in the company and they're still being trained in, or maybe it's only part of their job, they have to go and find the article themselves, then they have to read it and check the answer, and then they have to copy paste it and reformat it. So maybe there's a productivity boost. Maybe you can make someone twice as efficient or something.

Des: All that agent behavior will also inform the system. If you put it live and agents are forever going “Wrong, right, wrong, right,” all that feeds back in, and then it gets better. Or, if they're rewriting the answer to be more accurate, I assume we can learn from that. And then, very quickly, the system converges on all the right answers.

“There are a lot of trade-offs. It's very easy to say we want a system that will learn in production. But then it's like okay, who has to maintain that? Who has to debug that?”

Fergal: We could certainly build a system that does all of those things. GPT-3.5 won't nakedly do it. If you decide to build on it as a building block, not even an assessment, is that the right system to build on? Its capability is very good, but it's not the only generative model in town. But whatever we build on, and we're getting really into the roadmap, we would potentially build a learning loop. With most of our tech at the moment where we do that, we absolutely gather feedback. There are some parts of the resolution bot like predictive answers, where it predicts things to end users, where it actually does use what the users say, like, “that helps” as a training signal, and potentially we can end up building that.

There are a lot of trade-offs. It's very easy to say, “We want a system that will learn in production. But then it's like, “Okay, who has to maintain that? Who has to debug that?” Sometimes it's easier to get it to a stable stage and then lock it. So, it depends. We did metrics and analytics whenever we upgrade. We're getting into the details of our models and how we check the accuracy and calibrate them, and stuff.

Des: I know our inbox has this feature where, based on what you've said before, if I jump in the inbox, before I've said anything to try and start a conversation, it'll say, “Hey, I'm Des, co-founder of Intercom, thrilled to be chatting with you.” Whatever my most common thing is, that's automatically pre-written for me.

Fergal: Yep. Smart replies.

Des: Am I right in saying that it's just the mini version in some sense of what we're describing here? Because we were really just going for salutations and maybe ends and maybe handoffs, and the common boilerplate of a support conversation should be there for you. And that, alone, is a productivity boost. But the idea that we could get one degree sharper, and somewhere in the middle of all that boilerplate is, “Here's the meat of the answer,” is where you're talking about going, right?

“We believe its time is coming, and we're trying to figure out the best ways to make people more efficient and to leverage it in a production setting that actually works for people”

Fergal: Yeah, totally. And again, to separate things out – there's just the change in the world, an increased capability, GPT-3.5, and then there's the stuff that we're working on as we grind away on this problem and try to deliver things that will make it better for our customers. I think the capabilities have really improved, but we're still figuring out if we can use this. Is there a shortcut to where we want to go? Maybe we can use these capabilities as building blocks, there are loads of ways to potentially use them as building blocks. But in terms of the direction we were going on already anyway, there are a lot of things agents do such as greetings where it's very obvious. We don't ever want to annoy people. We don't ever want to have an agent read through a bunch of text and then be like, “Oh, that's useless. どうしてそんなことをしました？" It reduces their trust in the system. It slows them down. We want to help them out.

そのため、スマートリプライでは、挨拶から始めました。やるべきことは明らかだった。あいさつが必要になる時期は非常に簡単にわかります。つまり、新しい会話に参加し、エンドユーザーにこれまで誰も何も言わなかったということです。それは非常に明白です。それは簡単に手に入る果物でした。人々はユーザーインターフェイスを非常に気に入りました。簡単で、低摩擦です。現在、そこで提案できるのは 1 つだけであり、システムがそれを判断するのが難しい場合もあります。現時点では、このマクロフローがあり、多くのユーザーがマクロを使用しています。どのマクロを選択する必要があります。それらのマクロを人々に積極的に提案する必要がありますか? コンポーザーを事前に入力したくない場合や、コンテキストに応じたマクロの提案を表示したい場合があります。繰り返される流れがたくさんあります。私たちは、人々がたどる一般的なステップを理解しようとして、フローの発見などに取り組んできました。

大きなメッセージは、この種のジェネレーティブ技術は、迷惑にならないように、間違ったものを与えたり誤解を招いたりせず、さらに仕事を押し付けたりストレスを与えたりしないように、形を整えて改善する必要があると私たちが信じていることだと思います。あなたがそれなしで持っていたよりも。私たちはその時が来ると信じており、人々をより効率的にし、実際に人々のために機能する生産環境でそれを活用するための最良の方法を見つけようとしています.

サポート対象外の AI-ML

Des:サポートについて話している。初期の段階で、他にどのような業界がこの価値を理解すると思いますか? サポートはこの種のテクノロジーにとってターゲットが豊富な環境のように感じますが、他にはありますか?

Fergal:明らかに、私たちはサポートに強気です。書かれていることは山ほどあります。「ああ、エージェントはかなり早い段階で、これが次のような問題であることを認識している」というようなものです。たとえば、アカウントのリセットなどです。そのエリアには非常に多くの構造があります。実際の顧客の問題構造と、自然言語の処理と再形成に非常に優れたテクノロジーとの組み合わせがあります。コンポーザーの内容をより正式にするために押すことができるボタン、またはそれをより謝罪的にするためのボタンを見ることができますよね? 現時点では、非常にエキサイティングな分野だと思います。私はすべてを完全に投機的に掘り下げたくありません。しかし、これ以前から、機械学習チームはこの分野に全力で取り組んでいました。私たちはサポートを大いに信じています。

外部のサポート、タスクに構造があり、回答が正しいか間違っているかを識別できる人間の承認者がいるもの。これは奇妙な直感のように思えるかもしれませんが、コンピューターサイエンスや暗号学では、答えが正しいことを確認するのは簡単ですが、その答えを見つけるのが難しい特定の種類の問題に注意を払います。複雑なクラス、そのようなものすべて。しかし、ええ、人々はそのような問題に興味を持っています。ここにも同様の直感があると思わざるを得ません。人間が答えが正しいかどうかを確認するのは非常に簡単ですが、それを調べて釣り上げるのは面倒です。あるいは、「X、Y についての詩を書いてください」のように、正解などないため、チームは答えが十分に正しいかどうかを気にしません。

Des:答えを検証するのは非常に安価ですが、それを作成するのは非常に高価であるか、有効な答えがないという問題のクラスです。

ファーガル:また、答えは半年か1年で変わるかもしれません。 1 年後には、「コンピューターが答えが正しいかどうかを確認できる場所であればいつでも」というような答えになるかもしれません。または、ドメインが十分に単純な場合はいつでも、機械学習システムが確実に、またはほぼ確実に正しい答えを返す可能性があります。進化するモノです。現時点で制限を設けるのは難しいと思います。

「1月に何を出荷しますか?」

たとえば、コンピュータープログラミングのような他のドメイン。端末の前に座っている人はとにかくコードを確認する必要があり、それを行うことができます。コードのどこかに微妙なバグがある可能性があります。微妙なバグを特定するよりも、自分でコードを書く方が簡単な場合があります。しかし、多くの場合、コンピュータープログラマーのワークフローを見ると、「ああ、これを行う方法は知っているが、このライブラリの使用方法を正確に覚えていない。私はそれのためにGoogleに行きます。スタックオーバーフローに行きます。」そして、Stack Over で 3 番目の回答を見ると、「ああ、そうだね。それが私の望みです。」プログラマーの多くの時間を占有するようなワークフロー全体があり、コパイロットが登場し、それを回避します。そして、収まるようにコードを再フォーマットします。これは非常に強力です。

私たちは、「カスタマーサポート用の Copilot とは何ですか?」について話し始めました。試作品があり、いろいろ遊べます。質問全体に答えるのではなく、2 語または 3 語の回答を与えるだけで、それが書き出されてから修正されます。それより短い。」そこでできることはたくさんあるように感じます。

De:そして、1 月に何を出荷しますか?

ファーガル:会話のこの部分を検閲する必要があります。何か発送いたします。

Des:ええ、きっと。わかった。これは素晴らしいことです。世界が再び変わったあと2週間で、私たちはチェックインするでしょう. しかし、そうでない場合は、数か月かかる可能性があります。どうもありがとう。

Fergal:これがウェブ上にアップされる頃には、時代遅れでばかげているように見えると確信しています. しかし、それがこのビジネスの性質です。

Des:もちろんです。それがあなたがそれに取り組んでいる理由です。

ファーガル:それが私たちが働いている理由です。ワクワクします。

解決ボット広告