Intercom on Product: Wie ChatGPT alles verändert hat

Veröffentlicht: 2022-12-10

Vielleicht interessieren Sie sich wirklich für tiefe neuronale Netze und die Verarbeitung natürlicher Sprache, vielleicht sind Sie einfach nur ein Technik-Enthusiast – die Chancen stehen gut, dass Sie bereits über ChatGPT, den brandneuen Chatbot von OpenAI, gestolpert sind. Der Hype steigt, aber die Frage bleibt: Ist es wirklich ein Game-Changer, oder ist es zu früh, um es zu sagen?


In einer kürzlich erschienenen Folge beleuchtete unser Director of Machine Learning, Fergal Reid, die neuesten Durchbrüche in der neuronalen Netzwerktechnologie. Wir unterhielten uns über DALL-E, GPT-3 und ob der Hype um KI nur das ist oder ob etwas dran war. Er sagte uns, dass die Dinge beginnen zu skalieren. Und schon sind wir wieder dabei.

ChatGPT, der Prototyp des Chatbots für künstliche Intelligenz von OpenAI, wurde letzte Woche eingeführt und macht in den Hallen des Internets die Runde und löst verblüffte Reaktionen von eingefleischten Techno-Positivisten bis hin zu ewigen Technik-Skeptikern aus. Der Bot wird von GPT-3.5 betrieben, einer textgenerierenden KI, und laut OpenAI kann er Text in einem Dialogformat generieren, das „es ermöglicht, Folgefragen zu beantworten, seine Fehler einzugestehen, falsche Prämissen in Frage zu stellen und unangemessene Anfragen ablehnen.“

Es ist zwar noch früh, um zu sehen, dass es für reale Anwendungen angewendet wird, aber es ist zweifellos sehr vielversprechend. Für Fergal Reid deutet die Veränderung der Fähigkeiten, die wir im letzten Jahr gesehen haben, darauf hin, dass dieser Raum „so groß wie das Internet“ sein könnte. Aus diesem Grund haben wir uns entschieden, Ihnen eine spezielle Episode über diese neuesten Entwicklungen in der Welt der KI zu bringen, was sie bedeuten und ob es an der Zeit ist, sie in realen Szenarien wie dem Kundensupport anzuwenden.

Hier sind einige unserer Lieblingsmitnahmen aus dem Gespräch:

  • Indem sie die Skala erweiterten und diese Modelle mit immer mehr Daten trainierten, zeigten diese Bots qualitative Veränderungen wie das Lernen abstrakter Konzepte ohne überwachtes Lernen.
  • Im Moment funktioniert ChatGPT am besten bei Problemen, bei denen es einfach ist, die Antwort zu validieren, oder bei kreativen Kontexten, bei denen es keine richtige Antwort gibt.
  • Obwohl wir bei diesen Modellen dramatisch bessere Denkfähigkeiten sehen, haben sie immer noch Probleme mit Halluzinationen – wenn sie etwas nicht wissen, erfinden sie es.
  • Wenn Sie diese Modelle mit der Aufforderung „Lass uns Schritt für Schritt denken“ auffordern, steigen die Genauigkeitsraten und Sie erhalten bessere Eingaben, als wenn Sie einfach sofort die Antwort geben.
  • Unsere Technologieschnittstellen werden allmählich dialogorientierter, und wir beginnen gerade zu sehen, dass die Qualität des Verständnisses natürlicher Sprache gut genug wird, um sie freizuschalten.
  • Es gibt viele aufregende Anwendungen dieser Technologie zur Unterstützung, wie z. B. die Agentenerweiterung, aber es gibt noch viel zu tun, bevor sie eingesetzt werden kann.

Wenn Ihnen unsere Diskussion gefällt, sehen Sie sich weitere Folgen unseres Podcasts an. Sie können auf iTunes, Spotify, YouTube folgen oder den RSS-Feed in Ihrem bevorzugten Player abrufen. Was folgt, ist eine leicht bearbeitete Abschrift der Episode.


Das große Debüt von ChatGPT

Des Traynor: Hey, Fergal.

Fergal Reid: Hallo Leute. Wie geht's? Danke, dass du mich zurück hast.

Des Traynor: Gut. Es ist gut, dich wieder zu haben. Wir hatten Sie erst vor fünf Wochen im Podcast, um über Dinge zu sprechen, die mit KI passieren. Und du bist wieder zurück, weil noch mehr passiert ist.

Fergal Reid: Es waren fünf arbeitsreiche Wochen.

Des Traynor: Es waren fünf arbeitsreiche Wochen und sieben arbeitsreiche Tage. Vor sieben Tagen war Mittwoch, der 30. November, und ich erhielt eine E-Mail mit einer Einladung zu einer offenen Beta für ein Ding namens ChatGPT. Was ist passiert?

„Es ging viral, es ging wild und alle waren sehr aufgeregt“

Fergal Reid: Was ist passiert? Es ist also eine interessante Frage. OpenAI veröffentlichte ihr neuestes maschinelles Lernsystem, das KI-System, und sie veröffentlichten es sehr öffentlich, und es war ChatGPT. Und es ist ihrem aktuellen Angebot, GPT-3, GPT-3.5, ziemlich ähnlich, aber es war anders verpackt, man musste keine Kreditkarte hineinstecken, und ich denke, jeder hat einfach gesehen: „Wow, da war eine riesige Änderung in der Fähigkeit hier vor kurzem.“ Und es wurde viral, es wurde wild und alle waren sehr aufgeregt. Und ungefähr zur gleichen Zeit veröffentlichten sie ihr neuestes GPT-3.5-Modell wie davinci-003, das viele der gleichen Dinge tut und vielleicht etwas weniger gut darin ist, zu sagen: „Hey, ich bin ein großes Sprachmodell und kann das nicht für dich tun.“ Aber es ist ähnlich in Bezug auf die Fähigkeit.

Des Traynor: Lassen Sie uns ein paar schnelle Definitionen machen, um alle zu erden. OpenAI ist offensichtlich die Institution, die viel an KI und ML arbeitet. Sie sagten GPT: wofür steht das?

Fergal Reid: Ich kann mich eigentlich nicht erinnern. Allzwecktransformator oder so ähnlich [Generativer vortrainierter Transformator].

Des Traynor: Aber hat dieser Name etwas zu bedeuten?

Fergal Reid: Ja, ich denke, das Schlüsselstück ist der Transformator. Lange Zeit haben die Leute versucht, herauszufinden: „Hey, wie trainiert man am besten neuronale Netze, die sich mit Text- und Verarbeitungsaufgaben für natürliche Sprache befassen?“ Und es war eine lange Zeit, da gab es diese LSTMs [langes Kurzzeitgedächtnis], die die kurzfristige Struktur Ihres Textes mit der langfristigen Struktur Ihres Satzes kombinierten, und Sequenzmodelle, und alle arbeiteten daran .

„Während Sie immer mehr Trainingsdaten pushen, scheinen sie qualitative Veränderungen in Bezug auf das, was sie tun können, aufzuweisen. Also, es ist wie ‚Hey, das scheint es irgendwie zu verstehen‘“

Und dann veröffentlichte Google ein ziemlich revolutionäres Papier, „Attention Is All You Need“, mit einer ziemlich großen These: „Hey, statt dieser traditionellen Sequenzmodelle gibt es hier eine neue Art, es zu tun, ein neues Modell“, das sie nennen das Transformatormodell oder die Transformatorarchitektur. Wenn Sie sich ein bestimmtes Wort ansehen, lernt das Modell andere Teile des Satzes, die Sie sich auch in Verbindung mit diesem Wort ansehen sollten. Man kann etwas effizienter lernen als mit Sequenzmodellen, und man kann es schneller, effizienter trainieren und weiter skalieren.

Also fing jeder an, Transformatoren für alle Arten von Sequenzdaten zu verwenden. Und dann, eine Sache, zu der OpenAI wirklich beigetragen hat, war diese Idee, dass man diese Transformer-Architekturen nehmen und die Skala wirklich erhöhen kann. Sie können viel mehr Trainingsdaten und viel mehr Rechenleistung hinzufügen. Und vielleicht sehr überraschend, und ich denke wirklich, das ist das Wichtigste, wenn Sie immer mehr Trainingsdaten veröffentlichen, scheinen sie qualitative Veränderungen in Bezug auf das, was sie tun können, zu zeigen. Also, es ist wie: "Hey, das scheint es irgendwie zu verstehen." Oder ich kann sagen „mach das glücklicher“ oder „mach das trauriger“, was ein sehr abstraktes Konzept ist. Wo hat es das gelernt? Wir haben ihm dieses überwachte Lernen nicht gegeben, bei dem Sie eine Definition von Traurigkeit oder Glück eincodieren. Es hat gerade erst begonnen, diese abstrakten Konzepte und diese Abstraktionen aus Massen von Trainingsdaten zu lernen.

Grundsätzlich haben OpenAI und einige andere dieses Skalierungsstück immer mehr vorangetrieben. Es gibt auch andere Dinge. Mit GPT-3.5 trainieren sie es ein bisschen anders, um zu versuchen, es besser auszurichten. Aber im Grunde geht es hier vor allem um viel Maßstab, viele Trainingsdaten und eigentlich um einfache Modelle. Sie können bemerkenswerte Dinge tun, von denen die Leute vor 20 Jahren gesagt hätten: „Nun, ein Computer wird das niemals tun; es wird mir nie einen Song schreiben können“, und jetzt ist es so: „Welche Art von Song hättest du gern?“ „Machen Sie den Klang glücklicher.“ Also, ja, es ist eine bemerkenswerte Zeit, weil viele Dinge, von denen wir dachten, dass sie nur der menschlichen Intelligenz vorbehalten sind, nur Tonnen von Trainingsdaten und ein großes Modell benötigen.

Kann ChatGPT kreativ sein?

Des: Und was seit letztem Mittwoch passiert ist, ist, dass Twitter – und dann sieben Tage später das allgemeine Internet oder die Medien – das mitbekommen hat. Ich habe alle möglichen, ehrlich gesagt herausragenden Anwendungen gesehen, in Bezug auf die ich mir einfach nicht vorstellen konnte, dass dies möglich ist. Ich sah „Schreib mir Anweisungen zum Kopieren einer DVD im Stil eines Taylor-Swift-Songs, in dem sie wütend ist, weil sie mit ihrem Freund Schluss gemacht hat“ oder so ähnlich. Aber es hat tatsächlich etwas damit zu tun. Und dann habe ich andere gesehen wie „Wie installiert man Intercom auf dem iOS“ und das wird auch relativ korrekt. Und alles dazwischen. Und das Verrückte, was ich gesehen habe, ist, dass Sie bei all diesen Dingen zurückschlagen und sagen können: „Jetzt geben Sie mir das im Stil eines Gangsters aus den 1940er Jahren und sagen Sie es auf Deutsch“ und „Jetzt übersetzen Sie Deutsch ins Spanische , aber fügen Sie auch mehr Wut hinzu“, oder was auch immer. Und es erledigt all diese Dinge sofort, innerhalb einer Verzögerung von fast null Sekunden, und in allen Fällen können Sie sehen, worauf es hinausläuft.

Ein persönliches Beispiel, das ich verwende, ist, wenn Sie versuchen, Ihrem Kind vor dem Schlafengehen eine Geschichte zu erzählen, können Ihnen die Winkel ausgehen. Es gibt nur so viele verschiedene Möglichkeiten, dass zum Beispiel drei Drachen in einen Wald gehen und sich verirren könnten. GPT-3 ist jedoch großartig, um mir 10 weitere Geschichten zu geben. Was mir aufgefallen ist, ist, dass die Leute bei der Geschichte der KI lange Zeit gesagt haben: „Es ist großartig für bestimmte Dinge, aber es gibt keine Möglichkeit, Kreativität zu bekämpfen.“ Ist es fair zu sagen, dass es sich anfühlt, als wären wir hier tatsächlich in der umgekehrten Welt?

Fergal: Ja. Ich meine, wenn Leute über KI sprechen, heißt es immer: „Nun, das Erste, was sie tun wird, sind diese routinemäßigen, manuellen Aufgaben.“ Und dann werden die Menschen all diese Zeit haben, um diese hochkreativen Dinge zu tun –

Des: Geh in einen Wald und-

Fergal: Mach die ganze Zeit Kunst, schöne Poesie. Und dann ist es so: „Oh, wow. Diese manuellen Aufgaben erfordern eine wirklich harte Vision und Verarbeitung von Dingen, um sie zu lösen. Aber Kreativität, wo es keine falsche Antwort gibt und es keine Strafe dafür gibt, es falsch zu machen … Ja, das Gedicht ist nicht ganz perfekt, aber es ist okay, und das gerenderte DALL·E 2-Bild ist vielleicht nicht genau das, was Sie sich vorgestellt haben, aber es ist immer noch ein schönes Bild und Sie können 1 von 10 auswählen, das Zeug funktioniert.

„Dieses Ding scheint sehr gut in dieser Art von intuitivem Stück zu sein, und es ist sehr gut darin, unser intuitives Stück zu täuschen. Wenn Sie es also auf einen Blick betrachten, sieht es richtig aus.“

Des: Und Sie können auch sehen, wofür es geht. Ich denke, eine Sache, die die Leute nicht erkennen, ist, dass es Ihnen das zurückgibt, was wahrscheinlich in Ihrem Kopf war, weil Sie es sowieso sehen werden. Wenn ich sage: „Gib mir Anweisungen zur Eröffnung eines Bankkontos im Stil eines Rage Against the Machine-Songs“, sehe ich: „Ja, wir werden kämpfen, um das Konto zu eröffnen, und wir werden alle wüten Nacht." Und ich kann sehen, was es tut. Ich wende dort nicht einmal eine Genauigkeitsskala an, ich sage nur: „Ah, du hast es versucht“, und du gibst ihm Anerkennung dafür.

Fergal: Ja, ich denke, das stimmt wahrscheinlich. Inwieweit sind wir gut darin, Beinaheunfälle in Bezug auf nicht sachliche Informationen zu beurteilen? Vielleicht sind wir einfach nicht so gut darin. Vielleicht kümmern wir uns nicht sehr darum. Und ich meine, wir müssen uns mit diesem Thema der Sachlichkeit befassen, aber selbst wenn Sie eine sachliche Frage stellen … Nehmen wir an, Sie stellen eine Frage zum Kundendienst. Ich habe kürzlich jemanden zur Zwei-Faktor-Authentifizierung gefragt: „Wie setzen Sie Ihre Intercom-Zwei-Faktor-Authentifizierung zurück?“ Und die Antwort, die ich bekam, war wie: „Wow, das ist eine großartige Antwort.“ Und ich schaue es mir an und „warte mal, so setzt du deine 2FA nicht zurück.“ Und es ist eine schöne URL, sie enthält den Verweis auf unseren Artikel im Hilfezentrum, und auch das wurde erfunden.

„Ich denke, dass die meisten Menschen, einschließlich uns selbst, die umgehauen sind, von der Idee, auf den ersten Blick plausibel zu sein, umgehauen werden.“

Die Leute reden über Menschen und menschliche Gehirne, und wir haben diesen intuitiven Teil, der wirklich gut darin ist, Muster zu erkennen, und dann haben wir den logischen, analytischen, logischen Teil, der langsamer und präziser ist. Dieses Ding scheint sehr gut in dieser Art von intuitivem Stück zu sein, und es ist sehr gut darin, unser intuitives Stück zu täuschen. Wenn Sie es also auf einen Blick betrachten, sieht es richtig aus, und bis Sie Ihr langsameres systemisches Denken wirklich anwenden, kann es schwierig sein, das zu erkennen. Und ich denke, dieses intuitive Stück, dieses Spekulieren, ist wahrscheinlich das, worauf wir uns mehr verlassen, um kreative Bemühungen, Kunst, Bilder und Sonette zu beurteilen. Zumindest anfangs. Und so ist es sehr gut darin, Dinge zu generieren, die auf den ersten Blick plausibel sind, aber dann vielleicht, wenn Sie sich tatsächlich Zeit nehmen, darüber nachzudenken, Sie-

Des: Siehe die Probleme. Und auf den ersten Blick plausibel zu sein, ist wirklich wichtig, weil ich denke, dass die meisten Menschen, einschließlich uns selbst, die umgehauen sind, von der Vorstellung, auf den ersten Blick plausibel zu sein, umgehauen werden. Sie geben ihm viel Anerkennung dafür, obwohl es möglicherweise nicht viel Anwendbarkeit in der realen Welt hat. Sie werden dieses Gemälde niemals in einem Museum aufhängen, und Sie werden niemals dieses Sonett lesen, und Sie werden niemals einen Preis für diesen Roman gewinnen.

Ich sehe viele Leute wie Content-Marketer, die Dinge sagen wie: „Das wird meinen Job für immer verändern.“ Und ich sage: „Ja, aber vielleicht nicht so, wie du denkst. Wenn Sie glauben, dass Ihr Job nur Eingabeaufforderungen eingibt und die Tabulatortaste drückt, ist es möglich, dass Ihr Job nicht existiert.“ In ähnlicher Weise sehe ich Manager auf Twitter sagen: „Oh, das wird die Leistungsbeurteilungssaison so viel einfacher machen.“ In all diesen Fällen bin ich wie-

Fergal: Da stimmt etwas nicht.

„Es ist möglich, dass der wirklich große Beitrag, den diese Technologie für die Menschheit leistet, ein ehrliches Gespräch über die Menge an Arbeit ist, die wir eliminieren können.“

Des: Genau. Sie sagen hier alle den stillen Teil laut, wenn Ihr Job tatsächlich darin besteht, dass Sie falsche BS schreiben, könnte das sein-

Fergal: Warum machst du das überhaupt?

Des: Was machst du? Exakt. Ich verstehe, dass es im Fall von, sagen wir, Content-Marketing Gründe geben kann, warum Sie nur für bestimmte Wörter ranken müssen, aber verwechseln Sie das nicht mit dem Handwerk des eigentlichen Schreibens.

Fergal: Ich meine, es ist möglich, dass das eine gute Sache ist. Es ist möglich, dass Bullshit-Jobs, Dinge, von denen die Person glaubt, dass sie keinen Wert haben, wie diese Leistungsbeurteilungen, sie einfach an GPT weitergeben können. Und dann, nach einer Weile, merkt jeder irgendwie, was passiert, und die Person auf der anderen Seite sagt: „Nun, ich werde es dem GPT übergeben, um es zu analysieren.“ Und vielleicht können wir dann ein ehrliches Gespräch darüber führen, was der wirklich wertvolle Kernel ist und wie man die Arbeit eliminieren kann.

Des: Warum machen wir all diesen performativen Bullshit?

Fergal: Ja, es ist möglich, dass der wirklich große Beitrag, den diese Technologie für die Menschheit leistet, ein ehrliches Gespräch über die Menge an Arbeit ist, die wir eliminieren können. Und das könnte toll werden. Das könnte sich massiv verändern.

Das Problem mit Chatbot-Halluzinationen

Des: Apropos tatsächliche Anwendungen, etwas, das mir in den Sinn kommt, zumindest meine direkte Erfahrung damit, und sogar das, was Sie über den 2FA-Anwendungsfall gesagt haben, ist, dass Sie es heute nicht direkt in vielen Bereichen einsetzen können, in denen es eine definitive gibt richtige Antwort, besonders wenn das Risiko, eine falsche Antwort zu geben, ziemlich hoch ist. Sie wollen also nicht, dass dieses Ding Krankenakten verschlingt und Diagnosen ausspuckt, denn ich kann Ihnen garantieren, dass die Diagnose wirklich gut geschrieben sein wird, für einen Laien wirklich glaubwürdig klingen wird und möglicherweise eine geringe Genauigkeitswahrscheinlichkeit aufweist. Wir kennen die Wahrscheinlichkeit der Genauigkeit nicht, aber sie variiert je nach Eingabe.

Fergal: Es würde mich sicherlich sehr erschrecken, wenn jemand zu mir käme und sagen würde: „Hey, Fergal, wir möchten, dass Ihr Team damit beginnt, dies für die medizinische Diagnose zu verwenden. Es wäre toll." Das wäre extrem beängstigend.

„Eine Sache ist, dass diese Technologie absolut Probleme mit dem hat, was viele Leute Halluzinationen nennen. Wenn sie etwas nicht weiß, erfindet sie es einfach.“

Des: Aber es gibt andere, vielleicht weniger schwerwiegende, aber ebenso ungenaue Anwendungsfälle, in denen Sie es verwenden könnten, um eine Schlussfolgerung in einem Rechtsfall zu diagnostizieren. Nochmals, ich bin sicher, es würde gut klingen und es würde es in die richtige Standardsprache packen, aber es würde letztendlich immer noch nicht wirklich wissen, was es sagt. Ich habe es gebeten, mir Ideen zu geben, wie man einen modernen E-Mail-Client baut, um im Produktivitätsbereich zu konkurrieren und zu gewinnen. Und es liest sich wirklich gut, aber erst wenn man es kratzt, merkt man, dass da eigentlich nichts ist. Es ist nur ein schön klingendes Wort nach dem anderen schön klingendes Wort ohne besonders scharfe Meinungen. Deshalb frage ich mich, wie wir dies anwendbarer machen könnten.

Fergal: Bevor wir darauf eingehen, gibt es zwei Dinge, die meiner Meinung nach hilfreich sind, um sie hier herauszuarbeiten. Eine Sache ist, dass diese Technologie absolut Probleme mit dem hat, was viele Leute Halluzinationen nennen, wo sie es einfach erfindet, wenn sie etwas nicht weiß. Das ist schädlich, und es gibt viele Bereiche, in denen eine Halluzinationswahrscheinlichkeit von 1 % ein Deal-Breaker ist. Und wir alle würden es lieben, wenn diese Wahrscheinlichkeit null wäre. Aber gleichzeitig hat sich die Genauigkeit gegenüber dem Stand der Technik vor einem Jahr gegenüber dem Stand vor drei Jahren verbessert. Es ist absolut besser, Ihnen auch oft die richtige Antwort zu geben. Es ist dramatisch besser im „Verstehen“. Ich habe Mühe zu sagen: „Oh, es macht nur Mustererkennung, es versteht nichts“, oder zumindest kämpfe ich damit, das zu sagen, ohne „Was meinst du mit verstehen?“

Wir sind definitiv auf einem Weg, wo es zwar immer noch Dinge gutmachen wird, und das ist ein großes Problem, aber es wird immer besser und besser darin, Ihnen die richtige Antwort zu geben, wenn es die richtige Antwort hat. Und wie sieht diese Kurve aus? Es ist im Moment schwierig auszupacken, aber wir bekommen dramatisch bessere Modelle, die viel besser darin sind, das Richtige zu tun, während sie manchmal immer noch das katastrophal Falsche tun. Auf beides sollten wir achten. Ja, das ist im Moment sehr schwierig in vielen Produktionsumgebungen einzusetzen, zumindest ohne etwas Clouding oder einige Erschwinglichkeiten, aber es wird auch viel besser. Wenn Sie etwas fragen, das auf Wikipedia wirklich gut abgedeckt ist, wird es besser.

Ein ultimatives Beispiel dafür ist die Computerprogrammierung. Sie können es nach einer Programmierherausforderung fragen, die es noch nicht gesehen hat, und wenn Sie es bitten, ein ganzes Modul oder System zu generieren, hat es irgendwie Probleme, Sie haben eine Art Bruchstelle. Aber wenn Sie es bitten, eine Funktion zu schreiben, selbst wenn es sich um eine neue, erfundene, nicht aus der Stichprobe stammende Funktion handelt, erhalten Sie möglicherweise die falsche Antwort, aber die Wahrscheinlichkeit, dass es Ihnen etwas Nützliches liefert, ist stark gestiegen.

Des: Sie sagten vorher, dass es im Grunde genommen die erste Phase unseres Programmierinterviews besteht, eine Art Array-basierte Frage. Es nagelt es einfach.

„Alle fangen an darüber zu reden, dass die Grammatik des Hundes nicht sehr gut ist, und das ist sehr wichtig, aber verliere nicht die Tatsache aus den Augen, dass der Hund spricht.“

Fergal: Ja. Exakt. Wir haben eine Programmierherausforderung zur Problemlösung für Ingenieure, die zu Intercom kommen. Ich musste sie vor ein paar Jahren selbst sitzen lassen, und wir bemühen uns sehr, sicherzustellen, dass das nicht im Internet verfügbar ist. Und wenn ja, versuchen wir es zu iterieren und zu ändern. Und wir sind nicht auf dem neuesten Stand, also kann ich nicht garantieren, dass es nicht da draußen ist. Aber dieses Ding hat eine Lösung hervorgebracht, die genau das Richtige ist, und das ist eine Art „Senior Engineer am Whiteboard für eine halbe Stunde“ Problem. Und es schafft es einfach auf einen Schlag, auf einen Schlag.

Des: Null Sekunden.

Fergal: Null Sekunden. Und das ist sehr beeindruckend. Und wie der halbe Rest der Welt habe ich auch mit ChatGPT oder GPT-3.5 gespielt und ihm viele andere Programmierwettbewerbsfragen oder Programmierfragen gestellt, von denen ich mir ziemlich sicher bin, dass sie außerhalb der Stichprobe liegen , und es macht einen sehr guten Job. Und das ist eine qualitative Änderung der Genauigkeit. Sie müssen Ihren Code überprüfen und sicherstellen, dass er nicht falsch ist, aber das ist sehr interessant und aufregend.

Sehr spannend ist auch die Idee, dass es zumindest rudimentäre Selbstbeobachtungsfähigkeiten hat. Wenn es einen Fehler schreibt, können Sie sagen: „Hey, da ist ein Fehler. Kannst du das Reparieren?" Und manchmal gibt es Ihnen eine schöne Erklärung dafür. Und all diese Modelle sind darauf trainiert, Token-Vorhersagen zu machen; die nächsten Worte vorhersagen. Zumindest traditionell, denn ich denke, es hat sich im letzten Jahr ein wenig geändert, aber der Großteil des Trainings besteht nur darin, das nächste Token vorherzusagen, das nächste Wort vorherzusagen. Und hier passiert etwas Erstaunliches – wenn Sie das einfach in großem Maßstab tun, erreichen Sie ein gewisses Maß an Verständnis.

Ich möchte nicht, dass das in der breiteren Diskussion über Halluzinationen verloren geht, die real sind, und die Leute haben ihr letzte Woche vielleicht nicht genug Aufmerksamkeit geschenkt. Aber da gibt es diese Metapher, und ich weiß nicht mehr, wer sie sich ausgedacht hat, von einem sprechenden Hund, und jemand sagt dir, dass er möchte, dass du seinen neuen sprechenden Hund triffst, und du sagst: „Hunde können nicht sprechen. ” Aber du kommst zum Hund und der Hund unterhält sich mit dir. Alle fangen an darüber zu reden, dass die Grammatik des Hundes nicht sehr gut ist, und das ist sehr wichtig, aber verliere nicht die Tatsache aus den Augen, dass der Hund spricht. Das mit den Halluzinationen ist für mich das. Das fühlt sich nach einer großen Veränderung an – vielleicht keine, die wir in Produktion bringen können, aber wer weiß, wo sie in einem Jahr, zwei Jahren oder drei Jahren sein wird.

„Das ist wie die Sache mit dem selbstfahrenden Auto, oder? Man muss bereit sein, jederzeit zu übernehmen.“

Des: Ja, die Sache mit den Halluzinationen macht es für mich überhaupt nicht nutzlos. Und lassen Sie uns pessimistisch sein und sagen, dass Ihnen eine fünfteilige Beschreibung eines Patienten sofort eine zu 70 % genaue Diagnose geben kann. Und bei den meisten dieser Diagnosefragen gibt es einen Schnelltest, der verifizieren kann, ob das stimmt oder nicht, wie in „Klingt, als hätten Sie X, hier ist der Schnelltest für X“, und es stellt sich heraus, ob es richtig oder falsch war – das ist immer noch eine massive Produktivitätsänderung. Wenn wir davon ausgehen, dass das Ding immer noch fehlerhaft ist, aber versuchen, die 70% Genauigkeit zu nutzen, gibt es möglicherweise noch Dinge, die es tun kann, die enorm wertvoll sind.

Fergal: Dazu habe ich zwei Gedanken. Der erste Gedanke ist, dass jemand das studieren müsste, weil es möglich ist, dass dieses Ding netto negativ ist, dass das neue System mit dem Menschen in der Schleife, dem Arzt und der KI eine höhere Wahrscheinlichkeit eines katastrophalen Fehlers hat, weil die müden, überarbeiteten Arzt tut manchmal nicht seine Sorgfalt, aber es gibt ein ansprechendes, aber falsches System vor ihnen. Das ist wie die Sache mit dem selbstfahrenden Auto, oder? Sie müssen bereit sein, jederzeit zu übernehmen. Es mag Bereiche in diesem Regime geben, in denen das System als Ganzes mit dem Menschen tatsächlich schlimmer ist als nur die-

Des: Menschen können tatsächlich übertrauen.

Fergal: Menschen können übertrauen. Wie nennen sie es? Normalisierung der Abweichung. Die Leute studieren das im Zusammenhang mit Kernreaktorkatastrophen und so. Was schief gelaufen ist? „Oh, wir haben uns an diese Abkürzung gewöhnt, und die Abkürzung war nicht immer gültig“, und so weiter. Das ist eine Sache, die ich sagen würde. Aber dann ist der Kontrapunkt, wenn wir an medizinische Dinge denken, dass ein Teil der Welt keinen Zugang zu einem Arzt hat. Ich weiß also nicht, wo ich diese Grenze ziehen soll. Es ist eine schwierige Grenze zu ziehen. Irgendwann, auf dem Weg, wird dieses Zeug wahrscheinlich immer besser und gut genug, dass das System schließlich als Ganzes alles übertrifft, was die Leute derzeit haben.

Chatbots Schritt für Schritt trainieren

Des: Sie sagten, dass Sie beim Generieren von Code sagen können: „Hey, das ist Boogie.“ Ein weiteres Beispiel, das ich gesehen habe und das eine Zeit lang auf Twitter beliebt war, war „Erzählen Sie mir Ihre Gedanken Zeile für Zeile durch“ oder was auch immer. Es ist fast so, als würden Sie ihm sagen, wie es über Dinge denken soll, oder Sie geben ihm neue Informationen und zwingen es dann nicht, seine Meinung zu überdenken. Was passiert dort?

Fergal: Ich finde, da passiert etwas Faszinierendes, und wir müssen hier ganz am Puls der Zeit reden. Das ist Spekulation und ich bin ein Zuschauer – ich mache diese Arbeit nicht. Ich glaube, Google hat vor kurzem ein Papier darüber veröffentlicht, wie sich große Sprachmodelle selbst verbessern können, also denke ich, dass es dort etwas Faszinierendes gibt, das es wert ist, ausgepackt zu werden.

Das erste ist, dass die Leute vielleicht vor etwa einem Jahr entdeckten, dass diese Modelle zwar viele Fehler machen, aber man sie mit dem klassischen „Lasst uns Schritt für Schritt denken“ dazu anregen könnte. Sie hätten ein Modell und könnten ihm eine einfache mathematische Frage stellen wie „Alice und Bob haben drei Schokoriegel und sie geben Eva drei“ oder so ähnlich. „Wie viele haben sie noch?“ Diese Dinger kämpfen mit grundlegender Mathematik, also würden solche Dinge oft falsch gemacht. Aber man könnte so etwas sagen wie: „Lasst uns Schritt für Schritt denken“, und das zwang es dazu, seine Argumentation Schritt für Schritt auf dem Weg dorthin auszugeben. Und die Genauigkeitsraten stiegen, als Sie das taten, was irgendwie Sinn macht. Es ist darauf trainiert, Text zu vervollständigen. Und so wird Schritt für Schritt jeder Schritt gestaltet …

Des: Es ist fast so, als würden Sie die Ausfallwahrscheinlichkeit nicht multiplizieren. Denn wenn Sie jeden Schritt mit einer Wahrscheinlichkeit von 90 % richtig ausführen, ist die Wahrscheinlichkeit bei fünf Schritten plötzlich nur noch 50 % richtig.

Fergal: Vielleicht. Ich meine, es ist schwierig, darüber zu spekulieren, was genau intern vor sich geht, aber möglicherweise so etwas. Aber es gab kürzlich einen sehr interessanten Artikel, in dem es hieß: „Hey, wir wissen, dass wir die Genauigkeit verbessern können, indem wir sagen: ‚Lasst uns Schritt für Schritt denken.'“ Und wir können das nutzen, um bessere Ergebnisse zu erzielen, als es nur intuitiv zu haben. sofort die Antwort geben. Sie können damit einen neuen Trainingsdatensatz erstellen und das Modell neu trainieren, um seine Genauigkeit zu verbessern. Das ist für mich faszinierend, weil sich diese Dinge zumindest bis zu einem gewissen Grad selbst verbessern können.

„Hier gibt es eine sehr interessante Welt, in der Sprachmodelle und NLP beginnen, ein bisschen mehr wie die AlphaGo-Welt auszusehen. Ich denke, es ist eine sehr aufregende Zeit und es ist sehr schwer zu sagen, wo die Grenzen hier sind.“

Ich habe kürzlich auf einer Microsoft-Veranstaltung eine Demo gesehen, bei der Copilot oder eines dieser Modelle, vielleicht Davinci, die sie nicht spezifiziert haben, etwas mit einer Python-Eingabeaufforderung gemacht haben, bei der sie ein Problem mit natürlicher Sprache hatten, ein bisschen wie unser Intercom-Programmierproblem , und bat dann das System, Code zu synthetisieren und den Code in eine Python-Eingabeaufforderung einzufügen, und als es falsch war, versuchte das System, den Code auszuführen und sah, dass er falsch war, also brauchte es einen weiteren Versuch und noch einen, bis es ihn bekam Rechts. Es gibt hier eine sehr interessante Welt, in der Sprachmodelle und NLP beginnen, ein bisschen mehr wie die AlphaGo-Welt auszusehen. Ich denke, es ist eine sehr aufregende Zeit und es ist sehr schwer zu sagen, wo die Grenzen hier sind.

Ich denke, es gibt eine Menge Dinge, zu denen Leute in der Linguistik oder so lange gesagt hätten: „In der KI werden wir diese niemals im großen Stil beantworten können“ oder so ähnlich. Wie „Der Traktor fuhr die Straße hinunter und bog in ein Feld ein. Bitte erklären Sie, was in diesem Witz passiert ist.“ Darin waren Computer historisch gesehen schlecht. „Der Zaubertraktor fuhr die Straße hinunter und bog in ein Feld ein.“ Ein leichter Modifikator wie dieser ändert die Bedeutung. Und in einigen Bereichen wird es wirklich gut darin. Sie können ihm grundlegende semantische Fragen stellen oder ihn zum Spekulieren auffordern. Bis vor etwa zwei oder drei Jahren sah jedes Mal, wenn ich ein neues maschinelles Lernsystem sah, es am Anfang immer magisch und erstaunlich aus, und wenn Sie hinein und unter die Haube kamen, dachten Sie: „Oh, es ist nur eine logistische Regression .“ Als ich das verstanden hatte, war es viel weniger beeindruckend. Und darum kämpfe ich hier. Vielleicht liegt das daran, dass es so schwer ist, die Komplexität des Modells zu verstehen. Aber diese Dinge fühlen sich wie qualitativ andere Fähigkeiten an, als wir sie hatten.

KI-Bots gegen Google

Des: Bevor wir in den Support einsteigen, auf den wir näher eingehen werden, habe ich Kommentare gesehen, die besagen, dass dies ein so großer Moment für das Internet wie für Google ist. Ich habe auch die, würde ich sagen, kalte Wasseraufnahme gesehen, die lautet: „Lassen Sie sich nicht täuschen, das Generieren zufälliger Songtexte ist bestenfalls eine Spielerei.“ Und es gibt offensichtlich ein Spektrum an Appetit, je nachdem, ob Sie ein Techno-Positivist oder was auch immer sind oder nicht. Was halten Sie von der Google-Sache? Ist das potenziell so groß wie Google? Ist das eine Bedrohung für Google? Gedanken darüber, wie Google reagieren könnte?

Fergal: Also, ich werde hier sehr spekulativ sein und mich auf den totalen Futurismus und so einlassen. Ich bin sehr optimistisch in Bezug auf KI und maschinelles Lernen. Ich habe das Gefühl, dass die Veränderung der Fähigkeiten, die wir im letzten Jahr gesehen haben, und sicherlich, wenn Sie ein oder zwei Jahre nach vorne extrapolieren, so groß ist wie das Internet. Das Potenzial. Und wir müssen herausfinden, wie wir diese Dinge produzieren können. Es muss eine Menge Arbeit geleistet werden, wie Sie sie dazu bringen, aus einer Wissensdatenbank zu antworten und so weiter. Aber die Summe der neuen Fähigkeiten, die wir bekommen haben und wahrscheinlich bekommen werden, fühlt sich für mich so groß an wie das Internet. Ich könnte mich irren, aber das ist, wo ich-

Des: Das ist die Größenordnung. Also größer als Google.

„Ich denke, es ist ein Sputnik-Moment – ​​die Leute werden sich das ansehen und sagen: Wow, hier kommt etwas an.“

Fergal: Ja, ich denke schon. Nicht nur ChatGPT, das erst letzte Woche herauskam. Aber der Gesamtfortschritt fühlt sich so an, als würden wir dramatisch bessere Fähigkeiten im Denken sehen, elementares Denken und Denken, das falsch sein kann, aber manchmal ziemlich überzeugend ist. Ich hätte es nicht geglaubt, wenn Sie mir vor fünf Jahren von seinem Erfolg bei Programmierherausforderungen erzählt hätten. Also ich denke, hier ist etwas Großes. Es gibt eine Menge Produktivität, die freigeschaltet werden kann, und es ist sehr schwer zu sagen, wo das aufhören wird. Und ich denke auch, dass es hier Rückkopplungsschleifen gibt. Ich fühle, dass dies ein Sputnik-Moment ist. Mit ChatGPT können Sie sagen: „Hey, die Technik ist nicht viel besser“ oder „es wird übertrieben“, aber unterschätzen Sie nicht die Fähigkeit von Low Friction, in der Lage zu sein, mit etwas zu spielen. Das kann jeder. Und ich denke, es ist ein Sputnik-Moment – ​​die Leute werden sich das ansehen und sagen: „Wow, hier kommt etwas an.“

Des: Sputnik-Referenz hier, tut mir leid.

Fergal: Das war, mein Gott, damals in den Fünfzigern. Die Russen setzten diesen Satelliten in den Weltraum, der die Erde umkreiste und Funksignale aussendete. Und Menschen auf der ganzen Welt könnten plötzlich ihr Radio einschalten und dieses Signal von Sputnik empfangen. Und das ist die Erzählung, die allgemein im Westen erzählt wird. Die Leute wachten plötzlich auf und sagten: „Wow, hier gibt es eine Fähigkeitsänderung, von der wir uns nicht bewusst waren.“ Und dann hat das angeblich das Weltraumrennen und den Apollo und all das Zeug verursacht. Also habe ich irgendwie das Gefühl, dass die Reaktion vielleicht immer noch abläuft, aber ich sehe so viele Leute, die dem nicht wirklich Aufmerksamkeit geschenkt haben, die plötzlich aufgeregt sind. Vielleicht lässt der Hype nach. Wir sind mittendrin, also ist es schwer vorherzusagen. Aber wenn dies nicht der Fall ist, wird es bald etwas anderes geben.

Kann ChatGPT den Kundensupport unterstützen?

Des: Was ist mit der Kundenbetreuung? Intercom ist eine Kundensupport-Plattform, und das Potenzial, das GPTChat, GPT-3.5 oder eine dieser Technologien den Support besser, schneller, billiger, erfolgreicher oder durchgängiger machen können, ist etwas, wovon wir immer überzeugt sind. Ich weiß, dass Sie aus Support-Sicht darüber nachgedacht haben. Vorhin haben wir darüber gesprochen, dass es Umgebungen gibt, in denen eine falsche Antwort sehr, sehr schlecht ist, und es Umgebungen gibt, in denen es eigentlich ziemlich tolerierbar ist. Wir haben 25.000 Kunden. Einige sind Banken, die sich wahrscheinlich keine leisten können. Other people would happily afford one because it means they can support all their customers faster. What do you think about this technology as it applies to support?

“We made a conscious design decision very early on that it would never say anything that hadn't been explicitly curated by the team”

Fergal: Yeah. We try and pay a lot of attention to changes in developments in this space. We were looking at GPT-3 pretty early, and our initial thoughts were that the accuracy was not quite there yet. The hallucination problem is a big problem to just nakedly say, “Hey, it has consumed the Intercom help center. Let's ask questions about resetting my two-factor authentication.” It just failed. We've been looking at the GPT-3.5 family and some other models recently. We have resolution bots in production. It's not using language models that are as large – they're maybe medium language models, embeddings, and so on. And it gets very good accuracy at the sort of thing it does. We made a conscious design decision very early on that it would never say anything that hadn't been explicitly curated by the team. I think that worked well for a lot of businesses because it might deliver the wrong answer sometimes – we try carefully to control that – but it's always going to deliver you a relevant answer or an answer that's not going to mislead you.

Des: Yeah, and specifically, the way in which it gets it wrong is it might give you a wrong correct answer. The thing it gives you will be something that somebody in your company has said: “This is a correct, cohesive piece of text.” It just might not be the right one for the question.

Fergal: And we encourage our customers to always write the answer in such a way that, “Oh, to reset your account, do the following thing.” So if it is delivered wrongly, at least the end user is not disoriented.

Des: Yes, they don't go and do it for no reason.

Fergal: They can go like, “Oh, this is a stupid bot. It gave me the wrong answer,” as opposed to, “I am misled, and I'm now going to waste a bunch of time…” So initially, with GPT-3, we were like, “Oh, it's really cool but difficult to see the end-to-end usage of this.” It's been a couple of years, and I'm not aware of anyone who has deployed GPT-3 in a total end-to-end way to answer the customer's questions.

Des: End-to-end meaning no agent in the mix. Because the risk there is that there'll be an unknown unknown. If someone goes to your business and asks a question that you didn't see because GPT dealt with it, gave it the wrong answer, and the customer goes off and does the wrong thing, no one actually knows what's happened except for the bot. And the bot doesn't even know it's wrong because it doesn't know if it's spoofing or not. So you end up in a potentially dangerous world.

Fergal: Exactly, and we've quite carefully designed the resolution bot to avoid getting into those situations. We calibrate it, we check that, when it says something helped the customer, it did help the customer, and we have ways of checking that between explicit and implicit customer feedback. But it's conservatively designed.

“The probability of giving the wrong answer and totally making stuff up is too high, at least to use it for end users in a naked way”

At some point, these open domain question-answering things or something you could build on the top of GPT-3.5 will get good enough that, for a certain portion of our customers, that equation changes where it's like, “Hey, I'm not answering medically critical things,” and the inaccuracy rate has fallen. It was 90% accurate; now it's 99% accurate; now it's 99.9%. How commonly it gives you the wrong answer will eventually fall below the critical threshold where it's like, “Hey, just being able to take this out of the box is worth it. I don't have to go and curate these answers.” So that will probably come. When will that come, is it here today, or has it come in the last few weeks with davinci-003 and ChatGPT is obviously something we've been assessing.

And it's certainly a work in progress because you always have to go and play with the prompts. When you interface with ChatGPT or GPT-3, we could take an end user's question and ramp it in something that says, “Hey, you're a very conservative customer support agent. If you don't know something or you're not completely sure, you always say, 'I don't know,'” and you reason with it step by step, and you're super conservative, and maybe we can wrap it to get the benefit of the deeper natural language understanding, which these models have, and the deeper ability to synthesize and rewrite text, which can be beautiful. It can be really nice. Maybe we can get those benefits and constrain the hallucinations and the errors enough.

Des: Is that another version of walking through this line by line?

Fergal: Yeah.

Des: Is that whole field what people call prompt engineering?

Fergal: Prompt engineering. We're joking that the machine learning team at Intercom is going to be a prompt engineering team, and we're joking about that as we play with it. But there are people who really sweat the prompts and have gotten really good at prompt engineering. It's a real thing, and it makes it difficult to say, “Oh, this new tech is definitely not good enough,” because what will the best prompts be in six months? That said, we don't think it's here yet. All the prompt engineering we've done on davinci in the last week can get it to be more conservative, but not enough. The probability of giving the wrong answer and totally making stuff up is too high, at least to use it for end users in a naked way.

Support agent augmentation

Des: We talked earlier about the doctor augmentation question. Is there a version of it where you can do it from the agent augmentation question?

Fergal: Well, at Intercom, we've been thinking about this area very deeply for an extended period, and in the last few months, we have had internal discussions about the future of the customer support inbox and generative models – models that generate stuff as opposed to just classify things – and we believe that their time is coming for support augmentation, and I think that seeing ChatGPT explode recently and all the excitement about it is evidence of that. It's evidence that these things are getting good. And there are a lot of things you can do in the inbox or in a context like the inbox to constrain and sand off the rougher edges of these things.

An example might be to curate the responses it's allowed to give and use the generative model to predict what should happen, but only actually allow the suggestion to present to the teammate, like a macro or a conversation response, and hopefully provide a beautiful interface to make it easy for them. Alternatively, to have it go and search for a new knowledge base, and there are techniques you can use to try and constrain it to that. And then, maybe show, “This is the answer that our bot wrote from your knowledge base,” and side by side with that, “Here is the original source article,” so that the customer support rep can look at them side by side-

Des: And see if it adds up.

Fergal: Yeah, and see if it adds up.

“They have to go and find the article themselves, then they have to read it and check the answer, and then they have to copy paste it and reformat it. So maybe there's a productivity boost”

Des: So there's an angle where the AI explains its epistemological basis for how it concludes this. And in that world, if you're a support rep, you don't even need to know if it's actually right – you just need to know if the logic stacks up. Obviously, it'd be better if you knew if it was right, as well. But if it says, “Hey, I read how to reset a 2FA article linked here. I suggest that this is how you reset 2FA,” you're probably, “That's the right article to read.”

Fergal: The problem is that when they get it wrong, they're so good at seeming right that they'll-

Des: Invent the idea of the article.

Fergal: Yeah, yeah, totally. And so, you might need to go beyond that. You might need to have the untrusted part of the interface, which is maybe the composer, and it pre-fills something, and there's also a trusted part of the interface beside that, maybe just above it, that shows the original source article, the relevant paragraph. And so, you can look at both.

Obviously, we study customer support flow very carefully and closely, and we absolutely have some support agents where it's like, “Okay, I got the question,” and they have to go and find an article themselves. Some expert ones know it, they're instantly there, and they know exactly where to go. Maybe they've got a macro that does it, but then maybe someone who's newer in the company and they're still being trained in, or maybe it's only part of their job, they have to go and find the article themselves, then they have to read it and check the answer, and then they have to copy paste it and reformat it. So maybe there's a productivity boost. Maybe you can make someone twice as efficient or something.

Des: All that agent behavior will also inform the system. If you put it live and agents are forever going “Wrong, right, wrong, right,” all that feeds back in, and then it gets better. Or, if they're rewriting the answer to be more accurate, I assume we can learn from that. And then, very quickly, the system converges on all the right answers.

“There are a lot of trade-offs. It's very easy to say we want a system that will learn in production. But then it's like okay, who has to maintain that? Who has to debug that?”

Fergal: We could certainly build a system that does all of those things. GPT-3.5 won't nakedly do it. If you decide to build on it as a building block, not even an assessment, is that the right system to build on? Its capability is very good, but it's not the only generative model in town. But whatever we build on, and we're getting really into the roadmap, we would potentially build a learning loop. With most of our tech at the moment where we do that, we absolutely gather feedback. There are some parts of the resolution bot like predictive answers, where it predicts things to end users, where it actually does use what the users say, like, “that helps” as a training signal, and potentially we can end up building that.

There are a lot of trade-offs. It's very easy to say, “We want a system that will learn in production. But then it's like, “Okay, who has to maintain that? Who has to debug that?” Sometimes it's easier to get it to a stable stage and then lock it. So, it depends. We did metrics and analytics whenever we upgrade. We're getting into the details of our models and how we check the accuracy and calibrate them, and stuff.

Des: I know our inbox has this feature where, based on what you've said before, if I jump in the inbox, before I've said anything to try and start a conversation, it'll say, “Hey, I'm Des, co-founder of Intercom, thrilled to be chatting with you.” Whatever my most common thing is, that's automatically pre-written for me.

Fergal: Yep. Smart replies.

Des: Am I right in saying that it's just the mini version in some sense of what we're describing here? Because we were really just going for salutations and maybe ends and maybe handoffs, and the common boilerplate of a support conversation should be there for you. And that, alone, is a productivity boost. But the idea that we could get one degree sharper, and somewhere in the middle of all that boilerplate is, “Here's the meat of the answer,” is where you're talking about going, right?

“We believe its time is coming, and we're trying to figure out the best ways to make people more efficient and to leverage it in a production setting that actually works for people”

Fergal: Yeah, totally. And again, to separate things out – there's just the change in the world, an increased capability, GPT-3.5, and then there's the stuff that we're working on as we grind away on this problem and try to deliver things that will make it better for our customers. I think the capabilities have really improved, but we're still figuring out if we can use this. Is there a shortcut to where we want to go? Maybe we can use these capabilities as building blocks, there are loads of ways to potentially use them as building blocks. But in terms of the direction we were going on already anyway, there are a lot of things agents do such as greetings where it's very obvious. We don't ever want to annoy people. We don't ever want to have an agent read through a bunch of text and then be like, “Oh, that's useless. Why did you do that?” It reduces their trust in the system. It slows them down. We want to help them out.

Für intelligente Antworten haben wir also mit Grüßen begonnen. Es war nur eine offensichtliche Sache zu tun. Wir können sehr leicht sagen, wann Sie wahrscheinlich eine Begrüßung wünschen – Sie kommen in ein neues Gespräch und niemand hat dem Endbenutzer zuvor etwas gesagt. Es ist sehr offensichtlich. Das war ein tief hängendes Stück Frucht. Die Benutzeroberfläche hat den Leuten sehr gut gefallen. Es ist einfach und es ist reibungsarm. Jetzt können wir dort nur einen einzigen Vorschlag machen, und es gibt Zeiten, in denen es für das System nur schwer zu erkennen ist. Im Moment haben wir diesen Makrofluss, und die Leute verwenden Makros sehr oft. Sie müssen sich für eines der Makros entscheiden. Sollten wir diese Makros den Leuten proaktiv vorschlagen? Vielleicht möchten wir den Composer nicht vorab ausfüllen, vielleicht möchten wir nur einige Makrovorschläge zeigen, die kontextbezogen sind. Es gibt viele Abläufe, die sich wiederholen. Wir haben an Dingen wie Flow-Finding gearbeitet und versucht, die üblichen Schritte zu verstehen, die Menschen durchlaufen.

Ich denke, die große Botschaft ist, dass wir glauben, dass diese Art von generativer Technologie geformt und gut gemacht werden muss, damit sie nicht lästig ist, damit sie Ihnen keine falschen Dinge gibt und Sie irreführt und Ihnen sicherlich nicht mehr Arbeit oder Stress aufbürdet als du es ohne hättest. Wir glauben, dass seine Zeit kommt, und wir versuchen, die besten Wege zu finden, um Menschen effizienter zu machen und sie in einer Produktionsumgebung zu nutzen, die tatsächlich für Menschen funktioniert.

AI-ML über den Support hinaus

Des: Wir sprechen über Unterstützung. Welche anderen Branchen werden Ihrer Meinung nach den Wert davon in den frühen Tagen erkennen? Es fühlt sich an, als ob der Support ein zielreiches Umfeld für diese Art von Technologie ist, aber gibt es andere?

Fergal: Offensichtlich sind wir optimistisch, was die Unterstützung angeht. Es gibt so viele Dinge, die geschrieben werden. Es ist wie: „Oh, der Agent erkennt ziemlich früh, dass dies ein Problem der folgenden Art ist“, wie das Zurücksetzen meines Kontos oder so etwas. Es gibt so viel Struktur in diesem Bereich. Es gibt eine Kombination aus echter Kundenproblemstruktur und Technologie, die sehr gut mit natürlicher Sprache umgehen und sie umgestalten kann. Wir können einen Knopf sehen, den Sie drücken können, um den Inhalt des Komponisten formeller zu machen, oder einen Knopf, um ihn entschuldigender zu machen, richtig? Wir denken, dass es im Moment ein sehr, sehr spannender Bereich ist. Ich möchte nicht auf alles völlig spekulativ eingehen. Aber auch davor war das Machine-Learning-Team in diesem Bereich voll dabei. Wir glauben fest an Unterstützung.

Externe Unterstützung, alles, wo es eine Struktur in der Aufgabe und einen menschlichen Genehmiger gibt, der erkennen kann, ob eine Antwort richtig oder falsch ist. Dies wird wie eine seltsame Intuition erscheinen, aber in der Informatik oder Kryptographie achten wir auf bestimmte Arten von Problemen, bei denen es einfach ist, die Richtigkeit einer Antwort zu überprüfen, aber schwer zu finden ist. Komplexitätsklassen, all diese Sachen. Aber ja, die Leute interessieren sich für solche Probleme. Ich kann nicht anders, als zu glauben, dass es hier eine ähnliche Intuition gibt. Sie haben eine Herausforderung, bei der es für einen Menschen ziemlich einfach ist, zu überprüfen, ob eine Antwort richtig ist oder nicht, aber es ist mühsam für ihn, das nachzuschlagen und herauszufischen. Oder vielleicht ist es dem Team egal, ob die Antwort richtig genug ist, weil es so etwas wie richtig nicht gibt, wie „Schreib mir ein Gedicht über X, Y.“

Des: Diese Problemklasse, bei der entweder das Validieren der Antwort sehr billig, aber das Erstellen sehr teuer ist, oder es keine gültige Antwort gibt.

Fergal: Und außerdem könnte die Antwort in sechs Monaten oder einem Jahr anders ausfallen. Es könnte sein, dass die Antwort in einem Jahr eher so lautet: „Jederzeit, wo ein Computer überprüfen kann, ob die Antwort richtig ist oder nicht.“ Oder es könnte sein, dass Ihnen das maschinelle Lernsystem immer dann, wenn die Domäne ausreichend einfach ist, definitiv oder sehr wahrscheinlich die richtige Antwort gibt. Es ist eine sich entwickelnde Sache. Ich denke, es ist im Moment schwer, Grenzen zu setzen.

„Was versenden wir im Januar?“

Andere Bereiche wie zum Beispiel Computerprogrammierung. Die Person, die dort an ihrem Terminal sitzt, muss sowieso den Code überprüfen, und sie kann das, und es kann irgendwo in Ihrem Code einen subtilen Fehler geben. Manchmal ist es einfacher, den Code selbst zu schreiben, als einen subtilen Fehler zu identifizieren. Aber oft, wenn man sich den Arbeitsablauf eines Computerprogrammierers ansieht, ist es so: „Oh, ich weiß, wie das geht, aber ich weiß nicht mehr genau, wie man diese Bibliothek benutzt. Dafür gehe ich zu Google. Ich gehe zum Stapelüberlauf.“ Und die Idee ist, dass Sie, wenn Sie Antwort Nummer drei auf Stack Over sehen, denken werden: „Oh ja, das stimmt. Das ist, was ich will." Es gibt einen ganzen Workflow wie diesen, der viel Zeit des Programmierers in Anspruch nimmt, und dieser Copilot kommt daher und es gibt ein Ende damit. Und formatieren Sie dann den Code neu, damit er hineinpasst. Das ist extrem leistungsfähig.

Wir begannen darüber zu sprechen: „Was ist Copilot für den Kundensupport?“ Wir haben Prototypen und es gibt eine Menge, mit denen Sie spielen können. Vielleicht beantwortest du nicht die ganze Frage, du gibst nur die Antwort mit zwei oder drei Wörtern, es schreibt es aus, und dann änderst du es und sagst: „Mach das formeller, mach das länger, mach es so kürzer.“ Es fühlt sich so an, als ob wir dort viel tun könnten.

Des: Und was versenden wir im Januar?

Fergal: Ich werde diesen Teil des Gesprächs zensieren müssen. Wir versenden etwas.

Des: Ja, wette ich. Okay. Das war großartig. Ich schätze, wir melden uns in zwei weiteren Wochen, wenn sich die ganze Welt wieder verändert hat. Aber wenn nicht, kann es ein paar Monate dauern. Vielen Dank.

Fergal: Wenn das hier im Internet steht, bin ich mir sicher, dass es nicht mehr aktuell ist und albern aussieht. Aber das ist die Natur dieses Geschäfts.

Des: Absolut. Deshalb arbeitest du daran.

Fergal: Dafür arbeiten wir. Es ist aufregend.

Resolution-Bot-Werbung