Domofon w produkcie: jak ChatGPT zmienił wszystko

Opublikowany: 2022-12-10

Może naprawdę interesujesz się głębokimi sieciami neuronowymi i przetwarzaniem języka naturalnego, a może jesteś po prostu entuzjastą technologii – prawdopodobnie natknąłeś się już na ChatGPT, zupełnie nowego chatbota OpenAI. Szum rośnie, ale pozostaje pytanie: czy to naprawdę zmienia zasady gry, czy też jest za wcześnie, by to stwierdzić?


W niedawnym odcinku nasz dyrektor ds. uczenia maszynowego, Fergal Reid, rzucił nieco światła na najnowsze przełomy w technologii sieci neuronowych. Rozmawialiśmy o DALL-E, GPT-3 i czy szum wokół sztucznej inteligencji jest właśnie tym, czy też coś w tym jest. Powiedział nam, że sprawy zaczynają nabierać skali. I tak po prostu, znowu to robimy.

ChatGPT, prototyp chatbota ze sztuczną inteligencją OpenAI, wystartował w zeszłym tygodniu i krąży po korytarzach internetu, wywołując zdumione reakcje od zagorzałych technopozytywistów po wiecznych technosceptyków. Bot jest zasilany przez GPT-3.5, sztuczną inteligencję generującą tekst i zgodnie z OpenAI może generować tekst w formacie dialogowym, co „umożliwia odpowiadanie na pytania uzupełniające, przyznanie się do błędów, kwestionowanie błędnych przesłanek i odrzucić nieodpowiednie prośby”.

Chociaż jest jeszcze za wcześnie, aby zastosować go w rzeczywistych zastosowaniach, jest to niewątpliwie bardzo obiecujące. W rzeczywistości dla Fergala Reida zmiana możliwości, którą zaobserwowaliśmy w ciągu ostatniego roku, sugeruje, że ta przestrzeń może być „tak duża jak Internet”. I właśnie dlatego zdecydowaliśmy się przedstawić specjalny odcinek poświęcony najnowszym osiągnięciom w świecie sztucznej inteligencji, ich znaczeniu i temu, czy nadszedł czas, aby zastosować je w rzeczywistych scenariuszach, takich jak obsługa klienta.

Oto niektóre z naszych ulubionych wniosków z rozmowy:

  • Zwiększając skalę i ucząc te modele coraz większą ilością danych, te boty zaczęły wykazywać zmiany jakościowe, takie jak uczenie się abstrakcyjnych pojęć bez nadzorowanego uczenia się.
  • W tej chwili ChatGPT działa najlepiej w przypadku problemów, w przypadku których łatwo jest sprawdzić poprawność odpowiedzi, lub kreatywnych kontekstów, w których nie ma czegoś takiego jak poprawna odpowiedź.
  • Chociaż widzimy znacznie lepsze zdolności rozumowania tych modeli, nadal mają problemy z halucynacjami – jeśli czegoś nie wiedzą, to wymyślają.
  • Jeśli poprosisz te modele o monit „przemyślmy krok po kroku”, współczynniki dokładności wzrosną i uzyskasz lepsze dane wejściowe niż tylko natychmiastowe podanie odpowiedzi.
  • Nasze interfejsy technologiczne stają się stopniowo coraz bardziej konwersacyjne i dopiero zaczynamy dostrzegać, że jakość rozumienia języka naturalnego staje się wystarczająco dobra, aby je odblokować.
  • Istnieje wiele ekscytujących zastosowań tej technologii, takich jak wspomaganie agentów, ale zanim będzie można ją wdrożyć, trzeba jeszcze trochę popracować.

Jeśli podoba Ci się nasza dyskusja, sprawdź więcej odcinków naszego podcastu. Możesz śledzić na iTunes, Spotify, YouTube lub pobrać kanał RSS w wybranym odtwarzaczu. Poniżej znajduje się lekko zredagowana transkrypcja odcinka.


Wielki debiut ChatGPT

Des Traynor: Hej, Fergal.

Fergal Reid: Cześć chłopaki. Jak leci? Dzięki za przyjęcie mnie z powrotem.

Des Traynor: Dobrze. Dobrze mieć cię z powrotem. Zaledwie pięć tygodni temu gościliśmy Cię w podcaście, aby porozmawiać o rzeczach związanych ze sztuczną inteligencją. I znowu wróciłeś, bo wydarzyło się więcej rzeczy.

Fergal Reid: To było pracowite pięć tygodni.

Des Traynor: To było pracowite pięć tygodni i pracowite siedem dni. Siedem dni temu była środa, 30 listopada, i dostałem e-maila z zaproszeniem do otwartej bety czegoś o nazwie ChatGPT. Co się stało?

„Stało się wirusowe, oszalało i wszyscy byli bardzo podekscytowani”

Fergal Reid: Co się stało? Więc to ciekawe pytanie. OpenAI wypuściło swój najnowszy system uczenia maszynowego, system AI, i wydali go bardzo publicznie, i był to ChatGPT. I jest całkiem podobny do ich obecnej oferty, GPT-3, GPT-3.5, ale był inaczej zapakowany, nie trzeba było wkładać do niego karty kredytowej i myślę, że wszyscy po prostu widzieli, że „Wow, było ogromne niedawno nastąpiła tu zmiana możliwości. I stało się wirusowe, oszalało i wszyscy byli naprawdę podekscytowani. Mniej więcej w tym samym czasie wypuścili swój najnowszy model GPT-3.5, taki jak davinci-003, który robi wiele tych samych rzeczy i może trochę gorzej mówi: „Hej, jestem dużym modelem językowym i nie mogę tego dla ciebie zrobić”. Ale pod względem możliwości jest podobny.

Des Traynor: Zróbmy kilka szybkich definicji, aby wszystkich uziemić. OpenAI jest oczywiście instytucją wykonującą dużo pracy nad AI i ML. Powiedziałeś GPT: co to oznacza?

Fergal Reid: Właściwie nie pamiętam. Transformator ogólnego przeznaczenia lub coś w tym stylu [Generative Pre-Trained Transformer].

Des Traynor: Ale czy to imię coś znaczy?

Fergal Reid: Tak, myślę, że kluczowym elementem jest transformator. Przez długi czas ludzie próbowali dowiedzieć się: „Hej, jaki jest najlepszy sposób trenowania sieci neuronowych zajmujących się zadaniami przetwarzania tekstu i języka naturalnego?” Minęło dużo czasu, istniały te LSTM [długa pamięć krótkotrwała], które łączyły krótkoterminową strukturę twojego tekstu z długoterminową strukturą twojego zdania i modele sekwencji, i wszyscy nad tym pracowali .

„W miarę jak popychasz coraz więcej danych treningowych, wydają się wykazywać zmiany jakościowe pod względem tego, co mogą zrobić. Więc to jest jak: „Hej, to wydaje się to rozumieć”

A potem Google opublikował całkiem rewolucyjny artykuł „Attention Is All You Need” z całkiem poważną tezą: „Hej, zamiast tych tradycyjnych modeli sekwencji, oto nowy sposób robienia tego, nowy model”, który nazywają model transformatora lub architektura transformatora. Kiedy patrzysz na określone słowo, model nauczy się innych części zdania, na które powinieneś również spojrzeć w połączeniu z tym słowem. Możesz uczyć się rzeczy nieco wydajniej niż w przypadku modeli sekwencyjnych, a także możesz trenować to szybciej, wydajniej i dalej skalować.

Tak więc wszyscy zaczęli używać transformatorów do wszelkiego rodzaju danych sekwencyjnych. A potem jedną z rzeczy, do których naprawdę przyczyniło się OpenAI, był pomysł, że można wykorzystać te architektury transformatorów i naprawdę zwiększyć skalę. Możesz dodać do nich znacznie więcej danych treningowych i znacznie więcej mocy obliczeniowej. I być może bardzo zaskakujące, i naprawdę myślę, że to jest kluczowa rzecz, ponieważ gdy przekazujesz coraz więcej danych treningowych, wydają się one wykazywać zmiany jakościowe pod względem tego, co potrafią. Więc to jest jak: „Hej, to wydaje się to rozumieć”. Mogę też powiedzieć „uczyń to szczęśliwszym” lub „uczyń to smutniejszym”, co jest pojęciem bardzo abstrakcyjnym. Gdzie się tego nauczyło? Nie daliśmy mu tej nadzorowanej nauki, w której kodujesz definicję smutku lub szczęścia. Po prostu zaczął uczyć się tych abstrakcyjnych pojęć i tych abstrakcji z mas danych treningowych.

Zasadniczo OpenAI i niektórzy inni po prostu coraz bardziej przesuwają ten skalujący element. Są też inne rzeczy. W przypadku GPT-3.5 trenują go trochę inaczej, aby spróbować bardziej wyrównać. Ale w zasadzie najważniejsza jest duża skala, dużo danych treningowych, a właściwie proste modele. Możesz robić niezwykłe rzeczy, o których 20 lat temu ludzie powiedzieliby: „Cóż, komputer nigdy tego nie zrobi; nigdy nie będzie w stanie napisać mi piosenki”, a teraz jest jak: „Jaką piosenkę chciałbyś?” „Uczyń dźwięk szczęśliwszym”. Więc tak, to niezwykły czas, ponieważ wiele rzeczy, które uważaliśmy za domenę tylko ludzkiej inteligencji, wymaga tylko ton danych treningowych i dużego modelu.

Czy ChatGPT może być kreatywny?

Des: A potem, od zeszłej środy, Twitter – a potem siedem dni później, ogólny internet lub media – przyłapał się na tym. Widziałem wiele naprawdę znakomitych zastosowań, po prostu nie mogłem sobie wyobrazić, że to możliwe. Widziałem „napisz mi instrukcje, jak skopiować DVD w stylu piosenki Taylor Swift, w której jest zła, bo zerwała ze swoim chłopakiem” czy coś w tym stylu. Ale faktycznie da się to zrobić. A potem widziałem innych, jak „jak zainstalować Intercom na iOS” i to też jest stosunkowo poprawne. I wszystko pomiędzy. I szaloną rzeczą, jaką widziałem, jest to, że w każdej z tych rzeczy możesz się cofnąć i powiedzieć: „Teraz daj mi to w stylu gangstera z lat 40. i powiedz to po niemiecku” i „Teraz przetłumacz niemiecki na hiszpański , ale dodaj też więcej gniewu” czy cokolwiek innego. I robi to wszystko natychmiast, z prawie zerowym opóźnieniem, i we wszystkich przypadkach możesz zobaczyć, do czego zmierza.

Jednym z osobistych przykładów, których używam, jest to, że kiedy próbujesz opowiedzieć dziecku historię przed snem, możesz zabraknąć kątów. Istnieje tylko tyle różnych sposobów, że na przykład trzy smoki mogą wejść do lasu i się zgubić. Jednak GPT-3 jest naprawdę świetny, dając mi jeszcze 10 historii. Zauważyłem, że przez długi czas w historii sztucznej inteligencji, nawet jeszcze kilka lat temu, ludzie mówili: „Jest świetna do konkretnych rzeczy, ale nie ma sposobu, aby poradzić sobie z kreatywnością”. Czy można powiedzieć, że czujemy się, jakbyśmy byli w odwrotnym świecie?

Fergal: Tak. Chodzi mi o to, że kiedy ludzie mówią o sztucznej inteligencji, zawsze mówią: „cóż, pierwszą rzeczą, którą zrobi, są rutynowe, ręczne zadania”. A potem ludzie będą mieli cały ten czas na robienie tych wysoce kreatywnych rzeczy...

Des: Idź do lasu i-

Fergal: Cały czas twórz sztukę, piękną poezję. A potem to jest jak: „Och, wow. Te ręczne zadania wymagają naprawdę trudnej wizji i przetwarzania rzeczy do rozwiązania. Ale kreatywność, gdzie nie ma złych odpowiedzi i nie ma kary za pomyłkę… Tak, wiersz nie jest całkiem doskonały, ale jest w porządku, a wyrenderowany obraz DALL·E 2 może nie być dokładnie tym, o czym marzyłeś, ale nadal jest to piękny obraz i możesz wybrać 1 z 10, to działa.

„Wydaje się, że to coś jest bardzo dobre w tego rodzaju intuicyjnym kawałku i bardzo dobrze oszukuje nasz intuicyjny kawałek. Więc kiedy spojrzysz na to na pierwszy rzut oka, wygląda to poprawnie”

Des: Możesz też zobaczyć, do czego to zmierza. Myślę, że ludzie nie zdają sobie sprawy, że zwracają ci to, co prawdopodobnie było w twojej głowie, ponieważ i tak to zobaczysz. Kiedy mówię: „Daj mi instrukcje otwarcia konta bankowego w stylu Rage Against the Machine Song”, widzę: „Tak, będziemy walczyć o otwarcie konta i rozwścieczymy wszystkich noc." I widzę, co robi. Nawet nie stosuję tam skali dokładności, po prostu mówię: „Ach, miałeś szansę” i dajesz temu kredyt.

Fergal: Tak, myślę, że to prawdopodobnie prawda. W jakim stopniu jesteśmy dobrzy w ocenianiu sytuacji potencjalnie wypadkowych na podstawie informacji niezwiązanych z faktami? Może po prostu nie jesteśmy w tym dobrzy. Może nie przywiązujemy do tego większej wagi. Chodzi mi o to, że będziemy musieli zająć się kwestią faktów, ale nawet jeśli zadasz mu rzeczowe pytanie… Powiedzmy, że zadasz mu pytanie obsługi klienta. Zapytałem niedawno jednego o uwierzytelnianie dwuskładnikowe: „Jak zresetować uwierzytelnianie dwuskładnikowe Interkomu?” Odpowiedź, którą otrzymałem, brzmiała: „Wow, to świetna odpowiedź”. Patrzę na to i „poczekaj, tak się nie resetuje 2FA”. To piękny adres URL, który zawiera odniesienie do naszego artykułu w Centrum pomocy, który też został zmyślony.

„Myślę, że większość ludzi, w tym my sami, których umysły oszalały na punkcie wiarygodności na pierwszy rzut oka”

Ludzie mówią o ludziach i ludzkich mózgach, a my mamy tę intuicyjną część, która jest naprawdę dobra w rozpoznawaniu wzorców, a następnie mamy część logiczną, analityczną i rozumującą, która jest wolniejsza i bardziej precyzyjna. To coś wydaje się być bardzo dobre w tego rodzaju intuicyjnym kawałku i bardzo dobrze oszukuje nasz intuicyjny kawałek. Więc kiedy spojrzysz na to na pierwszy rzut oka, wygląda to poprawnie i dopóki naprawdę nie zastosujesz swojego wolniejszego rozumowania systemowego, może być trudno to dostrzec. I myślę, że ten intuicyjny utwór, ta spekulacja, jest prawdopodobnie tym, na czym bardziej polegamy, oceniając twórcze przedsięwzięcia, sztukę, obrazy i sonety. Przynajmniej początkowo. I tak, jest bardzo dobry w generowaniu rzeczy, które na pierwszy rzut oka są wiarygodne, ale potem może, kiedy poświęcisz trochę czasu na zastanowienie się, możesz...

Des: Zobacz problemy. A bycie wiarygodnym na pierwszy rzut oka jest naprawdę ważne, ponieważ myślę, że większość ludzi, w tym my sami, których umysły wariują, jest zachwycona ideą wiarygodności na pierwszy rzut oka. Dajesz temu wiele uznania, pomimo faktu, że może nie mieć dużego zastosowania w świecie rzeczywistym. Nigdy nie powiesisz tego obrazu w muzeum i nigdy nie przeczytasz tego sonetu, i nigdy nie zdobędziesz nagrody za tę powieść.

Widzę wielu ludzi, takich jak marketerzy treści, mówiących: „To na zawsze zmieni moją pracę”. A ja na to: „Tak, ale może nie w taki sposób, jak myślisz. Jeśli myślisz, że twoja praca będzie polegać na wpisaniu monitów i wciskaniu tabulatorów, możliwe, że twoja praca może nie istnieć”. Podobnie widzę menedżerów na Twitterze, którzy mówią: „Och, to znacznie ułatwi sezon oceny wyników”. We wszystkich tych przypadkach jestem jak-

Fergal: Coś w tym jest.

„Możliwe, że naprawdę duży wkład, jaki ta technologia wnosi do ludzkości, to szczera rozmowa o ilości pracy, którą możemy wyeliminować”

Dez: Dokładnie. Wszyscy mówicie tutaj głośno, jeśli wasza praca polega na pisaniu fałszywych BS, które mogą być...

Fergal: Dlaczego w ogóle to robisz?

Dez: Co robisz? Dokładnie. Rozumiem, że w przypadku, powiedzmy, marketingu treści, mogą istnieć powody, dla których wystarczy pozycjonować określone słowa, ale nie myl tego z rzemiosłem pisania.

Fergal: To znaczy, możliwe, że to dobra rzecz. Możliwe, że gówniane prace, rzeczy, które dana osoba uważa za bezwartościowe, takie jak te oceny wydajności, mogą po prostu przekazać je GPT. A potem, po jakimś czasie, wszyscy zdają sobie sprawę, że tak właśnie się dzieje, a osoba po drugiej stronie mówi: „Cóż, przekażę to GPT do analizy”. I może wtedy będziemy mogli szczerze porozmawiać o tym, co jest naprawdę wartościowym jądrem i jak wyeliminować pracę.

Des: Dlaczego robimy te wszystkie performatywne bzdury?

Fergal: Tak, możliwe, że naprawdę duży wkład, jaki ta technologia wnosi do ludzkości, to szczera rozmowa o ilości pracy, którą możemy wyeliminować. A to mogłoby być świetne. To może być masowa transformacja.

Problem z halucynacjami chatbota

Des: Mówiąc o rzeczywistych aplikacjach, coś, o czym myślę, przynajmniej moje bezpośrednie doświadczenie, a nawet to, co powiedziałeś o przypadku użycia 2FA, to to, że nie możesz go wdrożyć bezpośrednio dzisiaj w wielu obszarach, w których istnieje ostateczna poprawnej odpowiedzi, zwłaszcza jeśli ryzyko podania błędnej odpowiedzi jest dość wysokie. Więc nie chcesz, żeby to coś pochłaniało dokumentację medyczną i wypluwało diagnozy, ponieważ mogę ci zagwarantować, że diagnoza będzie naprawdę dobrze napisana, naprawdę wiarygodnie brzmiąca dla laika i prawdopodobnie będzie miała niskie prawdopodobieństwo trafności. Nie znamy prawdopodobieństwa dokładności, ale będzie się ono różnić w zależności od danych wejściowych.

Fergal: Z pewnością bardzo bym się przestraszył, gdyby ktoś przyszedł do mnie i powiedział: „Hej, Fergal, chcemy, aby twój zespół zaczął używać tego do diagnozy medycznej. Byłoby świetnie." To byłoby bardzo przerażające.

„Jedną rzeczą jest to, że ta technologia absolutnie ma problemy z tym, co wielu ludzi nazywa halucynacjami, gdzie jeśli czegoś nie wie, po prostu to wymyśla”

Des: Istnieją jednak inne, być może mniej poważne, ale równie niedokładne przypadki użycia, w których można go użyć do zdiagnozowania wniosku w sprawie sądowej. Ponownie, jestem pewien, że brzmiałoby to dobrze i zawinęłoby to we właściwy język, ale ostatecznie nadal nie wiedziałoby, co mówi. Poprosiłem go o pomysły, jak zbudować nowoczesnego klienta poczty e-mail, aby konkurować i wygrywać w obszarze produktywności. I czyta się naprawdę dobrze, ale dopiero po zdrapaniu zdajesz sobie sprawę, że tak naprawdę nic tam nie ma. To po prostu ładnie brzmiące słowo po ładnie brzmiącym słowie bez szczególnie ostrych opinii. To sprawia, że ​​zastanawiam się, w jaki sposób moglibyśmy uczynić to bardziej użytecznym.

Fergal: Zanim do tego przejdziemy, są dwie rzeczy, które moim zdaniem są pomocne. Jedną rzeczą jest to, że ta technologia absolutnie ma problemy z tym, co wielu ludzi nazywa halucynacjami, gdzie jeśli czegoś nie wie, po prostu to wymyśla. To zgubne i istnieje wiele domen, w których 1% prawdopodobieństwo halucynacji jest przełomem. I wszyscy bylibyśmy zachwyceni, gdyby to prawdopodobieństwo wynosiło zero. Ale jednocześnie dokładność wzrosła w porównaniu z najnowocześniejszymi danymi rok temu, w porównaniu z tym, co było trzy lata temu. Jest też absolutnie lepszy w udzielaniu właściwej odpowiedzi przez większość czasu. Jest znacznie lepszy w „rozumieniu”. Z trudem mówię: „Och, to tylko rozpoznawanie wzorców, nic nie rozumie”, a przynajmniej mam trudności z powiedzeniem tego bez: „Co rozumiesz przez rozumienie?”

Zdecydowanie jesteśmy na trajektorii, w której, chociaż nadal będzie to wymyślać, a to duży problem, jest coraz lepiej w udzielaniu właściwej odpowiedzi, gdy ma właściwą odpowiedź. A jak wygląda ta krzywa? W tej chwili trudno to rozpakować, ale dostajemy znacznie lepsze modele, które są znacznie lepsze w robieniu właściwych rzeczy, a jednocześnie czasami robią katastrofalnie złe rzeczy. Na obie te rzeczy powinniśmy zwrócić uwagę. Tak, jest to obecnie bardzo trudne do wdrożenia w wielu ustawieniach produkcyjnych, przynajmniej bez zmętnienia lub pewnych afordancji wokół tego, ale jest też coraz lepiej. Jeśli zapytasz go o coś, co jest naprawdę dobrze opisane w Wikipedii, robi się coraz lepiej.

Doskonałym tego przykładem jest programowanie komputerowe. Możesz poprosić go o wyzwanie programistyczne, którego nie widział, a jeśli poprosisz go o wygenerowanie całego modułu lub systemu, to trochę walczy, masz punkt krytyczny. Ale jeśli poprosisz go o napisanie funkcji, nawet nowej, wymyślonej, spoza próbki, może dać ci złą odpowiedź, ale szanse na to, że da ci coś przydatnego, znacznie wzrosły.

Des: Mówiłeś wcześniej, że w zasadzie przechodzi pierwszy etap naszego wywiadu programistycznego, jakieś pytanie oparte na tablicy. Po prostu to przybija.

„Wszyscy zaczynają mówić o tym, że gramatyka psa nie jest zbyt dobra i to jest bardzo ważne, ale nie trać z oczu faktu, że pies mówi”

Fergal: Tak. Dokładnie. Mamy wyzwanie programistyczne polegające na rozwiązywaniu problemów dla inżynierów przyjeżdżających do Intercom. Kilka lat temu sam musiałem je posadzić i bardzo się staramy, aby nie było to dostępne w Internecie. A jeśli tak, to próbujemy iterować i zmieniać to. Nie nadążamy za tempem, więc nie mogę zagwarantować, że go tam nie ma. Ale ta rzecz wygenerowała rozwiązanie, które po prostu go przybiło, i jest to problem typu „starszy inżynier przy tablicy przez pół godziny”. I to po prostu robi to za jednym zamachem, jednym podejściem.

Des: Zero sekund.

Fergal: Zero sekund. I to jest bardzo imponujące. I podobnie jak połowa reszty świata, bawiłem się również ChatGPT lub GPT-3.5 i zadałem mu wiele innych pytań konkursowych lub programistycznych, które jestem prawie pewien, że są poza próbą , i robi to bardzo dobrze. I to jest jakościowa zmiana dokładności. Musisz sprawdzić swój kod i upewnić się, że nie jest błędny, ale jest to bardzo interesujące i ekscytujące.

Bardzo ekscytujący jest również pomysł, że ma przynajmniej podstawowe możliwości introspekcji. Jeśli napisze błąd, możesz powiedzieć: „Hej, jest błąd. Czy możesz to naprawić?" A czasami daje to piękne wyjaśnienie. A wszystkie te modele są szkolone do przewidywania tokenów; przewidzieć kilka następnych słów. Przynajmniej tradycyjnie, bo chyba trochę się zmieniło w ciągu ostatniego roku, ale większość szkolenia polega na przewidywaniu następnego żetonu, przewidywaniu następnego słowa. I dzieje się tu coś niesamowitego – po prostu robiąc to na dużą skalę, osiągasz pewien poziom zrozumienia.

Nie chcę, żeby to zaginęło w szerszej dyskusji na temat halucynacji, która jest prawdziwa, a ludzie być może nie zwracali na to wystarczającej uwagi w zeszłym tygodniu. Ale jest taka metafora, nie pamiętam, kto ją wymyślił, o gadającym psie, a ktoś mówi ci, że chce, żebyś poznał ich nowego gadającego psa, a ty mówisz: „Psy nie potrafią mówić. ” Ale podchodzisz do psa, a pies rozmawia z tobą. Wszyscy zaczynają mówić o tym, że gramatyka psa nie jest zbyt dobra, a to jest bardzo ważne, ale nie trać z oczu faktu, że pies mówi. Dla mnie halucynacje to jest to. Wydaje się, że to duża zmiana – może nie taka, którą możemy wprowadzić do produkcji, ale kto wie, gdzie będzie za rok, dwa lata lub trzy lata.

„To jest jak samojeżdżący samochód, prawda? Musisz być gotowy do przejęcia władzy w dowolnym momencie”

Des: Tak, dla mnie ta halucynacja wcale nie czyni tego bezużytecznym. I bądźmy pesymistami i powiedzmy, że biorąc pod uwagę pięciopunktowy opis pacjenta, można natychmiast postawić trafną diagnozę w 70%. A w większości tych pytań diagnostycznych jest jakiś szybki test, który może zweryfikować, czy to prawda, na przykład: „Wygląda na to, że masz X, oto szybki test na X” i okazuje się, czy był dobry, czy nie - to wciąż ogromna zmiana produktywności. Jeśli założymy, że rzecz nadal jest wadliwa, ale spróbujemy skorzystać z 70% dokładności, prawdopodobnie nadal są rzeczy, które może zrobić, a które będą niezwykle cenne.

Fergal: Mam na ten temat dwie myśli. Pierwsza myśl jest taka, że ​​ktoś musiałby to zbadać, ponieważ jest możliwe, że ta rzecz jest ujemna netto, że nowy system z człowiekiem w pętli, lekarzem i sztuczną inteligencją, ma większe prawdopodobieństwo katastrofalnego błędu, ponieważ zmęczony, przepracowany lekarz czasami nie dokłada staranności, ale przed nimi stoi atrakcyjny, ale niepoprawny system. To jest jak samojeżdżący samochód, prawda? Musisz być gotowy do przejęcia władzy w dowolnym momencie. Mogą istnieć obszary w tym reżimie, w których system jako całość z człowiekiem jest faktycznie gorszy niż tylko...

Des: Ludzie naprawdę potrafią nadmiernie ufać.

Fergal: Ludzie mogą nadmiernie ufać. Jak to nazywają? Normalizacja dewiacji. Ludzie badają to w kontekście katastrof reaktorów jądrowych i tak dalej. Co poszło nie tak? „Och, przyzwyczailiśmy się do tego skrótu, a skrót nie zawsze był prawidłowy” i tak dalej. To jedna rzecz, którą chciałbym powiedzieć. Ale kontrapunktem, kiedy myślimy o sprawach medycznych, jest to, że pewna część świata nie ma dostępu do lekarza. Więc nie wiem, gdzie narysować tę granicę. To trudna granica do narysowania. W końcu, na trajektorii, te rzeczy będą prawdopodobnie coraz lepsze i wystarczająco dobre, aby ostatecznie, jako całość, system osiągnął lepsze wyniki niż to, co ludzie mają obecnie.

Szkolenie chatbotów krok po kroku

Des: Mówiłeś, że kiedy generuje kod, możesz powiedzieć: „Hej, to jest boogie”. Innym przykładem, który przez jakiś czas był popularny na Twitterze, było „Opowiedz mi o swoim myśleniu linijka po linijce” czy cokolwiek innego. To prawie tak, jakbyś mówił mu, jak ma myśleć o rzeczach, lub dajesz mu nowe informacje, a następnie nie zmuszasz go do ponownego rozważenia swojej opinii. Co tu się dzieje?

Fergal: Myślę, że dzieje się tam coś fascynującego i musimy tu rozmawiać na bieżąco. To spekulacje, a ja jestem widzem – nie wykonuję tej pracy. Myślę, że całkiem niedawno Google opublikował artykuł o tym, jak duże modele językowe mogą się samodoskonalić, więc myślę, że jest tam coś fascynującego, co warto rozpakować.

Po pierwsze, mniej więcej rok temu ludzie odkryli, że chociaż te modele często się mylą, można im podpowiedzieć klasyczne „przemyślmy krok po kroku”. Miałbyś model i mógłbyś zadać mu proste pytanie matematyczne, takie jak „Alicja i Bob mają trzy tabliczki czekolady i dają trzy Ewie” lub coś w tym stylu. „Ilu im zostało?” Te rzeczy mają problemy z podstawową matematyką, więc często takie rzeczy się mylą. Ale możesz powiedzieć coś w stylu: „Pomyślmy krok po kroku”, a to zmusi go do przedstawienia swojego rozumowania krok po kroku. A wskaźniki dokładności wzrosły, kiedy to zrobiłeś, co ma sens. Jest przeszkolony do uzupełniania tekstu. I tak, krok po kroku, każdy krok jest zaprojektowany…

Des: To prawie tak, jakbyś nie mnożył prawdopodobieństwa niepowodzenia. Ponieważ wtedy, jeśli wykonujesz każdy krok z prawdopodobieństwem, że będzie on w 90% poprawny, i nagle po pięciu krokach prawdopodobieństwo jest poprawne tylko w 50%.

Fergal: Być może. To znaczy, trudno spekulować, co dokładnie dzieje się wewnętrznie, ale możliwe, że coś takiego. Ale ostatnio pojawił się bardzo interesujący artykuł, w którym było coś w stylu: „Hej, wiemy, że możemy poprawić dokładność, mówiąc:„ pomyślmy krok po kroku ”. Możemy to wykorzystać, aby uzyskać lepsze wyniki niż tylko intuicyjnie, natychmiast dać odpowiedź. Możesz użyć tego do zbudowania nowego zestawu danych szkoleniowych i ponownego nauczenia modelu w celu zwiększenia jego dokładności. Dla mnie to jest fascynujące, ponieważ te rzeczy mogą się samodoskonalić, przynajmniej do pewnego stopnia.

„Tutaj jest bardzo interesujący świat, w którym modele językowe i NLP zaczynają bardziej przypominać świat AlphaGo. Myślę, że to bardzo ekscytujący czas i bardzo trudno jest powiedzieć, jakie są tutaj granice”

Widziałem niedawno demo na imprezie Microsoftu, gdzie pokazali Copilot lub jeden z tych modeli, może davinci, nie określili, robiąc coś z zachętą Pythona, gdzie dali mu problem z językiem naturalnym, trochę jak nasz problem z programowaniem interkomu , a następnie poprosił system o zsyntetyzowanie kodu i umieszczenie kodu w wierszu poleceń Pythona, a kiedy się pomylił, system spróbował wykonać kod i zobaczył, że jest błędny, więc potem wykonał kolejne podejście i kolejne, aż go otrzymał prawo. Jest tutaj bardzo interesujący świat, w którym modele językowe i NLP zaczynają bardziej przypominać świat AlphaGo. Myślę, że to bardzo ekscytujący czas i bardzo trudno powiedzieć, jakie są tutaj granice.

Myślę, że jest wiele rzeczy, na które przez długi czas ludzie zajmujący się językoznawstwem lub kimś w tym rodzaju powiedzieliby: „W sztucznej inteligencji nigdy nie będziemy w stanie odpowiedzieć na nie w ramach wielkiego planu” lub coś w tym stylu. Na przykład: „Traktor zjechał z drogi i skręcił w pole. Proszę, wyjaśnij, co się stało w tym dowcipie”. W przeszłości komputery były w tym kiepskie. „Magiczny traktor zjechał drogą i zamienił się w pole”. Taki niewielki modyfikator zmienia znaczenie. I robi się w tym naprawdę dobry w niektórych domenach. Możesz zadać mu podstawowe pytania semantyczne lub poprosić o spekulacje. Jeszcze jakieś dwa lub trzy lata temu, ilekroć widziałem nowy system uczenia maszynowego, na początku zawsze wyglądał magicznie i niesamowicie, a za każdym razem, gdy wchodziłeś do niego i pod maską, mówiłeś: „Och, to tylko regresja logistyczna ”. Kiedy to zrozumiałem, było to znacznie mniej imponujące. I tutaj ciężko mi to zrobić. Może dlatego, że tak trudno jest zrozumieć złożoność modelu. Ale te rzeczy wydają się jakościowo innymi możliwościami niż te, które mieliśmy.

Boty AI kontra Google

Des: Zanim przejdziemy do pomocy technicznej, którą omówimy szczegółowo, widziałem komentarze mówiące, że jest to równie ważny moment dla internetu jak Google. Widziałem też, powiedziałbym, zimną wodę, czyli „nie daj się zwieść, generowanie losowych tekstów piosenek to w najlepszym razie chwyt”. I oczywiście istnieje spektrum apetytów w zależności od tego, czy jesteś techno-pozytywistą, czy kimkolwiek. Jakie jest Twoje zdanie na temat Google? Czy jest to potencjalnie tak duże, jak Google? Czy to zagrożenie dla Google? Zastanawiasz się, jak może zareagować Google?

Fergal: Więc będę tutaj bardzo spekulatywny, wchodząc w totalny futuryzm i takie tam. Jestem bardzo optymistycznie nastawiony do sztucznej inteligencji i uczenia maszynowego. Wydaje mi się, że zmiana możliwości, którą zaobserwowaliśmy w ciągu ostatniego roku, a już na pewno ekstrapolacja o kolejny rok lub dwa, jest tak duża jak Internet. Potencjał. I będziemy musieli wymyślić, jak wyprodukować te rzeczy. Trzeba będzie wykonać mnóstwo pracy, aby zmusić ich do odpowiedzi z bazy wiedzy i tak dalej. Ale suma nowych możliwości, które uzyskaliśmy i prawdopodobnie otrzymamy, wydaje mi się tak duża jak Internet. Mogę się mylić, ale w tym miejscu chciałbym...

Des: To rząd wielkości. Więc większy niż Google.

„Myślę, że to moment Sputnika – ludzie spojrzą na to i pomyślą: Wow, coś tu nadchodzi”

Fergal: Tak, myślę, że tak. Nie tylko ChatGPT, który pojawił się w zeszłym tygodniu. Ale ogólny postęp sprawia wrażenie, jakbyśmy widzieli dramatycznie lepsze umiejętności rozumowania, elementarnego rozumowania i rozumowania, które może być błędne, ale czasami całkiem przekonujące. Nie uwierzyłbym, gdybyś opowiedział mi o jego sukcesie w wyzwaniach programistycznych pięć lat temu. Więc myślę, że jest tu coś wielkiego. Istnieje wiele produktów, które można odblokować, i bardzo trudno powiedzieć, gdzie to się skończy. Myślę też, że są tu pętle sprzężenia zwrotnego. Czuję, że to chwila Sputnika. Dzięki ChatGPT możesz powiedzieć: „Hej, technologia nie jest o wiele lepsza” lub „robi się przesadnie”, ale nie lekceważ możliwości niskiego tarcia, które pozwala wejść i bawić się czymś. Każdy może to zrobić. I myślę, że to moment Sputnika – ludzie spojrzą na to i pomyślą: „Wow, coś tu nadchodzi”.

Des: Odniesienie do Sputnika tutaj, przepraszam.

Fergal: To było, mój Boże, w latach pięćdziesiątych. Rosjanie umieścili tego satelitę w kosmosie, który krążył wokół Ziemi i nadawał sygnały radiowe. A ludzie na całym świecie mogli nagle włączyć swoje radio i odbierać ten sygnał ze Sputnika. I to jest narracja, która jest ogólnie opowiadana na zachodzie. Ludzie nagle się obudzili i pomyśleli: „Wow, nastąpiła zmiana zdolności, której nie byliśmy świadomi”. A potem, rzekomo, to spowodowało wyścig kosmiczny, Apollo i tak dalej. Czuję więc, że być może reakcja wciąż się rozgrywa, ale widzę tak wielu ludzi, którzy tak naprawdę nie zwracali na to uwagi, a nagle są tym podekscytowani. Może hype opadnie. Jesteśmy w trakcie, więc trudno to przewidzieć. Ale jeśli to nie to, wkrótce pojawi się coś innego.

Czy ChatGPT może zasilać obsługę klienta?

Des: A co z obsługą klienta? Intercom to platforma obsługi klienta, a potencjał, jaki GPTChat, GPT-3.5 lub dowolna z tych technologii może sprawić, że obsługa będzie lepsza, szybsza, tańsza, skuteczniejsza lub bardziej kompleksowa, jest czymś, o czym zawsze mówimy. Wiem, że myślałeś o tym z punktu widzenia wsparcia. Wcześniej rozmawialiśmy o tym, że istnieją środowiska, w których niepoprawna odpowiedź jest bardzo, bardzo zła, i są środowiska, w których jest to całkiem znośne. Mamy 25 000 klientów. Niektóre to banki, które prawdopodobnie nie mogą sobie na to pozwolić. Other people would happily afford one because it means they can support all their customers faster. What do you think about this technology as it applies to support?

“We made a conscious design decision very early on that it would never say anything that hadn't been explicitly curated by the team”

Fergal: Yeah. We try and pay a lot of attention to changes in developments in this space. We were looking at GPT-3 pretty early, and our initial thoughts were that the accuracy was not quite there yet. The hallucination problem is a big problem to just nakedly say, “Hey, it has consumed the Intercom help center. Let's ask questions about resetting my two-factor authentication.” It just failed. We've been looking at the GPT-3.5 family and some other models recently. We have resolution bots in production. It's not using language models that are as large – they're maybe medium language models, embeddings, and so on. And it gets very good accuracy at the sort of thing it does. We made a conscious design decision very early on that it would never say anything that hadn't been explicitly curated by the team. I think that worked well for a lot of businesses because it might deliver the wrong answer sometimes – we try carefully to control that – but it's always going to deliver you a relevant answer or an answer that's not going to mislead you.

Des: Yeah, and specifically, the way in which it gets it wrong is it might give you a wrong correct answer. The thing it gives you will be something that somebody in your company has said: “This is a correct, cohesive piece of text.” It just might not be the right one for the question.

Fergal: And we encourage our customers to always write the answer in such a way that, “Oh, to reset your account, do the following thing.” So if it is delivered wrongly, at least the end user is not disoriented.

Des: Yes, they don't go and do it for no reason.

Fergal: They can go like, “Oh, this is a stupid bot. It gave me the wrong answer,” as opposed to, “I am misled, and I'm now going to waste a bunch of time…” So initially, with GPT-3, we were like, “Oh, it's really cool but difficult to see the end-to-end usage of this.” It's been a couple of years, and I'm not aware of anyone who has deployed GPT-3 in a total end-to-end way to answer the customer's questions.

Des: End-to-end meaning no agent in the mix. Because the risk there is that there'll be an unknown unknown. If someone goes to your business and asks a question that you didn't see because GPT dealt with it, gave it the wrong answer, and the customer goes off and does the wrong thing, no one actually knows what's happened except for the bot. And the bot doesn't even know it's wrong because it doesn't know if it's spoofing or not. So you end up in a potentially dangerous world.

Fergal: Exactly, and we've quite carefully designed the resolution bot to avoid getting into those situations. We calibrate it, we check that, when it says something helped the customer, it did help the customer, and we have ways of checking that between explicit and implicit customer feedback. But it's conservatively designed.

“The probability of giving the wrong answer and totally making stuff up is too high, at least to use it for end users in a naked way”

At some point, these open domain question-answering things or something you could build on the top of GPT-3.5 will get good enough that, for a certain portion of our customers, that equation changes where it's like, “Hey, I'm not answering medically critical things,” and the inaccuracy rate has fallen. It was 90% accurate; now it's 99% accurate; now it's 99.9%. How commonly it gives you the wrong answer will eventually fall below the critical threshold where it's like, “Hey, just being able to take this out of the box is worth it. I don't have to go and curate these answers.” So that will probably come. When will that come, is it here today, or has it come in the last few weeks with davinci-003 and ChatGPT is obviously something we've been assessing.

And it's certainly a work in progress because you always have to go and play with the prompts. When you interface with ChatGPT or GPT-3, we could take an end user's question and ramp it in something that says, “Hey, you're a very conservative customer support agent. If you don't know something or you're not completely sure, you always say, 'I don't know,'” and you reason with it step by step, and you're super conservative, and maybe we can wrap it to get the benefit of the deeper natural language understanding, which these models have, and the deeper ability to synthesize and rewrite text, which can be beautiful. It can be really nice. Maybe we can get those benefits and constrain the hallucinations and the errors enough.

Des: Is that another version of walking through this line by line?

Fergal: Yeah.

Des: Is that whole field what people call prompt engineering?

Fergal: Prompt engineering. We're joking that the machine learning team at Intercom is going to be a prompt engineering team, and we're joking about that as we play with it. But there are people who really sweat the prompts and have gotten really good at prompt engineering. It's a real thing, and it makes it difficult to say, “Oh, this new tech is definitely not good enough,” because what will the best prompts be in six months? That said, we don't think it's here yet. All the prompt engineering we've done on davinci in the last week can get it to be more conservative, but not enough. The probability of giving the wrong answer and totally making stuff up is too high, at least to use it for end users in a naked way.

Support agent augmentation

Des: We talked earlier about the doctor augmentation question. Is there a version of it where you can do it from the agent augmentation question?

Fergal: Well, at Intercom, we've been thinking about this area very deeply for an extended period, and in the last few months, we have had internal discussions about the future of the customer support inbox and generative models – models that generate stuff as opposed to just classify things – and we believe that their time is coming for support augmentation, and I think that seeing ChatGPT explode recently and all the excitement about it is evidence of that. It's evidence that these things are getting good. And there are a lot of things you can do in the inbox or in a context like the inbox to constrain and sand off the rougher edges of these things.

An example might be to curate the responses it's allowed to give and use the generative model to predict what should happen, but only actually allow the suggestion to present to the teammate, like a macro or a conversation response, and hopefully provide a beautiful interface to make it easy for them. Alternatively, to have it go and search for a new knowledge base, and there are techniques you can use to try and constrain it to that. And then, maybe show, “This is the answer that our bot wrote from your knowledge base,” and side by side with that, “Here is the original source article,” so that the customer support rep can look at them side by side-

Des: And see if it adds up.

Fergal: Yeah, and see if it adds up.

“They have to go and find the article themselves, then they have to read it and check the answer, and then they have to copy paste it and reformat it. So maybe there's a productivity boost”

Des: So there's an angle where the AI explains its epistemological basis for how it concludes this. And in that world, if you're a support rep, you don't even need to know if it's actually right – you just need to know if the logic stacks up. Obviously, it'd be better if you knew if it was right, as well. But if it says, “Hey, I read how to reset a 2FA article linked here. I suggest that this is how you reset 2FA,” you're probably, “That's the right article to read.”

Fergal: The problem is that when they get it wrong, they're so good at seeming right that they'll-

Des: Invent the idea of the article.

Fergal: Yeah, yeah, totally. And so, you might need to go beyond that. You might need to have the untrusted part of the interface, which is maybe the composer, and it pre-fills something, and there's also a trusted part of the interface beside that, maybe just above it, that shows the original source article, the relevant paragraph. And so, you can look at both.

Obviously, we study customer support flow very carefully and closely, and we absolutely have some support agents where it's like, “Okay, I got the question,” and they have to go and find an article themselves. Some expert ones know it, they're instantly there, and they know exactly where to go. Maybe they've got a macro that does it, but then maybe someone who's newer in the company and they're still being trained in, or maybe it's only part of their job, they have to go and find the article themselves, then they have to read it and check the answer, and then they have to copy paste it and reformat it. So maybe there's a productivity boost. Maybe you can make someone twice as efficient or something.

Des: All that agent behavior will also inform the system. If you put it live and agents are forever going “Wrong, right, wrong, right,” all that feeds back in, and then it gets better. Or, if they're rewriting the answer to be more accurate, I assume we can learn from that. And then, very quickly, the system converges on all the right answers.

“There are a lot of trade-offs. It's very easy to say we want a system that will learn in production. But then it's like okay, who has to maintain that? Who has to debug that?”

Fergal: We could certainly build a system that does all of those things. GPT-3.5 won't nakedly do it. If you decide to build on it as a building block, not even an assessment, is that the right system to build on? Its capability is very good, but it's not the only generative model in town. But whatever we build on, and we're getting really into the roadmap, we would potentially build a learning loop. With most of our tech at the moment where we do that, we absolutely gather feedback. There are some parts of the resolution bot like predictive answers, where it predicts things to end users, where it actually does use what the users say, like, “that helps” as a training signal, and potentially we can end up building that.

There are a lot of trade-offs. It's very easy to say, “We want a system that will learn in production. But then it's like, “Okay, who has to maintain that? Who has to debug that?” Sometimes it's easier to get it to a stable stage and then lock it. So, it depends. We did metrics and analytics whenever we upgrade. We're getting into the details of our models and how we check the accuracy and calibrate them, and stuff.

Des: I know our inbox has this feature where, based on what you've said before, if I jump in the inbox, before I've said anything to try and start a conversation, it'll say, “Hey, I'm Des, co-founder of Intercom, thrilled to be chatting with you.” Whatever my most common thing is, that's automatically pre-written for me.

Fergal: Yep. Smart replies.

Des: Am I right in saying that it's just the mini version in some sense of what we're describing here? Because we were really just going for salutations and maybe ends and maybe handoffs, and the common boilerplate of a support conversation should be there for you. And that, alone, is a productivity boost. But the idea that we could get one degree sharper, and somewhere in the middle of all that boilerplate is, “Here's the meat of the answer,” is where you're talking about going, right?

“We believe its time is coming, and we're trying to figure out the best ways to make people more efficient and to leverage it in a production setting that actually works for people”

Fergal: Yeah, totally. And again, to separate things out – there's just the change in the world, an increased capability, GPT-3.5, and then there's the stuff that we're working on as we grind away on this problem and try to deliver things that will make it better for our customers. I think the capabilities have really improved, but we're still figuring out if we can use this. Is there a shortcut to where we want to go? Maybe we can use these capabilities as building blocks, there are loads of ways to potentially use them as building blocks. But in terms of the direction we were going on already anyway, there are a lot of things agents do such as greetings where it's very obvious. We don't ever want to annoy people. We don't ever want to have an agent read through a bunch of text and then be like, “Oh, that's useless. Why did you do that?” It reduces their trust in the system. It slows them down. We want to help them out.

Tak więc, aby uzyskać inteligentne odpowiedzi, zaczęliśmy od pozdrowień. To była po prostu oczywista rzecz do zrobienia. Bardzo łatwo możemy stwierdzić, kiedy prawdopodobnie będziesz chciał powitać — wchodzisz w nową rozmowę i nikt wcześniej nie powiedział nic użytkownikowi końcowemu. To bardzo oczywiste. To był nisko wiszący owoc. Ludziom bardzo podobał się interfejs użytkownika. Jest to łatwe i charakteryzuje się niskim tarciem. Teraz możemy tam przedstawić tylko jedną sugestię, a czasami systemowi trudno to stwierdzić. W tej chwili mamy ten przepływ makr, a ludzie często używają makr. Muszą wybrać, które z makr. Czy powinniśmy proaktywnie sugerować ludziom te makra? Może nie chcemy wstępnie wypełniać kompozytora, może chcemy po prostu pokazać kilka sugestii makr, które są kontekstowe. Istnieje wiele przepływów, które są powtarzalne. Pracowaliśmy nad takimi rzeczami, jak flow-finding, starając się zrozumieć typowe kroki, przez które przechodzą ludzie.

Myślę, że głównym przesłaniem jest to, że wierzymy, że ten rodzaj generatywnej technologii musi zostać ukształtowany i poprawiony, aby nie był irytujący, aby nie dawał ci złych rzeczy i nie wprowadzał w błąd, a już na pewno nie zmuszał cię do dodatkowej pracy lub stresu niż miałbyś bez niego. Wierzymy, że jego czas nadchodzi i staramy się znaleźć najlepsze sposoby na zwiększenie wydajności ludzi i wykorzystanie tego w środowisku produkcyjnym, które faktycznie działa dla ludzi.

AI-ML poza wsparciem

Des: Mówimy o wsparciu. Jak myślisz, jakie inne branże dostrzegą w tym wartość na początku? Wygląda na to, że wsparcie jest bogatym w cele środowiskiem dla tego typu technologii, ale czy istnieją inne?

Fergal: Oczywiście jesteśmy nastawieni na wsparcie. Jest tak wiele rzeczy, które są napisane. To jest jak: „Och, agent dość wcześnie rozpoznaje, że jest to problem następującego rodzaju”, jak zresetowanie mojego konta lub coś w tym stylu. W tym obszarze jest tak wiele struktur. Istnieje połączenie rzeczywistej struktury problemu klienta z technologią, która bardzo dobrze radzi sobie z językiem naturalnym i przekształcaniem go. Widzimy przycisk, który można nacisnąć, aby uczynić to, co jest w kompozytorze bardziej formalnym, lub przycisk, aby uczynić go bardziej przepraszającym, prawda? Uważamy, że w tej chwili jest to bardzo, bardzo ekscytujący obszar. Nie chcę wchodzić we wszystko całkowicie spekulacyjnie. Ale nawet wcześniej zespół zajmujący się uczeniem maszynowym był zaangażowany w ten obszar. Jesteśmy wielkimi zwolennikami wsparcia.

Wsparcie zewnętrzne, wszystko, co ma strukturę w zadaniu i osobę zatwierdzającą, która jest w stanie rozpoznać, kiedy odpowiedź jest dobra, a która zła. To może wydawać się dziwną intuicją, ale w informatyce lub kryptografii zwracamy uwagę na pewne rodzaje problemów, w przypadku których łatwo jest zweryfikować poprawność odpowiedzi, ale trudno jest ją znaleźć. Klasy złożoności i tego typu rzeczy. Ale tak, ludzi interesują takie problemy. Nie mogę się oprzeć wrażeniu, że istnieje tutaj podobna intuicja. Masz wyzwanie, w którym człowiekowi dość łatwo jest zweryfikować, czy odpowiedź jest poprawna, czy nie, ale jest to dla nich pracochłonne, aby to sprawdzić i wyłowić. A może zespół nie dba o to, czy odpowiedź jest wystarczająco poprawna, ponieważ nie ma czegoś takiego jak poprawna, na przykład: „Napisz mi wiersz o X, Y”.

Des: Ta klasa problemów, w których sprawdzanie poprawności odpowiedzi jest bardzo tanie, ale tworzenie jej jest bardzo drogie, albo nie ma prawidłowej odpowiedzi.

Fergal: Ponadto odpowiedź może być inna za sześć miesięcy lub rok. Może się zdarzyć, że za rok odpowiedź będzie brzmiała mniej więcej tak: „Zawsze, kiedy komputer może sprawdzić, czy odpowiedź jest poprawna, czy nie”. Lub może się zdarzyć, że zawsze, gdy domena jest wystarczająco prosta, system uczenia maszynowego na pewno da ci lub najprawdopodobniej da ci właściwą odpowiedź. To ewoluująca rzecz. Myślę, że w tej chwili trudno jest ustalić granice.

„Co wysyłamy w styczniu?”

Inne dziedziny, takie jak na przykład programowanie komputerowe. Osoba siedząca przy swoim terminalu i tak musi przejrzeć kod i jest w stanie to zrobić, a gdzieś w twoim kodzie może być subtelny błąd. Czasami łatwiej jest napisać kod samodzielnie niż zidentyfikować subtelny błąd. Ale przez większość czasu, jeśli spojrzysz na przepływ pracy programisty komputerowego, to jest tak: „Och, wiem, jak to zrobić, ale nie pamiętam dokładnie, jak używać tej biblioteki. Idę po to do Google. Idę do przepełnienia stosu”. Pomysł polega na tym, że kiedy zobaczysz odpowiedź numer trzy w Stack Over, pomyślisz: „O tak, zgadza się. To jest to czego chce." Istnieje cały taki przepływ pracy, który zajmuje dużo czasu programisty, a pojawia się drugi pilot i kończy się na tym. A następnie ponownie sformatuj kod, aby się zmieścił. To niezwykle wydajne.

Zaczęliśmy rozmawiać o tym, „Czym jest Copilot do obsługi klienta?” Mamy prototypy i jest wiele rzeczy, którymi możesz się bawić. Może nie odpowiadasz na całe pytanie, po prostu dajesz mu odpowiedź składającą się z dwóch lub trzech słów, on to zapisuje, a potem modyfikujesz i mówisz: „Zrób to bardziej formalnie, zrób to dłużej, zrób to że krócej”. Wydaje się, że możemy tam wiele zrobić.

Des: A co wysyłamy w styczniu?

Fergal: Będę musiał ocenzurować tę część rozmowy. Wyślemy coś.

Des: Tak, założę się. Dobra. To było wspaniałe. Zameldujemy się, jak sądzę, za dwa tygodnie, kiedy cały świat znów się zmieni. Ale jeśli nie, może to potrwać kilka miesięcy. Dziękuję bardzo.

Fergal: Zanim to pojawi się w sieci, jestem pewien, że będzie nieaktualne i będzie wyglądać głupio. Ale taka jest natura tego biznesu.

Des: Absolutnie. Dlatego pracujesz nad tym.

Fergal: Dlatego pracujemy. To jest ekscytujące.

Rozdzielczość-Bot-Reklama