Intercom on Product: ChatGPT가 모든 것을 바꾼 방법

게시 됨: 2022-12-10

심층 신경망과 자연어 처리에 관심이 있거나 기술 애호가일 수도 있습니다. 이미 OpenAI의 새로운 챗봇인 ChatGPT를 우연히 발견했을 가능성이 있습니다. 과대 광고가 증가하고 있지만 질문은 남아 있습니다. 정말 게임 체인저입니까, 아니면 말하기에는 너무 이릅니다.

최근 에피소드에서 당사의 기계 학습 책임자인 Fergal Reid는 신경망 기술의 최신 혁신에 대해 설명했습니다. 우리는 DALL-E, GPT-3에 대해 대화를 나눴고, AI를 둘러싼 과대 광고가 그저 그런 것인지 아니면 무언가가 있는 것인지에 대해 이야기했습니다. 그는 상황이 확장되기 시작했다고 말했습니다. 그리고 바로 그렇게, 우리는 다시 그것에 있습니다.

OpenAI의 프로토타입 인공 지능 챗봇인 ChatGPT는 지난 주에 출시되었으며 인터넷의 홀에서 돌고 있으며 끊임없는 기술 회의론자에 대한 완고한 기술 실증주의자에서 놀라운 반응을 불러일으켰습니다. 이 봇은 텍스트 생성 AI인 GPT-3.5로 구동되며 OpenAI에 따르면 대화 형식으로 텍스트를 생성할 수 있습니다. 부적절한 요청을 거부합니다.”

실제 사용에 적용되는 것을 보기에는 아직 이르지만 의심할 여지 없이 매우 유망합니다. 사실, Fergal Reid는 작년에 우리가 목격한 기능의 변화를 통해 이 공간이 "인터넷만큼 커질 수 있음"을 시사했습니다. 이것이 우리가 AI 세계의 최신 개발, 그 의미, 고객 지원과 같은 실제 시나리오에 적용할 때인지에 대한 특별 에피소드를 제공하기로 결정한 이유입니다.

대화에서 가장 좋아하는 내용은 다음과 같습니다.

규모를 확장하고 점점 더 많은 데이터로 이러한 모델을 교육함으로써 이러한 봇은 지도 학습 없이 추상적인 개념을 학습하는 것과 같은 질적 변화를 보이기 시작했습니다.
현재 ChatGPT는 답을 쉽게 확인할 수 있는 문제나 정답 같은 것이 없는 창의적인 상황에서 최고의 성능을 발휘합니다.
우리는 이러한 모델에서 훨씬 더 나은 추론 능력을 보고 있지만 여전히 환각 문제가 있습니다. 무언가를 모른다면 그들은 그것을 구성합니다.
이러한 모델에 "단계적으로 생각해 봅시다"라는 메시지를 표시하면 정확도가 높아지고 즉시 답을 제공하는 것보다 더 나은 입력을 얻을 수 있습니다.
우리의 기술 인터페이스는 점차 대화형이 되어가고 있으며 자연어 이해의 품질이 이를 잠금 해제할 수 있을 만큼 좋아지는 것을 이제 막 보기 시작했습니다.
에이전트 증강과 같은 지원 분야에서 이 기술을 적용하는 흥미로운 응용 프로그램이 많이 있지만 배포되기 전에 완료해야 할 작업이 있습니다.

토론이 마음에 든다면 팟캐스트의 더 많은 에피소드를 확인하세요. iTunes, Spotify, YouTube에서 팔로우하거나 선택한 플레이어에서 RSS 피드를 가져올 수 있습니다. 다음은 에피소드의 약간 편집된 대본입니다.

ChatGPT의 대대적인 데뷔

데스 트레이너: 이봐, 퍼갈.

Fergal Reid: 안녕, 얘들아. 어떻게되고 있습니까? 다시 초대해 주셔서 감사합니다.

데스 트레이너: 좋습니다. 돌아오셔서 다행입니다. 불과 5주 전에 팟캐스트에서 AI와 관련된 일에 대해 이야기했습니다. 그리고 당신은 더 많은 일이 일어났기 때문에 다시 돌아왔습니다.

Fergal Reid: 바쁜 5주였습니다.

Des Traynor: 바쁜 5주와 바쁜 7일이었습니다. 7일 전인 11월 30일 수요일에 ChatGPT라는 제품의 오픈 베타에 대한 초대장이 포함된 이메일을 받았습니다. 무슨 일이에요?

"그것은 입소문이 났고, 열광했고 모두가 정말 흥분했습니다."

퍼갈 레이드: 무슨 일이야? 흥미로운 질문입니다. OpenAI는 가장 최근의 기계 학습 시스템인 AI 시스템을 출시했고 매우 공개적으로 출시했으며 이것이 바로 ChatGPT였습니다. 그리고 현재 제공되는 GPT-3, GPT-3.5와 매우 유사하지만 패키지가 다르고 신용 카드를 넣을 필요가 없었습니다. 최근 여기에서 능력이 변경되었습니다.” 그리고 그것은 입소문이 나고 열광했고 모두가 정말 흥분했습니다. 그리고 비슷한 시기에 davinci-003과 같은 최신 GPT-3.5 모델을 출시했습니다. 이 모델은 동일한 작업을 많이 수행합니다. "이봐, 나는 대규모 언어 모델이고 당신을 위해 그렇게 할 수 없습니다.” 하지만 능력면에서는 비슷합니다.

Des Traynor: 모두를 접지시키기 위해 몇 가지 빠른 정의를 해봅시다. OpenAI는 분명히 AI와 ML에 대해 많은 작업을 수행하는 기관입니다. 당신은 GPT를 말했다 : 그것은 무엇을 의미합니까?

퍼갈 리드: 사실 기억이 안 나. 범용 변환기 또는 [Generative Pre-Trained Transformer]와 같은 것.

Des Traynor: 그런데 그 이름이 무슨 의미가 있는 건가요?

Fergal Reid: 예, 핵심 부분은 변압기라고 생각합니다. 오랫동안 사람들은 "텍스트 및 자연어 처리 작업을 처리하는 신경망을 훈련시키는 가장 좋은 방법은 무엇입니까?"라고 알아내려고 노력했습니다. 그리고 오랜 시간이 걸렸습니다. 텍스트의 단기 구조와 문장의 장기 구조 및 시퀀스 모델을 결합하는 LSTM[장단기 기억]이 있었고 모두가 작업하고 있었습니다. .

“점점 더 많은 훈련 데이터를 푸시함에 따라 그들이 할 수 있는 측면에서 질적인 변화를 보이는 것 같습니다. 그래서 '이봐, 이건 좀 이해하는 것 같아' 같은 거죠.”

그런 다음 Google은 상당히 혁신적인 논문인 "Attention Is All You Need"를 발표했습니다. 꽤 큰 주제가 있습니다. 변압기 모델 또는 변압기 아키텍처. 특정 단어를 볼 때 모델은 해당 단어와 함께 살펴봐야 하는 문장의 다른 부분을 학습합니다. 시퀀스 모델을 사용하는 것보다 조금 더 효율적으로 학습할 수 있으며 더 빠르고 효율적으로 훈련하고 더 확장할 수 있습니다.

그래서 모든 사람들이 모든 종류의 시퀀스 데이터에 변환기를 사용하기 시작했습니다. 그런 다음 OpenAI가 실제로 기여한 한 가지는 이러한 트랜스포머 아키텍처를 채택하고 실제로 규모를 높일 수 있다는 아이디어였습니다. 훨씬 더 많은 훈련 데이터를 추가하고 훨씬 더 많은 컴퓨팅을 할 수 있습니다. 그리고 아마도 매우 놀랍고 저는 이것이 핵심이라고 생각합니다. 점점 더 많은 훈련 데이터를 밀어넣을수록 그들이 할 수 있는 것의 측면에서 질적인 변화를 보이는 것 같습니다. 그래서 "이봐, 이건 좀 이해하는 것 같아." 아니면 "이것을 더 행복하게 만드세요" 또는 "이것을 더 슬프게 만드세요"라고 말할 수 있습니다. 이것은 매우 추상적인 개념입니다. 어디서 배웠습니까? 우리는 슬픔이나 행복의 정의를 코딩하는 감독 학습을 제공하지 않았습니다. 대량의 교육 데이터에서 이러한 추상적인 개념과 이러한 추상화를 배우기 시작했습니다.

기본적으로 OpenAI와 일부 다른 사람들은 그 스케일링 조각을 점점 더 밀어붙이고 있습니다. 다른 것들도 있습니다. GPT-3.5를 사용하면 더 많이 시도하고 정렬하기 위해 약간 다르게 훈련합니다. 그러나 기본적으로 여기에서 가장 중요한 것은 많은 규모, 많은 교육 데이터, 그리고 실제로 일종의 간단한 모델입니다. 20년 전에는 사람들이 “글쎄요, 컴퓨터는 절대 이런 일을 하지 않을 겁니다. 절대 나에게 노래를 쓸 수 없을거야.” 그리고 지금은 “어떤 종류의 노래를 원하세요?” "소리를 더 행복하게 만드세요." 예, 우리가 인간 지능의 영역이라고 생각했던 많은 것들이 엄청난 양의 훈련 데이터와 큰 모델이 필요하기 때문에 놀라운 시간입니다.

ChatGPT가 창의적일 수 있나요?

Des: 그리고 지난주 수요일부터 트위터가, 그리고 7일 후에는 일반 인터넷이나 미디어가 이를 포착했습니다. 나는 이것이 가능하다고 상상할 수 없다는 점에서 모든 종류의 솔직히 뛰어난 용도를 보았습니다. 나는 "그녀가 남자 친구와 헤어져서 화가 난 Taylor Swift 노래 스타일로 DVD를 복사하는 방법을 적어주세요"또는 이와 유사한 것을 보았습니다. 그러나 실제로 시도가 있습니다. 그런 다음 "iOS에 Intercom을 어떻게 설치합니까? "와 같은 다른 사람들을 보았고 비교적 정확합니다. 그리고 그 사이의 모든 것. 그리고 제가 본 미친 짓은 이러한 것들에 대해 두 번 뒤로 물러서서 "이제 1940년대 갱스터 스타일로 그것을 독일어로 말해주세요"라고 말하거나 "이제 독일어를 스페인어로 번역합니다. , 그러나 더 많은 분노를 추가하십시오.”또는 무엇이든. 그리고 거의 0초의 지연 시간 내에 이 모든 작업을 즉시 수행하며 모든 경우에 무엇을 하는지 볼 수 있습니다.

제가 사용하는 한 가지 개인적인 예는 취침 전에 자녀에게 이야기를 들려주려고 할 때 각도가 부족할 수 있다는 것입니다. 예를 들어 세 마리의 용이 숲에 들어가 길을 잃을 수 있는 방법은 매우 다양합니다. 그러나 GPT-3는 실제로 10개의 추가 스토리를 제공하는 데 유용합니다. 제가 가장 오랫동안 알아차린 것은 AI의 이야기에서 몇 년 전까지만 해도 사람들은 "특정 분야에는 좋지만 창의성을 다룰 수 있는 방법은 없습니다."라고 말할 것입니다. 우리가 실제로 여기 반대 세계에 있는 것 같은 느낌이 든다고 하는 것이 공정합니까?

퍼갈: 네. 제 말은, 사람들이 AI에 대해 이야기할 때 항상 "글쎄요, 인공지능이 가장 먼저 할 일은 기계적이고 수동적인 작업입니다."라는 것입니다. 그리고 나서 인간은 이 모든 시간을 가지고 가서 이러한 매우 창의적인 일을 할 것입니다.

Des: 숲 속으로 들어가-

퍼갈: 항상 예술을 만들어라, 아름다운 시. 그리고는 “오, 와우. 이러한 수동 작업에는 해결하기 위해 정말 어려운 비전과 처리 작업이 필요합니다. 하지만 오답이 없고 오답에 따른 페널티가 없는 창의성... 예, 시가 완벽하지는 않지만 괜찮습니다. 그리고 렌더링된 DALL·E 2 이미지가 정확히 생각했던 것과 다를 수도 있습니다 하지만 여전히 아름다운 이미지이고 10개 중 1개를 선택할 수 있습니다.

“이것은 그런 종류의 직관적인 부분에 매우 능숙한 것 같고 우리의 직관적인 부분을 속이는 데 매우 능숙합니다. 그래서 얼핏 보면 맞는 것 같다”고 말했다.

Des: 그리고 그것이 무엇을 위한 것인지도 볼 수 있습니다. 사람들이 깨닫지 못하는 한 가지는 어쨌든 보게 될 것이기 때문에 아마도 머리 속에 있었던 것을 돌려준다는 것입니다. 내가 "Rage Against the Machine Song 스타일로 은행 계좌를 개설하는 방법을 알려주세요"라고 말하면 "예, 계좌를 개설하기 위해 싸울 것입니다. 밤." 그리고 나는 그것이 무엇을 하는지 볼 수 있습니다. 나는 거기에 정확도 척도를 적용하지도 않고 "아, 해봤어"라고 말하고 당신은 그것에 대한 공로를 인정하고 있습니다.

Fergal: 네, 아마도 사실일 것 같아요. 우리는 사실이 아닌 정보의 관점에서 니어미스를 판단하는 데 어느 정도 능숙합니까? 어쩌면 우리가 그렇게 잘하지 못하는 것일 수도 있습니다. 아마도 우리는 그것에 대해 깊이 신경 쓰지 않을 것입니다. 제 말은, 우리는 이 사실의 문제를 다루어야 할 것입니다. 하지만 사실에 입각한 질문을 할 때도… 고객 지원 질문을 한다고 가정해 봅시다. 최근 이중 인증에 대해 질문한 적이 있습니다. "인터콤 이중 인증을 어떻게 재설정합니까?" 제가 받은 대답은 "와, 정말 좋은 대답이네요."였습니다. 그리고 저는 그것을 보고 "잠깐만요, 그건 당신이 2FA를 재설정하는 방법이 아닙니다." 그리고 그것은 아름다운 URL이고 도움말 센터 문서에 대한 참조를 가지고 있으며 그것도 구성되었습니다.

"나는 우리를 포함한 대부분의 사람들이 얼핏 보기에 그럴듯하다는 생각에 충격을 받고 있다고 생각합니다."

사람들은 인간과 인간의 두뇌에 대해 이야기합니다. 우리에게는 패턴을 잘 인식하는 직관적인 부분이 있고, 그 다음에는 더 느리고 더 정확한 논리적, 분석적, 추론적 부분이 있습니다. 이것은 그런 종류의 직관적인 부분에 매우 능한 것 같고 우리의 직관적인 부분을 속이는 데 매우 능숙합니다. 따라서 한 눈에 보면 정확해 보이지만 더 느린 체계적 추론을 실제로 적용하기 전까지는 그것을 보기 어려울 수 있습니다. 그리고 추측하는 직관적인 부분이 아마도 우리가 창의적인 노력, 예술, 사진, 소네트를 판단하기 위해 더 많이 의존하는 것이라고 생각합니다. 적어도 처음에는. 따라서 언뜻 보기에는 그럴듯해 보이는 것을 생성하는 데 매우 능숙하지만 실제로 시간을 내어 그것에 대해 생각해 보면 아마도-

Des: 문제를 참조 하십시오. 그리고 첫눈에 그럴듯해 보이는 것이 정말 중요합니다. 우리를 포함한 대부분의 사람들이 얼핏 보기에 그럴듯하다는 생각에 충격을 받고 있다고 생각하기 때문입니다. 실제 적용 가능성이 많지 않을 수도 있다는 사실에도 불구하고 그것에 대해 많은 공로를 인정하고 있습니다. 당신은 결코 그 그림을 박물관에 걸지 않을 것이고, 어떤 소네트를 실제로 읽지도 않을 것이며, 그 소설로 상을 받을 수도 없을 것입니다.

콘텐츠 마케터와 같은 많은 사람들이 "이것은 내 직업을 영원히 바꿀 것입니다."라고 말하는 것을 봅니다. 그리고 저는 “예, 하지만 당신이 생각하는 방식이 아닐 수도 있습니다. 당신의 일이 단순히 프롬프트를 입력하고 탭을 누르는 것이라고 생각한다면 당신의 직업이 존재하지 않을 수도 있습니다.” 유사하게, 나는 트위터에서 관리자들이 "아, 그러면 성과 검토 시즌이 훨씬 쉬워질 것입니다."라고 말하는 것을 봅니다. 이 모든 경우에 저는 마치-

퍼갈: 뭔가 잘못됐어.

"이 기술이 인류에게 주는 정말 큰 공헌은 우리가 제거할 수 있는 작업량에 대한 솔직한 대화일 가능성이 있습니다."

데스: 그렇습니다. 당신의 직업이 실제로 당신이 가짜 BS를 작성하는 것과 관련된다면, 당신은 모두 여기서 큰 소리로 조용히 말하고 있는 것입니다.

퍼갈: 애초에 왜 그러는 거지?

데스: 뭐하는거야? 정확히. 예를 들어 콘텐츠 마케팅의 경우 특정 단어에 대해 순위를 매기는 이유가 있을 수 있지만 실제로 글을 쓰는 기술로 착각하지 마십시오.

Fergal: 내 말은, 이것이 좋은 일이 될 수 있다는 것입니다. 이러한 성과 리뷰와 같이 가치가 없다고 느끼는 헛소리 작업은 GPT에 그냥 넘겨줄 수 있습니다. 그리고 잠시 후 모든 사람들이 무슨 일이 일어나고 있는지 깨닫고 상대방이 "음, 분석을 위해 GPT에 넘길 것입니다."라고 말합니다. 그러면 실제로 정말 가치 있는 커널이 무엇인지, 작업 작업을 제거하는 방법에 대해 솔직한 대화를 나눌 수 있습니다.

Des: 왜 우리는 이 모든 수행적인 헛소리를 하고 있습니까?

Fergal: 네, 이 기술이 인류에게 가져다주는 정말 큰 공헌은 우리가 없앨 수 있는 일의 양에 대한 솔직한 대화일 가능성이 있습니다. 그리고 그것은 좋을 수 있습니다. 그것은 엄청난 변화가 될 수 있습니다.

챗봇 환각의 문제

Des: 실제 애플리케이션에 대해 이야기하자면, 제가 생각하는 것, 적어도 직접 경험한 것, 그리고 2FA 사용 사례에 대해 말씀하신 것조차도 오늘날 결정적인 문제가 있는 많은 영역에서 직접 배포할 수 없다는 것입니다. 정답, 특히 오답을 줄 위험이 상당히 높은 경우. 그래서 당신은 이것이 의료 기록을 소비하고 진단을 뱉어내는 것을 원하지 않습니다. 왜냐하면 진단이 정말 잘 쓰여지고, 비전문가에게 정말 그럴듯하게 들릴 것이고, 아마도 정확도가 낮을 가능성이 있을 것이라고 보장할 수 있기 때문입니다. 정확도의 확률은 알 수 없지만 입력에 따라 달라집니다.

Fergal: 누군가 나에게 와서 “Hey, Fergal, 우리는 당신의 팀이 이것을 의료 진단에 사용하기 시작했으면 합니다. 그것은 좋은 것입니다." 그것은 매우 무서울 것입니다.

"한 가지 사실은 이 기술이 많은 사람들이 환각이라고 부르는 것과 관련하여 절대적으로 문제가 있다는 것입니다. 여기서 무언가를 모르면 그냥 구성하는 것입니다."

Des: 하지만 덜 심각하지만 법적 사건에서 결론을 진단하는 데 사용할 수 있는 똑같이 부정확한 다른 사용 사례가 있습니다. 다시 말하지만, 좋은 소리가 나고 모든 올바른 상용구 언어로 포장할 것이라고 확신하지만 여전히 궁극적으로 그것이 무엇을 말하고 있는지 알지 못할 것입니다. 나는 생산성 공간에서 경쟁하고 승리하기 위해 최신 이메일 클라이언트를 구축하는 방법에 대한 아이디어를 제공하도록 요청했습니다. 정말 잘 읽히지만 실제로는 아무 것도 없다는 것을 깨닫는 것은 긁어본 후에야 알 수 있습니다. 특별히 예리한 의견이 없는 듣기 좋은 단어 다음에 듣기 좋은 단어일 뿐입니다. 저에게는 이것을 더 적용할 수 있는 방법이 궁금합니다.

Fergal: 이에 대해 알아보기 전에 여기서 알아차리면 도움이 될 두 가지 사항이 있습니다. 한 가지는 이 기술이 많은 사람들이 환각이라고 부르는 것과 관련하여 절대적으로 문제가 있다는 것입니다. 여기서 무언가를 모르면 그냥 구성하는 것입니다. 그것은 치명적이며 1%의 환각 가능성이 거래를 깨는 많은 영역이 있습니다. 그리고 그 확률이 0이라면 우리는 모두 좋아할 것입니다. 그러나 동시에 정확도는 1년 전보다 3년 전보다 높아졌습니다. 많은 시간 동안 올바른 답을 제공하는 것이 절대적으로 좋습니다. "이해"가 극적으로 향상됩니다. 저는 "오, 패턴 인식을 하고 있을 뿐이야, 아무것도 이해하지 못해"라고 말하거나 적어도 "이해한다는 게 무슨 뜻이야?"

우리는 확실히 궤적에 있습니다. 여전히 일을 구성하고 그것이 큰 문제이지만 올바른 답이 있을 때 올바른 답을 제공하는 것이 점점 더 좋아지고 있습니다. 그렇다면 그 곡선은 어떻게 생겼을까요? 지금은 포장을 풀기가 어렵지만, 우리는 옳은 일을 하는 데 훨씬 더 나은 모델을 얻고 있지만 때때로 치명적인 잘못된 일을 하고 있습니다. 우리는 이 두 가지에 주의를 기울여야 합니다. 예, 이것은 적어도 약간의 흐려짐이나 주변의 어포던스 없이 현재 많은 프로덕션 설정에 배포하기가 매우 어렵지만 훨씬 더 좋아지고 있습니다. Wikipedia에서 정말 잘 다루는 것을 물어보면 점점 좋아지고 있습니다.

이에 대한 궁극적인 예는 컴퓨터 프로그래밍입니다. 본 적이 없는 프로그래밍 문제를 요청할 수 있으며 전체 모듈이나 시스템을 생성하도록 요청하면 일종의 어려움을 겪고 일종의 한계점을 갖게 됩니다. 그러나 만약 당신이 함수를 작성하라고 요청한다면, 심지어 새로운, 구성된, 샘플 외의 함수라 할지라도, 그것은 당신에게 잘못된 답을 줄 수도 있지만, 당신에게 유용한 것을 줄 가능성은 훨씬 높아졌습니다.

Des: 이전에 말씀하셨듯이 기본적으로 프로그래밍 인터뷰의 첫 번째 단계인 일종의 배열 기반 질문을 통과했습니다. 그것은 단지 그것을 못 박는다.

"다들 개 문법이 별로라고 이야기하기 시작하는데 그게 아주 중요하지만 개가 말하고 있다는 사실을 간과하지 마세요."

퍼갈: 네. 정확히. Intercom에 오는 엔지니어를 위한 문제 해결 프로그래밍 과제가 있습니다. 몇 년 전에는 제가 직접 앉아야 했고 인터넷에서 볼 수 없도록 열심히 노력했습니다. 그리고 만약 그렇다면, 우리는 그것을 시도하고 반복하고 변경합니다. 그리고 우리는 속도를 내지 못하기 때문에 그것이 거기에 없다는 것을 보장할 수 없습니다. 그러나 이것은 문제를 해결하는 솔루션을 생성했으며, 그것은 "30분 동안 화이트보드에 있는 수석 엔지니어"와 같은 문제입니다. 그리고 한 번에 한 번에 가져옵니다.

Des: 0초.

퍼갈: 0초. 그리고 그것은 매우 인상적입니다. 그리고 세계의 나머지 절반과 마찬가지로 저도 ChatGPT 또는 GPT-3.5를 가지고 놀았고 다른 프로그래밍 경쟁 질문이나 프로그래밍 질문을 많이 했습니다. , 그리고 그것은 아주 좋은 일을합니다. 그리고 그것은 정확성의 질적 변화입니다. 코드를 확인하고 잘못되지 않았는지 확인해야 하지만 이는 매우 흥미롭고 흥미진진합니다.

최소한 기본적인 자기 성찰 기능이 있다는 생각도 매우 흥미 롭습니다. 버그를 작성하면 “이봐, 버그가 있어. 고칠 수 있습니까?" 그리고 때로는 그것에 대한 아름다운 설명을 제공합니다. 그리고 이러한 모든 모델은 토큰 예측을 수행하도록 훈련되었습니다. 다음 몇 단어를 예측합니다. 적어도 전통적으로는 작년에 조금 바뀌었기 때문에 훈련의 대부분은 다음 토큰을 예측하고 다음 단어를 예측하는 것입니다. 그리고 여기에서 놀라운 일이 일어나고 있습니다. 대규모로 그렇게 함으로써 어느 정도 이해 수준에 도달하게 됩니다.

나는 환각에 대한 더 넓은 논의에서 그것이 사라지는 것을 원하지 않습니다. 환각은 실제이고 사람들은 아마도 지난주에 그것에 충분한 관심을 기울이지 않았을 것입니다. 하지만 이런 은유가 있습니다. 누가 생각해 냈는지 기억이 나지 않습니다. 말하는 개에 대해 누군가가 여러분에게 새로운 말하는 개를 만나러 가자고 하면 여러분은 “개는 말을 할 수 없습니다. ” 그러나 당신은 개에게 다가가고 개는 당신과 대화를 나눕니다. 모든 사람들이 강아지의 문법이 좋지 않다는 것에 대해 이야기하기 시작합니다. 그것은 매우 중요하지만 개가 말하고 있다는 사실을 간과하지 마십시오. 저에게 있어 환각은 바로 그것입니다. 이것은 큰 변화처럼 느껴집니다. 아마도 우리가 생산에 투입할 수 있는 것은 아니지만 1년, 2년 또는 3년 후에 그것이 어디에 있을지 누가 알겠습니까?

“자율주행차 같은 거 맞죠? 언제든지 인계받을 준비가 되어 있어야 합니다.”

Des: 예, 제게 환각은 전혀 쓸모가 없습니다. 그리고 비관적으로 환자에 대한 5개의 단락 설명이 주어지면 즉시 70% 정확한 진단을 제공할 수 있다고 가정해 봅시다. 그리고 대부분의 진단 질문에는 그것이 사실인지 여부를 확인할 수 있는 빠른 테스트가 있습니다. "X가 있는 것 같군요. 여기 X에 대한 빠른 테스트가 있습니다." 그것은 여전히 엄청난 생산성 변화입니다. 여전히 결함이 있다고 가정하지만 70% 정확도의 이점을 얻으려고 하면 여전히 엄청난 가치가 있는 작업이 있을 수 있습니다.

Fergal: 두 가지 생각이 있습니다. 첫 번째 생각은 이것이 부정적인 결과를 가져올 가능성이 있기 때문에 인간, 의사 및 AI가 참여하는 새로운 시스템은 치명적인 오류가 발생할 확률이 더 높다는 사실을 누군가 연구해야 한다는 것입니다. 의사는 가끔 자기의 노력을 하지 않지만 그들 앞에는 매력적이면서도 부정확한 시스템이 있다. 자율주행차 같은거 맞죠? 언제든지 인수할 준비가 되어 있어야 합니다. 그 정권에는 인간과 함께 전체 시스템이 실제로 다음보다 더 나쁜 영역이 있을 수 있습니다.

Des: 사람들이 실제로 overtrust 수 있습니다.

퍼갈: 사람들은 과신할 수 있습니다. 그들은 그것을 무엇이라고 부릅니까? 일탈의 정규화. 사람들은 원자로 재난과 같은 맥락에서 이것을 연구합니다. 무엇이 잘못되었나요? "아, 우리는 이 지름길에 익숙해졌고 그 지름길은 항상 유효하지 않았습니다." 등등. 그것이 내가 말할 한 가지입니다. 그러나 우리가 의료에 대해 생각할 때 대위법은 세계의 일부 지역에서는 의사를 이용할 수 없다는 것입니다. 그래서 그 경계를 어디에 그어야 할지 모르겠습니다. 그리기 어려운 경계입니다. 결국, 궤적에서, 이 물건은 아마도 점점 더 좋아질 것이고, 결국에는 전체적으로 시스템이 현재 사람들이 가지고 있는 것보다 더 나은 성능을 발휘할 정도로 충분히 좋아질 것입니다.

단계별로 챗봇 교육

Des: 코드를 생성할 때 "야, 그거 부기야"라고 말할 수 있다고 말씀하셨는데요. 한동안 트위터에서 유행했던 또 다른 예는 "당신의 생각을 한 줄 한 줄 말해 주세요" 등이었습니다. 사물에 대해 생각하는 방법을 알려주거나 새로운 정보를 제공한 다음 자신의 의견을 재고하도록 강요하지 않는 것과 거의 같습니다. 무슨 일이야?

Fergal: 그곳에서 흥미로운 일이 벌어지고 있다고 생각합니다. 우리는 최첨단에서 바로 이야기해야 합니다. 이것은 추측이고 저는 구경꾼입니다 – 저는 이 일을 하고 있지 않습니다. 꽤 최근에 Google에서 대규모 언어 모델이 자체적으로 개선할 수 있는 방법에 대한 논문을 발표한 것 같습니다.

첫 번째는 약 1년 전쯤에 사람들이 이러한 모델이 많이 잘못될 수 있지만 고전적인 "단계적으로 생각해 봅시다"라는 메시지를 표시할 수 있다는 사실을 발견했다는 것입니다. 모델이 있으면 "앨리스와 밥이 세 개의 초콜릿 바를 가지고 있고 그들은 이브에게 세 개를 줍니다."와 같은 간단한 수학 질문을 할 수 있습니다. "얼마나 남았어?" 이러한 것들은 기본적인 수학에 어려움을 겪기 때문에 종종 그런 식으로 잘못된 결과를 얻습니다. 그러나 "단계적으로 생각하자"와 같은 말을 할 수 있으며, 그러면 그 과정에서 단계적으로 추론을 출력하게 됩니다. 그렇게 했을 때 정확도가 높아졌습니다. 텍스트를 완성하도록 훈련되었습니다. 따라서 단계별로 각 단계가 설계됩니다.

Des: 거의 실패 확률을 곱하지 않는 것과 같습니다. 그렇다면 각 단계를 90% 맞을 확률로 실행하다가 5단계에서 갑자기 확률이 50%만 맞기 때문입니다.

퍼갈: 아마도. 내 말은, 내부적으로 정확히 무슨 일이 벌어지고 있는지 추측하기는 어렵지만 아마도 그런 일이 있을 것입니다. 하지만 최근에 매우 흥미로운 논문이 있었습니다. 즉시 답변을 제공합니다. 이를 사용하여 새로운 교육 데이터 세트를 구축하고 모델을 재교육하여 정확도를 높일 수 있습니다. 저에게는 이러한 것들이 적어도 어느 정도는 스스로 개선될 수 있기 때문에 매력적입니다.

“여기에는 언어 모델과 NLP가 AlphaGo 세계와 조금 더 비슷해 보이기 시작하는 매우 흥미로운 세계가 있습니다. 지금이 매우 신나는 시간이라고 생각하며 여기에 한계가 무엇인지 말하기가 매우 어렵습니다.”

나는 최근 Microsoft 이벤트에서 Copilot 또는 davinci와 같은 모델 중 하나를 보여주는 데모를 보았습니다. Python 프롬프트로 무언가를 수행하여 Intercom 프로그래밍 문제와 같은 자연 언어 문제를 제공했습니다. 그런 다음 시스템에 코드를 합성하고 코드를 Python 프롬프트에 입력하도록 요청했고, 코드가 잘못되면 시스템은 코드를 실행하려고 시도했고 잘못된 것을 확인했습니다. 오른쪽. 언어 모델과 NLP가 AlphaGo 세계와 좀 더 비슷해 보이기 시작하는 매우 흥미로운 세계가 있습니다. 나는 지금이 매우 흥미로운 시간이라고 생각하며 여기서 한계가 무엇인지 말하기는 매우 어렵습니다.

오랫동안 언어학이나 무언가에 종사하는 사람들이 "AI에서 우리는 거창한 계획에서 이것들에 답할 수 없을 것입니다"라고 말했을 것 같은 것들이 많이 있다고 생각합니다. “트랙터가 길을 따라 가다가 들판으로 변했습니다. 그 농담에서 무슨 일이 일어났는지 설명해주세요.” 컴퓨터는 역사적으로 그런 면에서 나빴습니다. “매직 트랙터가 길을 따라 내려가더니 들판으로 변했다.” 그런 약간의 수식어가 의미를 바꿉니다. 그리고 그것은 일부 영역에서 정말 잘되고 있습니다. 기본적인 의미론적 질문을 하거나 추측하도록 요청할 수 있습니다. 약 2~3년 전까지만 해도 새로운 기계 학습 시스템을 볼 때마다 처음에는 항상 신기하고 놀랍게 보였습니다. 그 시스템에 들어갈 때마다 “오, 이건 로지스틱 회귀일 뿐이야. .” 내가 그것을 이해하고 나면 훨씬 덜 인상적이었습니다. 그리고 저는 여기서 그렇게 하기 위해 고군분투하고 있습니다. 모델의 복잡성을 이해하기가 너무 어렵기 때문일 수 있습니다. 하지만 이런 것들은 우리가 가진 것과는 질적으로 다른 능력처럼 느껴집니다.

AI 봇 대 Google

Des: 심층 분석을 통해 지원을 시작하기 전에 지금이 Google만큼 인터넷에 중요한 순간이라는 댓글을 본 적이 있습니다. 나는 또한 "속지 마십시오. 임의의 노래 가사를 생성하는 것은 기껏해야 특수 효과"라는 냉수 테이크를 보았습니다. 그리고 당신이 기술 실증주의자인지 아닌지에 따라 분명히 식욕의 스펙트럼이 있습니다. 구글에 대해 어떻게 생각하세요? 이것은 잠재적으로 Google만큼 큰 것입니까? 이것이 Google에 위협이 됩니까? Google이 어떻게 반응할지에 대한 생각은?

Fergal: 그래서 저는 여기서 완전 미래주의와 같은 것들을 입력하면서 매우 사색적일 것입니다. 저는 AI와 기계 학습에 대해 매우 낙관적입니다. 지난 1년 동안 우리가 목격한 능력의 변화, 그리고 확실히 앞으로 1~2년을 더 추정한다면 인터넷만큼이나 크다고 생각합니다. 잠재 성. 그리고 우리는 이러한 것들을 상품화하는 방법을 알아내야 할 것입니다. 지식 기반 등에서 응답하도록 제한하는 방법에 대해 많은 작업을 수행해야 합니다. 그러나 우리가 얻었고 얻을 가능성이 있는 새로운 기능의 총합은 나에게 인터넷만큼 크다고 느낍니다. 내가 틀릴 수도 있지만 그게 내가 할 곳입니다-

Des: 규모의 순서입니다. 따라서 Google보다 큽니다.

"스푸트니크의 순간이라고 생각합니다. 사람들이 이것을 보고 와우, 무언가가 여기에 도착하고 있습니다."

퍼갈: 네, 그런 것 같아요. 지난 주에 출시된 ChatGPT만이 아닙니다. 그러나 총체적 진보는 우리가 추리, 기초적인 추리, 틀릴 수 있지만 때로는 꽤 설득력 있는 추리에서 극적으로 더 나은 능력을 보고 있는 것처럼 느껴집니다. 5년 전에 프로그래밍 챌린지에서 성공했다는 이야기를 들었다면 믿지 않았을 것입니다. 그래서 여기에 뭔가 큰 것이 있다고 생각합니다. 잠금을 해제할 수 있는 많은 생산성이 있으며 그것이 어디에서 멈출지 말하기는 매우 어렵습니다. 또한 여기에는 피드백 루프가 있다고 생각합니다. 나는 이것이 스푸트니크 순간이라고 느낍니다. ChatGPT를 사용하면 "이봐, 기술이 그다지 좋지 않아" 또는 "과장되고 있어"라고 말할 수 있지만 마찰이 적어 무언가를 가지고 놀 수 있는 능력을 과소평가하지 마세요. 누구나 할 수 있습니다. 그리고 저는 그것이 스푸트니크의 순간이라고 생각합니다. 사람들은 이것을 보고 "와, 무언가가 여기에 도착하고 있습니다."라고 말할 것입니다.

Des: 스푸트니크 참조, 죄송합니다.

Fergal: 맙소사, 50년대에 그랬어요. 러시아인들은 이 위성을 지구 궤도를 도는 우주에 놓고 무선 신호를 방송했습니다. 그리고 전 세계의 사람들이 갑자기 라디오를 켜고 스푸트니크에서 오는 이 신호를 받을 수 있었습니다. 그리고 이것은 서양에서 일반적으로 말하는 이야기입니다. 사람들은 갑자기 잠에서 깨어나 “와, 우리가 인식하지 못한 기능 변경이 있습니다.”라고 말했습니다. 그리고 아마도 이것은 우주 경쟁과 아폴로와 그 모든 것들을 일으켰습니다. 그래서 저는 반응이 여전히 진행 중일 수도 있다는 느낌이 들지만, 이것에 별로 관심을 두지 않던 많은 사람들이 갑자기 그것에 대해 흥분하는 것을 봅니다. 아마도 과대 광고가 사라질 것입니다. 우리는 그 중간에 있기 때문에 예측하기 어렵습니다. 하지만 이것이 아니라면 곧 다른 일이 생길 것입니다.

ChatGPT가 고객 지원을 강화할 수 있습니까?

Des: 고객 지원은 어떻습니까? Intercom은 고객 지원 플랫폼이며 GPTChat, GPT-3.5 또는 이러한 기술이 지원을 더 좋고, 더 빠르고, 더 저렴하고, 더 성공적이고, 더 포괄적으로 만들 수 있는 잠재력은 우리가 항상 염두에 두고 있는 것입니다. 나는 당신이 지원 관점에서 이것에 대해 생각해 왔다는 것을 알고 있습니다. 앞에서 우리는 오답이 매우 매우 나쁜 환경이 있고 실제로 꽤 견딜 수 있는 환경이 있다는 것에 대해 이야기했습니다. 우리는 25,000명의 고객을 보유하고 있습니다. 일부는 아마도 하나를 감당할 수 없는 은행입니다. 다른 사람들은 모든 고객을 더 빨리 지원할 수 있다는 것을 의미하기 때문에 기꺼이 구매할 것입니다. What do you think about this technology as it applies to support?

“We made a conscious design decision very early on that it would never say anything that hadn't been explicitly curated by the team”

Fergal: Yeah. We try and pay a lot of attention to changes in developments in this space. We were looking at GPT-3 pretty early, and our initial thoughts were that the accuracy was not quite there yet. The hallucination problem is a big problem to just nakedly say, “Hey, it has consumed the Intercom help center. Let's ask questions about resetting my two-factor authentication.” It just failed. We've been looking at the GPT-3.5 family and some other models recently. We have resolution bots in production. It's not using language models that are as large – they're maybe medium language models, embeddings, and so on. And it gets very good accuracy at the sort of thing it does. We made a conscious design decision very early on that it would never say anything that hadn't been explicitly curated by the team. I think that worked well for a lot of businesses because it might deliver the wrong answer sometimes – we try carefully to control that – but it's always going to deliver you a relevant answer or an answer that's not going to mislead you.

Des: Yeah, and specifically, the way in which it gets it wrong is it might give you a wrong correct answer. The thing it gives you will be something that somebody in your company has said: “This is a correct, cohesive piece of text.” It just might not be the right one for the question.

Fergal: And we encourage our customers to always write the answer in such a way that, “Oh, to reset your account, do the following thing.” So if it is delivered wrongly, at least the end user is not disoriented.

Des: Yes, they don't go and do it for no reason.

Fergal: They can go like, “Oh, this is a stupid bot. It gave me the wrong answer,” as opposed to, “I am misled, and I'm now going to waste a bunch of time…” So initially, with GPT-3, we were like, “Oh, it's really cool but difficult to see the end-to-end usage of this.” It's been a couple of years, and I'm not aware of anyone who has deployed GPT-3 in a total end-to-end way to answer the customer's questions.

Des: End-to-end meaning no agent in the mix. Because the risk there is that there'll be an unknown unknown. If someone goes to your business and asks a question that you didn't see because GPT dealt with it, gave it the wrong answer, and the customer goes off and does the wrong thing, no one actually knows what's happened except for the bot. And the bot doesn't even know it's wrong because it doesn't know if it's spoofing or not. So you end up in a potentially dangerous world.

Fergal: Exactly, and we've quite carefully designed the resolution bot to avoid getting into those situations. We calibrate it, we check that, when it says something helped the customer, it did help the customer, and we have ways of checking that between explicit and implicit customer feedback. But it's conservatively designed.

“The probability of giving the wrong answer and totally making stuff up is too high, at least to use it for end users in a naked way”

At some point, these open domain question-answering things or something you could build on the top of GPT-3.5 will get good enough that, for a certain portion of our customers, that equation changes where it's like, “Hey, I'm not answering medically critical things,” and the inaccuracy rate has fallen. It was 90% accurate; now it's 99% accurate; now it's 99.9%. How commonly it gives you the wrong answer will eventually fall below the critical threshold where it's like, “Hey, just being able to take this out of the box is worth it. I don't have to go and curate these answers.” So that will probably come. When will that come, is it here today, or has it come in the last few weeks with davinci-003 and ChatGPT is obviously something we've been assessing.

And it's certainly a work in progress because you always have to go and play with the prompts. When you interface with ChatGPT or GPT-3, we could take an end user's question and ramp it in something that says, “Hey, you're a very conservative customer support agent. If you don't know something or you're not completely sure, you always say, 'I don't know,'” and you reason with it step by step, and you're super conservative, and maybe we can wrap it to get the benefit of the deeper natural language understanding, which these models have, and the deeper ability to synthesize and rewrite text, which can be beautiful. It can be really nice. Maybe we can get those benefits and constrain the hallucinations and the errors enough.

Des: Is that another version of walking through this line by line?

Fergal: Yeah.

Des: Is that whole field what people call prompt engineering?

Fergal: Prompt engineering. We're joking that the machine learning team at Intercom is going to be a prompt engineering team, and we're joking about that as we play with it. But there are people who really sweat the prompts and have gotten really good at prompt engineering. It's a real thing, and it makes it difficult to say, “Oh, this new tech is definitely not good enough,” because what will the best prompts be in six months? That said, we don't think it's here yet. All the prompt engineering we've done on davinci in the last week can get it to be more conservative, but not enough. The probability of giving the wrong answer and totally making stuff up is too high, at least to use it for end users in a naked way.

Support agent augmentation

Des: We talked earlier about the doctor augmentation question. Is there a version of it where you can do it from the agent augmentation question?

Fergal: Well, at Intercom, we've been thinking about this area very deeply for an extended period, and in the last few months, we have had internal discussions about the future of the customer support inbox and generative models – models that generate stuff as opposed to just classify things – and we believe that their time is coming for support augmentation, and I think that seeing ChatGPT explode recently and all the excitement about it is evidence of that. It's evidence that these things are getting good. And there are a lot of things you can do in the inbox or in a context like the inbox to constrain and sand off the rougher edges of these things.

An example might be to curate the responses it's allowed to give and use the generative model to predict what should happen, but only actually allow the suggestion to present to the teammate, like a macro or a conversation response, and hopefully provide a beautiful interface to make it easy for them. Alternatively, to have it go and search for a new knowledge base, and there are techniques you can use to try and constrain it to that. And then, maybe show, “This is the answer that our bot wrote from your knowledge base,” and side by side with that, “Here is the original source article,” so that the customer support rep can look at them side by side-

Des: And see if it adds up.

Fergal: Yeah, and see if it adds up.

“They have to go and find the article themselves, then they have to read it and check the answer, and then they have to copy paste it and reformat it. So maybe there's a productivity boost”

Des: So there's an angle where the AI explains its epistemological basis for how it concludes this. And in that world, if you're a support rep, you don't even need to know if it's actually right – you just need to know if the logic stacks up. Obviously, it'd be better if you knew if it was right, as well. But if it says, “Hey, I read how to reset a 2FA article linked here. I suggest that this is how you reset 2FA,” you're probably, “That's the right article to read.”

Fergal: The problem is that when they get it wrong, they're so good at seeming right that they'll-

Des: Invent the idea of the article.

Fergal: Yeah, yeah, totally. And so, you might need to go beyond that. You might need to have the untrusted part of the interface, which is maybe the composer, and it pre-fills something, and there's also a trusted part of the interface beside that, maybe just above it, that shows the original source article, the relevant paragraph. And so, you can look at both.

Obviously, we study customer support flow very carefully and closely, and we absolutely have some support agents where it's like, “Okay, I got the question,” and they have to go and find an article themselves. Some expert ones know it, they're instantly there, and they know exactly where to go. Maybe they've got a macro that does it, but then maybe someone who's newer in the company and they're still being trained in, or maybe it's only part of their job, they have to go and find the article themselves, then they have to read it and check the answer, and then they have to copy paste it and reformat it. So maybe there's a productivity boost. Maybe you can make someone twice as efficient or something.

Des: All that agent behavior will also inform the system. If you put it live and agents are forever going “Wrong, right, wrong, right,” all that feeds back in, and then it gets better. Or, if they're rewriting the answer to be more accurate, I assume we can learn from that. And then, very quickly, the system converges on all the right answers.

“There are a lot of trade-offs. It's very easy to say we want a system that will learn in production. But then it's like okay, who has to maintain that? Who has to debug that?”

Fergal: We could certainly build a system that does all of those things. GPT-3.5 won't nakedly do it. If you decide to build on it as a building block, not even an assessment, is that the right system to build on? Its capability is very good, but it's not the only generative model in town. But whatever we build on, and we're getting really into the roadmap, we would potentially build a learning loop. With most of our tech at the moment where we do that, we absolutely gather feedback. There are some parts of the resolution bot like predictive answers, where it predicts things to end users, where it actually does use what the users say, like, “that helps” as a training signal, and potentially we can end up building that.

There are a lot of trade-offs. It's very easy to say, “We want a system that will learn in production. But then it's like, “Okay, who has to maintain that? Who has to debug that?” Sometimes it's easier to get it to a stable stage and then lock it. So, it depends. We did metrics and analytics whenever we upgrade. We're getting into the details of our models and how we check the accuracy and calibrate them, and stuff.

Des: I know our inbox has this feature where, based on what you've said before, if I jump in the inbox, before I've said anything to try and start a conversation, it'll say, “Hey, I'm Des, co-founder of Intercom, thrilled to be chatting with you.” Whatever my most common thing is, that's automatically pre-written for me.

Fergal: Yep. Smart replies.

Des: Am I right in saying that it's just the mini version in some sense of what we're describing here? Because we were really just going for salutations and maybe ends and maybe handoffs, and the common boilerplate of a support conversation should be there for you. And that, alone, is a productivity boost. But the idea that we could get one degree sharper, and somewhere in the middle of all that boilerplate is, “Here's the meat of the answer,” is where you're talking about going, right?

“We believe its time is coming, and we're trying to figure out the best ways to make people more efficient and to leverage it in a production setting that actually works for people”

Fergal: Yeah, totally. And again, to separate things out – there's just the change in the world, an increased capability, GPT-3.5, and then there's the stuff that we're working on as we grind away on this problem and try to deliver things that will make it better for our customers. I think the capabilities have really improved, but we're still figuring out if we can use this. Is there a shortcut to where we want to go? Maybe we can use these capabilities as building blocks, there are loads of ways to potentially use them as building blocks. But in terms of the direction we were going on already anyway, there are a lot of things agents do such as greetings where it's very obvious. We don't ever want to annoy people. We don't ever want to have an agent read through a bunch of text and then be like, “Oh, that's useless. 왜 그런 짓을 한거야?" It reduces their trust in the system. It slows them down. We want to help them out.

그래서 스마트한 답장을 위해 인사말부터 시작했습니다. 뻔한 일이었을 뿐입니다. 인사를 원할 때가 언제인지 매우 쉽게 알 수 있습니다. 새로운 대화에 참여하고 이전에 최종 사용자에게 아무 말도 하지 않은 경우입니다. 매우 명백합니다. 그것은 낮게 매달린 과일 조각이었습니다. 사람들은 사용자 인터페이스를 정말 좋아했습니다. 쉽고 마찰이 적습니다. 이제 우리는 거기에서 단 하나의 제안만 할 수 있으며 시스템이 말하기 어려운 경우가 있습니다. 현재 이 매크로 흐름이 있고 사람들은 매크로를 많이 사용합니다. 그들은 어떤 매크로를 선택해야 합니다. 이러한 매크로를 사람들에게 사전에 제안해야 합니까? 작곡가를 미리 채우고 싶지 않을 수도 있고 상황에 맞는 몇 가지 매크로 제안을 보여주고 싶을 수도 있습니다. 반복되는 흐름이 많습니다. 우리는 사람들이 겪는 일반적인 단계를 이해하기 위해 흐름 찾기와 같은 작업을 해왔습니다.

큰 메시지는 우리가 이런 종류의 생성 기술이 성가시게 하지 않고 잘못된 정보를 제공하거나 오해를 불러일으키지 않고 확실히 더 많은 작업이나 스트레스를 강요하지 않도록 모양을 만들고 개선해야 한다고 믿는다는 것입니다. 당신이 그것 없이는 것보다. 우리는 때가 오고 있다고 믿으며 사람들을 더 효율적으로 만들고 실제로 사람들을 위해 일하는 생산 환경에서 그것을 활용하는 최선의 방법을 찾으려고 노력하고 있습니다.

지원 이상의 AI-ML

Des: 우리는 지원에 대해 이야기하고 있습니다. 초기에 이것의 가치를 볼 다른 산업은 무엇이라고 생각하십니까? 지원이 이러한 유형의 기술에 대한 대상이 풍부한 환경처럼 느껴지지만 다른 기술이 있습니까?

Fergal: 분명히 우리는 지원에 대해 낙관적입니다. 쓰여진 것들이 너무 많습니다. "아, 상담원이 초기에 이것이 다음과 같은 종류의 문제라는 것을 인식했습니다."와 같은 것입니다. 내 계정을 재설정하는 것과 같은 것입니다. 그 지역에 너무 많은 구조가 있습니다. 실제 고객 문제 구조와 자연어를 잘 다루고 재구성하는 기술이 결합되어 있습니다. 작곡가에 있는 내용을 좀 더 형식적으로 만들기 위해 누를 수 있는 버튼이나 좀 더 미안하게 만들 수 있는 버튼이 보이시죠? 우리는 그것이 현재 매우 흥미로운 분야라고 생각합니다. 나는 완전히 추측에 모든 것을 들어가고 싶지 않습니다. 하지만 그 이전에도 기계 학습 팀은 이 분야에 모두 참여했습니다. 우리는 지원을 크게 믿습니다.

외부 지원, 작업에 구조가 있는 모든 것, 답변이 옳고 그른 때를 분별할 수 있는 인간 승인자. 이것은 이상한 직감처럼 보일 것입니다. 그러나 컴퓨터 과학이나 암호학에서 우리는 답이 맞는지 확인하기는 쉽지만 그 답을 찾기가 어려운 특정 유형의 문제에 주의를 기울입니다. 복잡성 클래스, 그런 모든 종류의 것들. 하지만 네, 사람들은 그런 문제에 관심이 있습니다. 여기에도 비슷한 직관이 있다고 생각하지 않을 수 없습니다. 인간이 답이 맞는지 여부를 확인하는 것은 매우 쉽지만 직접 가서 찾아보고 찾아내는 것은 힘든 문제가 있습니다. 또는 "X, Y에 대한 시를 써 주세요."와 같이 정답이 없기 때문에 팀에서 답이 올바른지 여부에 신경을 쓰지 않을 수도 있습니다.

Des: 답을 검증하는 것은 매우 저렴하지만 생성하는 데는 비용이 많이 들거나 유효한 답이 없는 문제 클래스입니다.

퍼갈: 그리고 대답은 6개월 또는 1년 후에 달라질 수 있습니다. 1년 안에 대답은 "컴퓨터가 답이 맞는지 아닌지 확인할 수 있는 곳이면 언제든지"와 같은 것이 될 수 있습니다. 또는 도메인이 충분히 단순할 때마다 기계 학습 시스템이 정답을 확실히 제공하거나 제공할 가능성이 매우 높을 수 있습니다. 진화하는 것입니다. 당장 한계를 정하기는 어렵다고 생각합니다.

"1월에 무엇을 배송하나요?"

예를 들어 컴퓨터 프로그래밍과 같은 다른 영역. 터미널에 앉아 있는 사람은 어쨌든 코드를 검토해야 하고 그렇게 할 수 있으며 코드 어딘가에 미묘한 버그가 있을 수 있습니다. 때로는 미묘한 버그를 식별하는 것보다 직접 코드를 작성하는 것이 더 쉽습니다. 하지만 많은 경우 컴퓨터 프로그래머의 작업 흐름을 보면 “아, 어떻게 하는지는 알지만 이 라이브러리를 정확히 어떻게 사용하는지 기억이 나지 않습니다. 나는 그것을 위해 Google에 갈거야. 스택 오버플로로 이동하겠습니다.” 그리고 아이디어는 Stack Over에서 3번 답을 보면 “오 그래, 맞아. 그것이 내가 원하는 것입니다.” 프로그래머의 시간을 많이 차지하는 이와 같은 전체 워크플로우가 있고 Copilot이 등장하고 그 주위를 돌고 있습니다. 그런 다음 적합하도록 코드를 다시 포맷합니다. 매우 강력합니다.

우리는 "고객 지원을 위한 Copilot이 무엇입니까?"에 대해 이야기하기 시작했습니다. 프로토타입이 있고 가지고 놀 수 있는 것이 많습니다. 전체 질문에 답하지 않고 두세 단어로 된 답을 주고, 작성한 다음 수정하면 "좀 더 격식 있게, 더 길게, 더 길게, 더 짧습니다.” 그곳에서 우리가 할 수 있는 일이 많다는 느낌이 듭니다.

Des: 1월에는 무엇을 배송하나요?

Fergal: 대화의 이 부분을 검열해야 합니다. 배송해드리겠습니다.

Des: 네, 장담합니다. 괜찮아. 이것은 훌륭했습니다. 온 세상이 다시 바뀌었을 때 2주 후에 우리는 체크인할 것입니다. 하지만 그렇지 않다면 몇 달이 걸릴 수도 있습니다. 매우 감사합니다.

Fergal: 이것이 웹에 올라올 때쯤이면 구식이고 어리석게 보일 것입니다. 하지만 이것이 이 사업의 본질입니다.

데: 물론입니다. 그것이 당신이 작업하는 이유입니다.

퍼갈: 그게 우리가 일하는 이유야. 그건 흥미 롭군.

Resolution-Bot-Ad