Produk Interkom: Bagaimana ChatGPT mengubah segalanya

Diterbitkan: 2022-12-10

Mungkin Anda benar-benar menyukai jaringan saraf yang dalam dan pemrosesan bahasa alami, mungkin Anda hanya seorang penggemar teknologi – kemungkinan besar Anda telah menemukan ChatGPT, chatbot baru OpenAI. Hype meningkat, tetapi pertanyaannya tetap: apakah ini benar-benar pengubah permainan, atau apakah terlalu dini untuk mengatakannya?


Dalam episode baru-baru ini, Direktur Pembelajaran Mesin kami, Fergal Reid, menjelaskan terobosan terbaru dalam teknologi jaringan saraf. Kami mengobrol tentang DALL-E, GPT-3, dan jika hype seputar AI hanya itu atau jika ada sesuatu di dalamnya. Dia memberi tahu kami bahwa hal-hal mulai meningkat. Dan begitu saja, kita melakukannya lagi.

ChatGPT, prototipe chatbot kecerdasan buatan OpenAI, diluncurkan minggu lalu dan telah beredar di aula internet, menginspirasi reaksi kagum dari tekno-positivis fanatik hingga skeptis teknologi abadi. Bot ini ditenagai oleh GPT-3.5, AI penghasil teks, dan menurut OpenAI, ia dapat menghasilkan teks dalam format dialog, yang “memungkinkan untuk menjawab pertanyaan lanjutan, mengakui kesalahannya, menantang premis yang salah, dan menolak permintaan yang tidak pantas.”

Meskipun masih terlalu dini untuk melihatnya diterapkan untuk penggunaan dunia nyata, tidak diragukan lagi itu sangat menjanjikan. Faktanya, bagi Fergal Reid, perubahan kemampuan yang kami lihat selama setahun terakhir menunjukkan bahwa ruang ini bisa “sebesar internet”. Dan inilah mengapa kami memutuskan untuk membawakan Anda episode khusus tentang perkembangan terbaru di dunia AI ini, apa artinya, dan apakah sudah waktunya untuk menerapkannya dalam skenario kehidupan nyata seperti dukungan pelanggan.

Berikut adalah beberapa takeaways favorit kami dari percakapan:

  • Dengan mendorong skala dan melatih model ini dengan lebih banyak data, bot ini mulai menunjukkan perubahan kualitatif seperti mempelajari konsep abstrak tanpa pembelajaran yang diawasi.
  • Saat ini, ChatGPT bekerja paling baik untuk masalah yang mudah memvalidasi jawaban atau konteks kreatif yang tidak memiliki jawaban yang benar.
  • Meskipun kami melihat kemampuan penalaran yang jauh lebih baik dari model ini, mereka masih memiliki masalah dengan halusinasi – jika mereka tidak mengetahui sesuatu, mereka mengada-ada.
  • Jika Anda meminta model ini dengan prompt "mari kita pikirkan langkah demi langkah", tingkat akurasi akan naik dan Anda mendapatkan input yang lebih baik daripada hanya memberikan jawaban secara instan.
  • Antarmuka teknologi kami secara bertahap menjadi lebih komunikatif, dan kami baru mulai melihat kualitas pemahaman bahasa alami menjadi cukup baik untuk membukanya.
  • Ada banyak aplikasi menarik dari teknologi ini untuk mendukung seperti augmentasi agen, tetapi ada pekerjaan yang harus dilakukan sebelum dapat diterapkan.

Jika Anda menikmati diskusi kami, lihat lebih banyak episode podcast kami. Anda dapat mengikuti di iTunes, Spotify, YouTube atau mengambil umpan RSS di pemutar pilihan Anda. Berikut ini adalah transkrip episode yang diedit ringan.


Debut besar ChatGPT

Des Traynor: Hei, Fergal.

Fergal Reid: Hai teman-teman. Bagaimana kabarmu? Terima kasih telah menerima saya kembali.

Des Traynor: Bagus. Senang rasanya kau kembali. Kami memiliki Anda hanya seperti lima minggu yang lalu di podcast untuk membicarakan hal-hal yang terjadi dengan AI. Dan Anda kembali lagi karena lebih banyak hal terjadi.

Fergal Reid: Sudah lima minggu yang sibuk.

Des Traynor: Lima minggu yang sibuk dan tujuh hari yang sibuk. Tujuh hari yang lalu adalah hari Rabu, tanggal 30 November, dan saya mendapat email dengan undangan ke beta terbuka untuk sesuatu yang disebut ChatGPT. Apa yang terjadi?

“Itu menjadi viral, menjadi liar, dan semua orang menjadi sangat bersemangat”

Fergal Reid: Apa yang terjadi? Jadi, ini pertanyaan yang menarik. OpenAI merilis sistem pembelajaran mesin terbaru mereka, sistem AI, dan mereka merilisnya secara terbuka, dan itu adalah ChatGPT. Dan itu sangat mirip dengan penawaran mereka saat ini, GPT-3, GPT-3.5, tetapi dikemas secara berbeda, Anda tidak perlu memasukkan kartu kredit ke dalamnya, dan saya pikir semua orang baru saja melihat bahwa “Wow, ada perubahan kemampuan di sini baru-baru ini.” Dan itu menjadi viral, menjadi liar, dan semua orang menjadi sangat bersemangat. Dan sekitar waktu yang sama, mereka merilis model GPT-3.5 terbaru mereka, seperti davinci-003, yang melakukan banyak hal yang sama, dan mungkin sedikit kurang pandai mengatakan, “Hei, saya model bahasa yang besar dan tidak bisa melakukan itu untukmu.” Tapi itu mirip dalam hal kemampuan.

Des Traynor: Mari kita lakukan beberapa definisi cepat untuk membumikan semua orang. OpenAI jelas merupakan institusi yang melakukan banyak pekerjaan pada AI dan ML. Anda mengatakan GPT: singkatan apa itu?

Fergal Reid: Saya sebenarnya tidak ingat. Transformator tujuan umum atau semacamnya [Generative Pre-Trained Transformer].

Des Traynor: Tapi apakah nama itu ada artinya?

Fergal Reid: Ya, menurut saya bagian kuncinya adalah trafo. Untuk waktu yang lama, orang mencoba mencari tahu, "Hei, apa cara terbaik untuk melatih jaringan saraf yang menangani tugas pemrosesan teks dan bahasa alami?" Dan itu sudah lama, ada LSTM [ingatan jangka pendek panjang] yang menggabungkan struktur jangka pendek teks Anda dengan struktur jangka panjang kalimat Anda, dan model urutan, dan semua orang mengerjakannya .

“Saat Anda mendorong lebih banyak data pelatihan, mereka tampaknya menunjukkan perubahan kualitatif dalam hal apa yang dapat mereka lakukan. Jadi, ini seperti, 'Hei, ini sepertinya mengerti'”

Dan kemudian, Google menerbitkan makalah yang cukup revolusioner, "Attention Is All You Need", dengan tesis yang cukup besar: "Hei, alih-alih model urutan tradisional ini, inilah cara baru untuk melakukannya, model baru," yang mereka sebut model transformator atau arsitektur transformator. Saat Anda melihat kata tertentu, model akan mempelajari bagian lain dari kalimat yang juga harus Anda lihat terkait dengan kata tersebut. Anda dapat mempelajari hal-hal sedikit lebih efisien dibandingkan dengan model urutan, dan Anda dapat melatihnya lebih cepat, lebih efisien, dan menskalakannya lebih jauh.

Jadi, semua orang mulai menggunakan transformer untuk semua jenis data sekuens. Dan kemudian, satu hal yang benar-benar dikontribusikan oleh OpenAI adalah ide bahwa Anda dapat mengambil arsitektur transformator ini dan benar-benar meningkatkan skalanya. Anda dapat menambahkan lebih banyak data pelatihan, dan lebih banyak menghitungnya. Dan mungkin sangat mengejutkan, dan menurut saya ini adalah kuncinya, saat Anda mendorong lebih banyak data pelatihan, mereka tampaknya menunjukkan perubahan kualitatif dalam hal apa yang dapat mereka lakukan. Jadi, ini seperti, "Hei, ini sepertinya memahaminya." Atau saya bisa mengatakan "buat ini lebih bahagia", atau "buat ini lebih sedih", yang merupakan konsep yang sangat abstrak. Itu belajar dari mana? Kami tidak memberikan pembelajaran yang diawasi ini di mana Anda membuat kode dalam definisi kesedihan atau kebahagiaan. Itu baru saja mulai mempelajari konsep abstrak ini dan abstraksi ini dari banyak data pelatihan.

Pada dasarnya, OpenAI dan beberapa lainnya baru saja mendorong bagian penskalaan itu semakin banyak. Ada hal-hal lain juga. Dengan GPT-3.5, mereka melatihnya sedikit berbeda untuk mencoba dan lebih menyelaraskannya. Tapi pada dasarnya, hal besar di sini adalah banyak skala, banyak data pelatihan, dan sebenarnya, jenis model sederhana. Anda dapat melakukan hal-hal luar biasa yang 20 tahun lalu, orang akan berkata, “Komputer tidak akan pernah melakukan ini; itu tidak akan pernah bisa menulis lagu untuk saya,” dan sekarang seperti, “Lagu seperti apa yang kamu suka?” "Buat suaranya lebih bahagia." Jadi, ya, ini waktu yang luar biasa karena banyak hal yang kami pikir hanya domain kecerdasan manusia hanya membutuhkan banyak data pelatihan dan model besar.

Bisakah ChatGPT menjadi kreatif?

Des: Dan kemudian, apa yang terjadi sejak Rabu lalu adalah Twitter – dan kemudian tujuh hari kemudian, internet umum atau media – mengetahui hal ini. Saya telah melihat segala macam penggunaan yang terus terang luar biasa dalam hal saya tidak bisa membayangkan ini mungkin. Saya melihat "tulisi saya instruksi untuk menyalin DVD dengan gaya lagu Taylor Swift di mana dia marah karena dia putus dengan pacarnya" atau semacamnya. Tapi itu benar-benar berhasil. Dan kemudian, saya telah melihat orang lain seperti, "bagaimana Anda menginstal Interkom di iOS" dan itu juga relatif benar. Dan segala sesuatu di antaranya. Dan hal gila yang saya lihat adalah, untuk hal-hal ini, Anda dapat menggandakan kembali dan berkata, "Sekarang, berikan gaya gangster tahun 1940-an dan ucapkan dalam bahasa Jerman," dan "Sekarang terjemahkan bahasa Jerman ke bahasa Spanyol , tetapi juga menambahkan lebih banyak kemarahan, ”atau apa pun. Dan itu melakukan semua hal ini dengan segera, dalam penundaan hampir nol detik, dan dalam semua kasus, Anda dapat melihat apa tujuannya.

Salah satu contoh pribadi yang saya gunakan adalah ketika Anda mencoba menceritakan sebuah cerita kepada anak Anda sebelum tidur, Anda bisa kehabisan sudut pandang. Hanya ada begitu banyak cara berbeda, misalnya, tiga naga bisa masuk ke hutan dan tersesat. Namun, GPT-3 sebenarnya bagus untuk memberi saya 10 cerita lagi. Apa yang saya perhatikan adalah, untuk waktu yang lama, dengan kisah AI, bahkan beberapa tahun yang lalu, orang akan berkata, "Ini bagus untuk hal-hal tertentu, tetapi tidak mungkin mengatasi kreativitas." Apakah adil untuk mengatakan bahwa kita benar-benar berada di dunia terbalik di sini?

Ferga: Iya. Maksud saya, ketika orang berbicara tentang AI, itu selalu, "hal pertama yang akan dilakukan adalah hafalan, tugas manual." Dan kemudian manusia akan memiliki waktu untuk pergi dan melakukan hal-hal yang sangat kreatif ini-

Des: Pergi ke hutan dan-

Fergal: Buat seni sepanjang waktu, puisi yang indah. Dan kemudian, itu seperti, “Oh, wow. Tugas-tugas manual itu membutuhkan penglihatan yang sangat keras dan memproses hal-hal untuk dipecahkan. Tapi kreativitas, di mana tidak ada jawaban yang salah, dan tidak ada hukuman jika salah… Ya, puisinya tidak terlalu sempurna, tapi tidak apa-apa, dan gambar DALL·E 2 yang diberikan mungkin tidak persis seperti yang Anda pikirkan, tapi itu masih gambar yang indah dan Anda dapat memilih 1 dari 10, semuanya berfungsi.

“Benda ini sepertinya sangat bagus dalam bagian intuitif semacam itu, dan sangat bagus dalam membodohi bagian intuitif kita. Jadi kalau dilihat sekilas memang terlihat benar”

Des: Dan Anda juga bisa melihat kegunaannya. Saya pikir satu hal yang tidak disadari orang adalah mengembalikan apa yang mungkin ada di kepala Anda karena Anda akan tetap melihatnya. Saat saya berkata, “Beri saya instruksi untuk membuka rekening bank dengan gaya Lagu Kemarahan Terhadap Mesin,” saya mengerti, “Ya, kami akan berjuang untuk membuka rekening, dan kami akan mengamuk semua malam." Dan saya bisa melihat apa yang dilakukannya. Saya bahkan tidak menerapkan skala akurasi di sana, saya hanya seperti, "Ah, Anda sudah mencobanya," dan Anda memberikan pujian untuk itu.

Fergal: Ya, saya pikir itu mungkin benar. Sejauh mana kita pandai menilai nyaris celaka dalam hal informasi nonfaktual? Mungkin kita tidak begitu pandai dalam hal itu. Mungkin kita tidak terlalu mempedulikannya. Dan maksud saya, kita harus membahas masalah faktual ini, tetapi bahkan ketika Anda mengajukan pertanyaan faktual… Katakanlah Anda mengajukan pertanyaan dukungan pelanggan. Saya bertanya baru-baru ini tentang autentikasi dua faktor, "Bagaimana Anda mengatur ulang autentikasi dua faktor Interkom Anda?" Dan jawaban yang saya dapatkan seperti, "Wow, itu jawaban yang bagus." Dan saya melihatnya dan "tunggu, itu bukan cara Anda mengatur ulang 2FA Anda." Dan itu adalah URL yang indah, memiliki referensi ke artikel pusat bantuan kami, dan itu juga dibuat-buat.

“Saya rasa sebagian besar orang, termasuk diri kita sendiri, yang pikiran mereka meledak, membuat mereka terpesona oleh ide yang masuk akal pada pandangan pertama”

Orang berbicara tentang manusia dan otak manusia, dan kami memiliki bagian intuitif yang sangat bagus dalam mengenali pola, dan kemudian kami memiliki bagian logis, analitis, penalaran yang lebih lambat dan lebih tepat. Hal ini sepertinya sangat bagus dalam bagian intuitif semacam itu, dan sangat bagus dalam membodohi bagian intuitif kita. Jadi ketika Anda melihatnya sekilas, itu terlihat benar, dan sampai Anda benar-benar menerapkan penalaran sistemik Anda yang lebih lambat, akan sulit untuk melihatnya. Dan menurut saya karya intuitif itu, spekulasi itu, mungkin yang lebih kita andalkan untuk menilai upaya kreatif, seni, gambar, dan soneta. Setidaknya pada awalnya. Jadi, sangat bagus dalam menghasilkan hal-hal yang masuk akal pada pandangan pertama, tapi kemudian mungkin, saat Anda benar-benar meluangkan waktu untuk memikirkannya, Anda-

Des: Lihat masalahnya. Dan menjadi masuk akal pada pandangan pertama sangat penting karena menurut saya kebanyakan orang, termasuk diri kita sendiri, yang pikirannya meledak, membuat mereka terpesona oleh gagasan masuk akal pada pandangan pertama. Anda memberikannya banyak pujian untuk itu meskipun faktanya itu mungkin tidak memiliki banyak penerapan di dunia nyata. Anda tidak akan pernah menggantung lukisan itu di museum, dan Anda tidak akan pernah benar-benar membaca soneta apa pun itu, dan Anda tidak akan pernah memenangkan penghargaan untuk novel itu.

Saya melihat banyak orang seperti pemasar konten mengatakan hal-hal seperti, "Ini akan mengubah pekerjaan saya selamanya." Dan saya seperti, “Ya, tapi mungkin tidak seperti yang Anda pikirkan. Jika menurut Anda pekerjaan Anda hanya mengetik prompt dan menekan tab, mungkin pekerjaan Anda tidak ada. Demikian pula, saya melihat manajer di Twitter berkata, "Oh, itu akan membuat musim peninjauan kinerja jauh lebih mudah." Dalam semua kasus ini, saya seperti-

Fergal: Ada yang salah dengan itu.

“Ada kemungkinan bahwa kontribusi yang sangat besar dari teknologi ini bagi umat manusia adalah percakapan jujur ​​​​tentang jumlah pekerjaan yang dapat kita hilangkan”

Des: Tepat. Anda semua mengatakan sedikit diam-diam di sini, jika pekerjaan Anda benar-benar melibatkan Anda menulis BS palsu yang bisa-

Fergal: Mengapa Anda melakukannya?

Des : lagi ngapain? Tepat. Saya mengerti bahwa dalam hal pemasaran konten, mungkin ada alasan mengapa Anda hanya perlu memberi peringkat untuk kata-kata tertentu, tetapi jangan salah mengartikannya sebagai keahlian menulis.

Fergal: Maksud saya, mungkin ini hal yang baik. Mungkin saja pekerjaan omong kosong, hal-hal yang menurut orang tersebut tidak memiliki nilai, seperti ulasan kinerja ini, dapat diserahkan begitu saja ke GPT. Dan kemudian, setelah beberapa saat, semua orang menyadari bahwa itulah yang terjadi, dan orang di sisi lain berkata, "Saya akan menyerahkannya ke GPT untuk menganalisisnya." Dan mungkin kemudian kita bisa berbicara jujur ​​​​tentang kernel apa yang sebenarnya sangat berharga dan bagaimana cara menghilangkan pekerjaan itu.

Des: Mengapa kita melakukan semua omong kosong performatif ini?

Fergal: Ya, mungkin kontribusi yang sangat besar dari teknologi ini bagi umat manusia adalah percakapan yang jujur ​​​​tentang jumlah pekerjaan yang dapat kita hilangkan. Dan itu bisa menjadi luar biasa. Itu bisa berubah secara besar-besaran.

Masalah dengan halusinasi chatbot

Des: Berbicara tentang aplikasi aktual, sesuatu yang ada di pikiran saya, setidaknya pengalaman saya secara langsung, dan bahkan apa yang Anda katakan tentang kasus penggunaan 2FA, apakah Anda tidak dapat menerapkannya secara langsung hari ini di banyak area di mana ada definitif jawaban yang benar, apalagi jika resiko memberikan jawaban yang salah cukup tinggi. Jadi Anda tidak ingin hal ini menghabiskan catatan medis dan mengeluarkan diagnosis karena saya dapat menjamin Anda bahwa diagnosis akan ditulis dengan sangat baik, terdengar sangat dapat dipercaya bagi orang awam, dan mungkin memiliki kemungkinan akurasi yang rendah. Kami tidak tahu kemungkinan akurasinya, tetapi itu akan bervariasi berdasarkan masukan.

Fergal: Saya pasti akan sangat ketakutan jika seseorang mendatangi saya dan berkata, “Hei, Fergal, kami ingin tim Anda mulai menggunakan ini untuk diagnosis medis. Itu akan sangat bagus.” Itu akan sangat menakutkan.

“Satu hal adalah bahwa teknologi ini benar-benar bermasalah dengan apa yang oleh banyak orang disebut halusinasi, di mana jika ia tidak mengetahui sesuatu, ia hanya mengada-ada”

Des: Tetapi ada kasus penggunaan lain yang mungkin kurang serius, tetapi sama tidak akuratnya, di mana Anda dapat menggunakannya untuk mendiagnosis kesimpulan dalam kasus hukum. Sekali lagi, saya yakin itu akan terdengar bagus, dan itu akan membungkusnya dalam semua bahasa boilerplate yang tepat, tetapi pada akhirnya masih tidak benar-benar tahu apa yang dikatakannya. Saya telah memintanya untuk memberi saya ide tentang cara membangun klien email modern untuk bersaing dan menang dalam ruang produktivitas. Dan itu terbaca sangat bagus, tetapi hanya ketika Anda menggaruknya Anda menyadari sebenarnya tidak ada apa-apa di sana. Itu hanya kata-kata yang terdengar bagus setelah kata-kata yang terdengar bagus tanpa opini yang tajam. Itu, bagi saya, membuat saya bertanya-tanya tentang cara kami dapat membuat ini lebih dapat diterapkan.

Fergal: Sebelum kita membahasnya, ada dua hal yang menurut saya berguna untuk digoda di sini. Satu hal adalah bahwa teknologi ini benar-benar bermasalah dengan apa yang oleh banyak orang disebut halusinasi, di mana jika ia tidak mengetahui sesuatu, ia hanya mengada-ada. Itu merusak, dan ada banyak domain di mana 1% kemungkinan halusinasi adalah pemecah kesepakatan. Dan kita semua akan senang jika kemungkinan itu nol. Tetapi pada saat yang sama, keakuratannya telah meningkat dibandingkan dengan yang paling mutakhir setahun yang lalu, dibandingkan dengan tiga tahun yang lalu. Ini benar-benar lebih baik dalam memberi Anda jawaban yang tepat juga. Secara dramatis lebih baik dalam "memahami". Saya berjuang untuk mengatakan, "Oh, itu hanya melakukan pengenalan pola, tidak mengerti apa-apa," atau setidaknya, saya berjuang untuk mengatakannya tanpa, "Apa yang Anda maksud dengan memahami?"

Kami benar-benar berada di lintasan di mana, meskipun masih akan mengada-ada, dan itu adalah masalah besar, semakin baik dan semakin baik dalam memberi Anda jawaban yang benar ketika memiliki jawaban yang benar. Jadi, seperti apa kurva itu? Sulit untuk membongkar saat ini, tetapi kami mendapatkan model yang jauh lebih baik yang jauh lebih baik dalam melakukan hal yang benar sementara terkadang masih melakukan hal yang sangat salah. Kita harus memperhatikan kedua hal itu. Ya, ini sangat sulit untuk diterapkan di banyak pengaturan produksi saat ini, setidaknya tanpa adanya pengaburan atau beberapa biaya di sekitarnya, tetapi ini juga menjadi jauh lebih baik. Jika Anda menanyakan sesuatu yang tercakup dengan sangat baik di Wikipedia, itu akan menjadi lebih baik.

Contoh pamungkas dari ini adalah pemrograman komputer. Anda dapat memintanya untuk tantangan pemrograman yang belum pernah dilihatnya, dan jika Anda memintanya untuk membuat seluruh modul atau sistem, itu agak sulit, Anda memiliki titik puncaknya. Tetapi jika Anda memintanya untuk menulis suatu fungsi, bahkan yang baru, dibuat-buat, di luar sampel, itu mungkin memberi Anda jawaban yang salah, tetapi kemungkinan itu memberi Anda sesuatu yang berguna telah meningkat.

Des: Anda mengatakan sebelumnya, ini pada dasarnya melewati tahap pertama dalam wawancara pemrograman kami, semacam pertanyaan berbasis array. Itu hanya paku itu.

"Semua orang mulai berbicara tentang bagaimana tata bahasa anjing itu tidak terlalu baik, dan itu sangat penting, tetapi jangan lupakan fakta bahwa anjing itu berbicara"

Ferga: Iya. Tepat. Kami memiliki tantangan pemrograman pemecahan masalah bagi para insinyur yang datang ke Intercom. Saya harus duduk sendiri beberapa tahun yang lalu, dan kami berusaha sangat keras untuk memastikan itu tidak tersedia di internet. Dan jika ya, kami mencoba dan mengulang dan mengubahnya. Dan kami tidak terlalu cepat, jadi saya tidak bisa menjamin itu tidak ada. Tapi hal ini menghasilkan solusi yang baru saja berhasil, dan itu adalah masalah "insinyur senior di papan tulis selama setengah jam". Dan itu hanya mendapatkannya dalam satu tembakan, sekali jalan.

Des: Nol detik.

Fergal: Nol detik. Dan itu sangat mengesankan. Dan seperti separuh dunia lainnya, saya juga telah bermain-main dengan ChatGPT atau GPT-3.5, dan saya telah memberinya banyak pertanyaan kompetisi pemrograman atau pertanyaan pemrograman, yang saya yakin tidak masuk akal. , dan itu melakukan pekerjaan yang sangat baik. Dan itu adalah perubahan kualitatif dalam akurasi. Anda harus memeriksa kode Anda dan memastikan itu tidak salah, tetapi itu sangat menarik dan menyenangkan.

Yang sangat menarik juga adalah gagasan bahwa ia memiliki setidaknya kemampuan introspeksi yang belum sempurna. Jika menulis bug, Anda bisa seperti, “Hei, ada bug. Bisakah kamu memperbaikinya?” Dan terkadang, itu memberi Anda penjelasan yang indah tentangnya. Dan semua model ini dilatih untuk melakukan prediksi token; memprediksi beberapa kata berikutnya. Setidaknya secara tradisional, karena saya kira itu sedikit berubah pada tahun lalu, tetapi sebagian besar pelatihan hanya untuk memprediksi token berikutnya, memprediksi kata berikutnya. Dan ada sesuatu yang luar biasa terjadi di sini – hanya dengan melakukan itu dalam skala besar, Anda mencapai tingkat pemahaman tertentu.

Saya tidak ingin itu tersesat dalam diskusi yang lebih luas tentang halusinasi, yang nyata, dan orang-orang mungkin tidak cukup memperhatikannya minggu lalu. Tapi ada metafora ini, dan saya tidak ingat siapa yang membuatnya, tentang anjing yang bisa berbicara, dan seseorang memberi tahu Anda bahwa mereka ingin Anda menemui anjing barunya yang bisa berbicara, dan Anda berkata, “Anjing tidak bisa bicara. ” Tetapi Anda mendapatkan anjing itu dan anjing itu berbicara dengan Anda. Semua orang mulai berbicara tentang bagaimana tata bahasa anjing itu tidak terlalu baik, dan itu sangat penting, tetapi jangan lupakan fakta bahwa anjing itu berbicara. Hal halusinasi bagi saya adalah itu. Ini terasa seperti perubahan besar – mungkin tidak satu pun yang dapat kami produksi, tetapi siapa yang tahu di mana itu akan terjadi dalam satu tahun, dua tahun, atau tiga tahun.

“Ini seperti mobil self-driving, kan? Anda harus siap untuk mengambil alih kapan saja”

Des: Ya, hal halusinasi, bagi saya, tidak membuatnya sia-sia sama sekali. Dan mari kita pesimis dan mengatakan bahwa dengan deskripsi lima paragraf tentang seorang pasien, ini dapat memberi Anda diagnosis akurat 70% dengan segera. Dan di sebagian besar pertanyaan diagnosis tersebut, ada beberapa tes cepat yang dapat memverifikasi apakah itu benar atau tidak, seperti dalam, "Sepertinya Anda memiliki X, inilah tes cepat untuk X," dan ternyata benar atau salah – itu masih merupakan perubahan produktivitas besar-besaran. Jika kita menganggap benda itu masih cacat tetapi mencoba memanfaatkan akurasi 70%, mungkin masih ada hal-hal yang dapat dilakukannya yang akan sangat berharga.

Fergal: Saya punya dua pemikiran tentang itu. Pikiran pertama adalah seseorang perlu mempelajarinya karena mungkin hal ini negatif total, bahwa sistem baru dengan manusia dalam lingkaran, dokter dan AI, memiliki kemungkinan lebih tinggi untuk kesalahan katastropik karena lelah, terlalu banyak bekerja dokter terkadang tidak melakukan ketekunannya, tetapi ada sistem yang menarik namun salah di depan mereka. Ini seperti mobil self-driving, bukan? Anda harus siap untuk mengambil alih kapan saja. Mungkin ada area di rezim itu di mana sistem secara keseluruhan dengan manusia sebenarnya lebih buruk dari sekedar-

Des: Orang sebenarnya bisa terlalu percaya.

Fergal: Orang bisa terlalu percaya. Mereka menyebutnya apa? Normalisasi penyimpangan. Orang-orang mempelajari ini dalam konteks bencana reaktor nuklir dan sebagainya. Apa yang salah? “Oh, kami sudah terbiasa dengan pintasan ini, dan pintasan itu tidak selalu valid,” dan lain-lain. Itu satu hal yang akan saya katakan. Tapi kemudian, tandingannya, ketika kita memikirkan hal-hal medis, adalah bahwa sebagian dunia tidak memiliki akses ke dokter. Jadi saya tidak tahu di mana harus menggambar batas itu. Ini adalah batas yang sulit untuk digambar. Pada akhirnya, di lintasan, hal ini mungkin akan menjadi lebih baik dan lebih baik, dan cukup baik sehingga, pada akhirnya, secara keseluruhan, sistem ini mengungguli apa pun yang dimiliki orang saat ini.

Latih chatbot selangkah demi selangkah

Des: Anda mengatakan bahwa saat menghasilkan kode, Anda dapat mengatakan, "Hei, itu boogie." Contoh lain yang saya lihat yang populer di Twitter untuk sementara waktu adalah "Bicarakan saya melalui pemikiran Anda baris demi baris," atau apa pun. Ini hampir seperti Anda memberi tahu cara memikirkan berbagai hal, atau Anda memberinya informasi baru dan kemudian tidak memaksanya untuk mempertimbangkan kembali pendapatnya. Apa yang terjadi di sana?

Fergal: Saya pikir ada sesuatu yang menarik terjadi di sana, dan kita harus berbicara langsung di sini. Ini spekulasi dan saya adalah penonton – saya tidak melakukan pekerjaan ini. Saya pikir Google menerbitkan makalah baru-baru ini tentang seberapa besar model bahasa dapat meningkatkan diri, jadi saya pikir ada sesuatu yang menarik di sana yang perlu dibongkar.

Hal pertama adalah bahwa mungkin sekitar setahun yang lalu, orang-orang menemukan bahwa meskipun model ini sering melakukan kesalahan, Anda dapat mendorong mereka dengan kalimat klasik "mari berpikir langkah demi langkah". Anda akan memiliki model dan dapat mengajukan pertanyaan matematika sederhana seperti "Alice dan Bob mendapat tiga batang coklat dan mereka memberikan tiga untuk Hawa," atau sesuatu seperti itu. "Berapa banyak yang tersisa?" Hal-hal ini bergumul dengan matematika dasar, jadi sering terjadi kesalahan seperti itu. Tapi Anda bisa mengatakan sesuatu seperti, "Mari kita berpikir selangkah demi selangkah," dan itu memaksanya untuk mengeluarkan alasannya selangkah demi selangkah. Dan tingkat akurasi naik ketika Anda melakukan itu, yang masuk akal. Ini dilatih untuk melengkapi teks. Jadi, selangkah demi selangkah, setiap langkah dirancang …

Des: Sepertinya Anda tidak melipatgandakan kemungkinan kegagalan. Karena itu, jika Anda menjalankan setiap langkah dengan kemungkinan benar 90%, dan pada lima langkah, tiba-tiba, kemungkinannya hanya 50% benar.

Fergal: Mungkin. Maksud saya, sulit untuk berspekulasi tentang apa yang sebenarnya terjadi secara internal, tetapi mungkin seperti itu. Tapi ada makalah yang sangat menarik baru-baru ini di mana itu seperti, "Hei, kami tahu kami dapat meningkatkan akurasi dengan mengatakan, 'mari berpikir langkah demi langkah.'" Dan kami dapat menggunakannya untuk mendapatkan hasil yang lebih baik daripada hanya memilikinya secara intuitif, langsung memberikan jawabannya. Anda dapat menggunakannya untuk membuat kumpulan data pelatihan baru dan melatih ulang model untuk meningkatkan akurasinya. Bagi saya, itu menarik karena hal-hal ini dapat memperbaiki diri, setidaknya sampai taraf tertentu.

“Ada dunia yang sangat menarik di sini di mana model bahasa dan NLP mulai sedikit mirip dengan dunia AlphaGo. Saya pikir ini adalah waktu yang sangat menyenangkan dan sangat sulit untuk mengatakan batasannya di sini ”

Saya melihat demo baru-baru ini di acara Microsoft di mana mereka menunjukkan Copilot atau salah satu model itu, mungkin davinci, mereka tidak menentukan, melakukan sesuatu dengan perintah Python di mana mereka memberikannya masalah bahasa alami, sedikit seperti masalah pemrograman Interkom kami , dan kemudian meminta sistem untuk mensintesis kode dan memasukkan kode ke prompt Python, dan ketika itu salah, sistem mencoba mengeksekusi kode dan melihat itu salah, jadi perlu lagi dan lagi sampai mendapatkannya Baik. Ada dunia yang sangat menarik di sini di mana model bahasa dan NLP mulai sedikit mirip dengan dunia AlphaGo. Saya pikir ini adalah waktu yang sangat menyenangkan dan sangat sulit untuk mengatakan batasannya di sini.

Saya pikir ada banyak hal yang, untuk waktu yang lama, orang-orang di bidang linguistik atau semacamnya akan berkata, "Dalam AI, kami tidak akan pernah bisa menjawabnya dengan skema besar," atau semacamnya. Seperti “Traktor melewati jalan dan berbelok ke lapangan. Tolong jelaskan apa yang terjadi dalam lelucon itu.” Komputer buruk dalam hal itu secara historis. "Traktor ajaib itu menyusuri jalan dan berubah menjadi ladang." Pengubah kecil seperti itu mengubah artinya. Dan itu menjadi sangat bagus di beberapa domain. Anda dapat mengajukan pertanyaan semantik dasar atau memintanya untuk berspekulasi. Sampai sekitar dua atau tiga tahun yang lalu, setiap kali saya melihat sistem pembelajaran mesin baru, itu selalu terlihat ajaib dan menakjubkan pada awalnya, dan setiap kali Anda masuk ke dalamnya dan di balik tudungnya, Anda seperti, “Oh, itu hanya regresi logistik .” Begitu saya mengerti itu, itu jauh lebih tidak mengesankan. Dan saya berjuang untuk melakukannya di sini. Mungkin itu karena sangat sulit untuk memahami kompleksitas modelnya. Tetapi hal-hal ini terasa seperti kemampuan yang berbeda secara kualitatif dari yang kami miliki.

Bot AI versus Google

Des: Sebelum kita masuk ke dukungan, yang akan kita selami lebih dalam, saya telah melihat komentar yang mengatakan ini adalah momen besar untuk internet seperti Google. Saya juga pernah melihat, menurut saya, pengambilan air dingin, yaitu, "jangan tertipu, membuat lirik lagu secara acak adalah tipu muslihat yang terbaik." Dan jelas ada spektrum selera tergantung pada apakah Anda seorang tekno-positivis atau apa pun. Apa pendapat Anda tentang Google? Apakah ini berpotensi sebesar Google? Apakah ini ancaman bagi Google? Pemikiran tentang bagaimana reaksi Google?

Fergal: Jadi, saya akan sangat spekulatif di sini, memasuki futurisme total dan semacamnya. Saya sangat optimis tentang AI dan pembelajaran mesin. Saya merasa bahwa perubahan kemampuan yang telah kita lihat selama setahun terakhir, dan tentu saja jika Anda memperkirakan satu atau dua tahun ke depan, sebesar internet. Potensi. Dan kita harus mencari cara untuk menghasilkan hal-hal ini. Banyak pekerjaan harus dilakukan tentang bagaimana Anda membatasi mereka untuk menjawab dari basis pengetahuan dan sebagainya. Namun jumlah total kemampuan baru yang kami miliki dan kemungkinan besar akan kami rasakan, bagi saya, sebesar internet. Saya mungkin salah, tapi di situlah saya akan-

Des: Itu urutan besarnya. Jadi, lebih besar dari Google.

“Saya pikir ini adalah momen Sputnik – orang akan melihat ini dan berkata, Wow, ada sesuatu yang tiba di sini”

Fergal: Ya, saya kira begitu. Bukan hanya ChatGPT yang baru saja keluar minggu lalu. Tetapi kemajuan total terasa seperti kita melihat kemampuan penalaran yang jauh lebih baik, penalaran dasar dan penalaran yang bisa salah, tetapi terkadang cukup menarik. Saya tidak akan percaya jika Anda memberi tahu saya tentang keberhasilannya dalam tantangan pemrograman lima tahun lalu. Jadi saya pikir ada sesuatu yang besar di sini. Ada banyak produktivitas yang dapat dibuka, dan sangat sulit untuk mengatakan di mana itu akan berhenti. Dan juga, saya pikir ada putaran umpan balik di sini. Saya merasa ini adalah momen Sputnik. Dengan ChatGPT, Anda dapat mengatakan, "Hei, teknologinya tidak jauh lebih baik", atau "terlalu berlebihan", tetapi jangan meremehkan kemampuan gesekan rendah untuk dapat masuk dan bermain dengan sesuatu. Semua orang bisa melakukan itu. Dan saya pikir ini adalah momen Sputnik – orang akan melihat ini dan berkata, "Wow, ada sesuatu yang tiba di sini."

Des: Referensi Sputnik di sini, maaf.

Fergal: Ini, Tuhanku, di tahun lima puluhan. Rusia menempatkan satelit ini di luar angkasa yang mengorbit bumi dan menyiarkan sinyal radio. Dan orang-orang di seluruh dunia dapat tiba-tiba menyetel radio mereka dan mendapatkan sinyal ini dari Sputnik. Dan inilah narasi yang umumnya diceritakan di barat. Orang-orang tiba-tiba terbangun dan berkata, "Wow, ada perubahan kemampuan di sini yang tidak kami sadari." Dan kemudian, konon, ini menyebabkan perlombaan antariksa dan Apollo dan semua itu. Jadi saya merasa mungkin reaksinya masih terjadi, tetapi saya melihat begitu banyak orang yang tidak terlalu memperhatikan hal ini yang tiba-tiba bersemangat. Mungkin hype akan mereda. Kami berada di tengah-tengahnya, jadi sulit diprediksi. Tetapi jika bukan ini, sesuatu yang lain akan segera terjadi.

Bisakah ChatGPT memberdayakan dukungan pelanggan?

Des: Bagaimana dengan dukungan pelanggan? Interkom adalah platform dukungan pelanggan, dan potensi GPTChat, GPT-3.5, atau salah satu dari teknologi ini dapat membuat dukungan menjadi lebih baik, lebih cepat, lebih murah, lebih sukses, atau lebih end-to-end adalah sesuatu yang selalu ada di mana-mana. Saya tahu Anda telah memikirkan hal ini dari sudut pandang dukungan. Sebelumnya, kita berbicara tentang bagaimana ada lingkungan di mana jawaban yang salah sangat, sangat buruk, dan ada lingkungan di mana sebenarnya cukup dapat ditoleransi. Kami memiliki 25.000 pelanggan. Beberapa adalah bank, yang mungkin tidak mampu membelinya. Orang lain dengan senang hati akan membelinya karena itu berarti mereka dapat mendukung semua pelanggan mereka lebih cepat. What do you think about this technology as it applies to support?

“We made a conscious design decision very early on that it would never say anything that hadn't been explicitly curated by the team”

Fergal: Yeah. We try and pay a lot of attention to changes in developments in this space. We were looking at GPT-3 pretty early, and our initial thoughts were that the accuracy was not quite there yet. The hallucination problem is a big problem to just nakedly say, “Hey, it has consumed the Intercom help center. Let's ask questions about resetting my two-factor authentication.” It just failed. We've been looking at the GPT-3.5 family and some other models recently. We have resolution bots in production. It's not using language models that are as large – they're maybe medium language models, embeddings, and so on. And it gets very good accuracy at the sort of thing it does. We made a conscious design decision very early on that it would never say anything that hadn't been explicitly curated by the team. I think that worked well for a lot of businesses because it might deliver the wrong answer sometimes – we try carefully to control that – but it's always going to deliver you a relevant answer or an answer that's not going to mislead you.

Des: Yeah, and specifically, the way in which it gets it wrong is it might give you a wrong correct answer. The thing it gives you will be something that somebody in your company has said: “This is a correct, cohesive piece of text.” It just might not be the right one for the question.

Fergal: And we encourage our customers to always write the answer in such a way that, “Oh, to reset your account, do the following thing.” So if it is delivered wrongly, at least the end user is not disoriented.

Des: Yes, they don't go and do it for no reason.

Fergal: They can go like, “Oh, this is a stupid bot. It gave me the wrong answer,” as opposed to, “I am misled, and I'm now going to waste a bunch of time…” So initially, with GPT-3, we were like, “Oh, it's really cool but difficult to see the end-to-end usage of this.” It's been a couple of years, and I'm not aware of anyone who has deployed GPT-3 in a total end-to-end way to answer the customer's questions.

Des: End-to-end meaning no agent in the mix. Because the risk there is that there'll be an unknown unknown. If someone goes to your business and asks a question that you didn't see because GPT dealt with it, gave it the wrong answer, and the customer goes off and does the wrong thing, no one actually knows what's happened except for the bot. And the bot doesn't even know it's wrong because it doesn't know if it's spoofing or not. So you end up in a potentially dangerous world.

Fergal: Exactly, and we've quite carefully designed the resolution bot to avoid getting into those situations. We calibrate it, we check that, when it says something helped the customer, it did help the customer, and we have ways of checking that between explicit and implicit customer feedback. But it's conservatively designed.

“The probability of giving the wrong answer and totally making stuff up is too high, at least to use it for end users in a naked way”

At some point, these open domain question-answering things or something you could build on the top of GPT-3.5 will get good enough that, for a certain portion of our customers, that equation changes where it's like, “Hey, I'm not answering medically critical things,” and the inaccuracy rate has fallen. It was 90% accurate; now it's 99% accurate; now it's 99.9%. How commonly it gives you the wrong answer will eventually fall below the critical threshold where it's like, “Hey, just being able to take this out of the box is worth it. I don't have to go and curate these answers.” So that will probably come. When will that come, is it here today, or has it come in the last few weeks with davinci-003 and ChatGPT is obviously something we've been assessing.

And it's certainly a work in progress because you always have to go and play with the prompts. When you interface with ChatGPT or GPT-3, we could take an end user's question and ramp it in something that says, “Hey, you're a very conservative customer support agent. If you don't know something or you're not completely sure, you always say, 'I don't know,'” and you reason with it step by step, and you're super conservative, and maybe we can wrap it to get the benefit of the deeper natural language understanding, which these models have, and the deeper ability to synthesize and rewrite text, which can be beautiful. It can be really nice. Maybe we can get those benefits and constrain the hallucinations and the errors enough.

Des: Is that another version of walking through this line by line?

Fergal: Yeah.

Des: Is that whole field what people call prompt engineering?

Fergal: Prompt engineering. We're joking that the machine learning team at Intercom is going to be a prompt engineering team, and we're joking about that as we play with it. But there are people who really sweat the prompts and have gotten really good at prompt engineering. It's a real thing, and it makes it difficult to say, “Oh, this new tech is definitely not good enough,” because what will the best prompts be in six months? That said, we don't think it's here yet. All the prompt engineering we've done on davinci in the last week can get it to be more conservative, but not enough. The probability of giving the wrong answer and totally making stuff up is too high, at least to use it for end users in a naked way.

Support agent augmentation

Des: We talked earlier about the doctor augmentation question. Is there a version of it where you can do it from the agent augmentation question?

Fergal: Well, at Intercom, we've been thinking about this area very deeply for an extended period, and in the last few months, we have had internal discussions about the future of the customer support inbox and generative models – models that generate stuff as opposed to just classify things – and we believe that their time is coming for support augmentation, and I think that seeing ChatGPT explode recently and all the excitement about it is evidence of that. It's evidence that these things are getting good. And there are a lot of things you can do in the inbox or in a context like the inbox to constrain and sand off the rougher edges of these things.

An example might be to curate the responses it's allowed to give and use the generative model to predict what should happen, but only actually allow the suggestion to present to the teammate, like a macro or a conversation response, and hopefully provide a beautiful interface to make it easy for them. Alternatively, to have it go and search for a new knowledge base, and there are techniques you can use to try and constrain it to that. And then, maybe show, “This is the answer that our bot wrote from your knowledge base,” and side by side with that, “Here is the original source article,” so that the customer support rep can look at them side by side-

Des: And see if it adds up.

Fergal: Yeah, and see if it adds up.

“They have to go and find the article themselves, then they have to read it and check the answer, and then they have to copy paste it and reformat it. So maybe there's a productivity boost”

Des: So there's an angle where the AI explains its epistemological basis for how it concludes this. And in that world, if you're a support rep, you don't even need to know if it's actually right – you just need to know if the logic stacks up. Obviously, it'd be better if you knew if it was right, as well. But if it says, “Hey, I read how to reset a 2FA article linked here. I suggest that this is how you reset 2FA,” you're probably, “That's the right article to read.”

Fergal: The problem is that when they get it wrong, they're so good at seeming right that they'll-

Des: Invent the idea of the article.

Fergal: Yeah, yeah, totally. And so, you might need to go beyond that. You might need to have the untrusted part of the interface, which is maybe the composer, and it pre-fills something, and there's also a trusted part of the interface beside that, maybe just above it, that shows the original source article, the relevant paragraph. And so, you can look at both.

Obviously, we study customer support flow very carefully and closely, and we absolutely have some support agents where it's like, “Okay, I got the question,” and they have to go and find an article themselves. Some expert ones know it, they're instantly there, and they know exactly where to go. Maybe they've got a macro that does it, but then maybe someone who's newer in the company and they're still being trained in, or maybe it's only part of their job, they have to go and find the article themselves, then they have to read it and check the answer, and then they have to copy paste it and reformat it. So maybe there's a productivity boost. Maybe you can make someone twice as efficient or something.

Des: All that agent behavior will also inform the system. If you put it live and agents are forever going “Wrong, right, wrong, right,” all that feeds back in, and then it gets better. Or, if they're rewriting the answer to be more accurate, I assume we can learn from that. And then, very quickly, the system converges on all the right answers.

“There are a lot of trade-offs. It's very easy to say we want a system that will learn in production. But then it's like okay, who has to maintain that? Who has to debug that?”

Fergal: We could certainly build a system that does all of those things. GPT-3.5 won't nakedly do it. If you decide to build on it as a building block, not even an assessment, is that the right system to build on? Its capability is very good, but it's not the only generative model in town. But whatever we build on, and we're getting really into the roadmap, we would potentially build a learning loop. With most of our tech at the moment where we do that, we absolutely gather feedback. There are some parts of the resolution bot like predictive answers, where it predicts things to end users, where it actually does use what the users say, like, “that helps” as a training signal, and potentially we can end up building that.

There are a lot of trade-offs. It's very easy to say, “We want a system that will learn in production. But then it's like, “Okay, who has to maintain that? Who has to debug that?” Sometimes it's easier to get it to a stable stage and then lock it. So, it depends. We did metrics and analytics whenever we upgrade. We're getting into the details of our models and how we check the accuracy and calibrate them, and stuff.

Des: I know our inbox has this feature where, based on what you've said before, if I jump in the inbox, before I've said anything to try and start a conversation, it'll say, “Hey, I'm Des, co-founder of Intercom, thrilled to be chatting with you.” Whatever my most common thing is, that's automatically pre-written for me.

Fergal: Yep. Smart replies.

Des: Am I right in saying that it's just the mini version in some sense of what we're describing here? Because we were really just going for salutations and maybe ends and maybe handoffs, and the common boilerplate of a support conversation should be there for you. And that, alone, is a productivity boost. But the idea that we could get one degree sharper, and somewhere in the middle of all that boilerplate is, “Here's the meat of the answer,” is where you're talking about going, right?

“We believe its time is coming, and we're trying to figure out the best ways to make people more efficient and to leverage it in a production setting that actually works for people”

Fergal: Yeah, totally. And again, to separate things out – there's just the change in the world, an increased capability, GPT-3.5, and then there's the stuff that we're working on as we grind away on this problem and try to deliver things that will make it better for our customers. I think the capabilities have really improved, but we're still figuring out if we can use this. Is there a shortcut to where we want to go? Maybe we can use these capabilities as building blocks, there are loads of ways to potentially use them as building blocks. But in terms of the direction we were going on already anyway, there are a lot of things agents do such as greetings where it's very obvious. We don't ever want to annoy people. We don't ever want to have an agent read through a bunch of text and then be like, “Oh, that's useless. Why did you do that?” It reduces their trust in the system. It slows them down. We want to help them out.

Jadi, untuk balasan cerdas, kami memulai dengan salam. Itu hanya hal yang jelas untuk dilakukan. Kami dapat dengan mudah mengetahui kapan Anda mungkin ingin menyapa – Anda masuk ke percakapan baru dan tidak ada yang mengatakan apa pun kepada pengguna akhir sebelumnya. Ini sangat jelas. Itu adalah buah yang tergantung rendah. Orang-orang sangat menyukai antarmuka pengguna. Mudah, dan gesekannya rendah. Sekarang, kami hanya dapat membuat satu saran di sana, dan ada kalanya sulit bagi sistem untuk mengatakannya. Saat ini, kami memiliki aliran makro ini, dan banyak orang menggunakan makro. Mereka harus memilih makro yang mana. Haruskah kita menyarankan makro tersebut kepada orang-orang secara proaktif? Mungkin kita tidak ingin mengisi komposer terlebih dahulu, mungkin kita hanya ingin menampilkan beberapa saran makro yang kontekstual. Ada banyak aliran yang berulang-ulang. Kami telah mengerjakan hal-hal seperti pencarian aliran, mencoba memahami langkah-langkah umum yang dilalui orang.

Saya kira pesan besarnya adalah kami percaya bahwa teknologi generatif semacam ini perlu dibentuk dan dibuat baik agar tidak mengganggu, sehingga tidak memberi Anda hal yang salah dan menyesatkan Anda, dan tentu saja tidak mendorong lebih banyak pekerjaan atau stres pada Anda. daripada yang akan Anda miliki tanpanya. Kami percaya waktunya akan tiba, dan kami mencoba mencari cara terbaik untuk membuat orang lebih efisien dan memanfaatkannya dalam pengaturan produksi yang benar-benar sesuai untuk orang-orang.

AI-ML di luar dukungan

Des: Kita berbicara tentang dukungan. Menurut Anda, industri lain apa yang akan melihat nilai ini di masa-masa awal? Sepertinya dukungan adalah lingkungan yang kaya akan target untuk jenis teknologi ini, tetapi apakah ada yang lain?

Fergal: Jelas, kami bullish pada support. Ada begitu banyak hal yang ditulis. Ini seperti, "Oh, agen sejak awal menyadari bahwa ini adalah masalah seperti berikut," seperti menyetel ulang akun saya atau semacamnya. Ada begitu banyak struktur di area itu. Ada kombinasi antara struktur masalah pelanggan nyata dengan teknologi yang sangat bagus dalam menangani bahasa alami dan membentuknya kembali. Kami dapat melihat tombol yang dapat Anda tekan untuk membuat apa yang ada di komposer menjadi lebih formal, atau tombol untuk membuatnya lebih menyesal, bukan? Kami pikir ini adalah area yang sangat, sangat menarik saat ini. Saya tidak ingin membahas semuanya secara spekulatif. Tetapi bahkan sebelum ini, tim pembelajaran mesin semuanya ada di area ini. Kami sangat percaya pada dukungan.

Dukungan dari luar, apa pun yang memiliki struktur dalam tugas dan penyetuju manusia yang dapat mengetahui kapan sebuah jawaban benar atau salah. Ini akan tampak seperti intuisi yang aneh, tetapi dalam ilmu komputer atau kriptografi, kami memperhatikan jenis masalah tertentu di mana mudah untuk memverifikasi jawaban yang benar, tetapi sulit untuk pergi dan menemukan jawaban itu. Kelas kompleksitas, semua hal semacam itu. Tapi ya, orang tertarik dengan masalah seperti itu. Saya tidak bisa tidak berpikir ada intuisi serupa di sini. Anda memiliki tantangan di mana cukup mudah bagi manusia untuk memverifikasi apakah suatu jawaban benar atau tidak, tetapi melelahkan bagi mereka untuk pergi dan mencarinya dan memancingnya. Atau mungkin tim tidak peduli apakah jawabannya cukup benar karena tidak ada yang benar, seperti, “Tuliskan aku puisi tentang X, Y.”

Des: Kelas masalah di mana memvalidasi jawabannya sangat murah tetapi membuatnya sangat mahal, atau tidak ada jawaban yang valid.

Fergal: Dan juga, jawabannya mungkin berbeda dalam enam bulan atau satu tahun. Bisa jadi dalam setahun, jawabannya bisa lebih seperti, “Kapan saja di mana komputer dapat memeriksa apakah jawabannya benar atau tidak.” Atau bisa jadi kapan pun domainnya cukup sederhana, sistem pembelajaran mesin pasti akan memberi Anda atau kemungkinan besar memberi Anda jawaban yang tepat. Ini adalah hal yang berkembang. Saya pikir sulit untuk menetapkan batasan saat ini.

"Apa yang kita kirim di bulan Januari?"

Domain lain seperti pemrograman komputer, misalnya. Orang yang duduk di sana di terminal mereka tetap harus meninjau kodenya, dan mereka dapat melakukannya, dan mungkin ada bug halus di suatu tempat di kode Anda. Terkadang lebih mudah menulis kode sendiri daripada mengidentifikasi bug halus. Namun sering kali, jika Anda melihat alur kerja pemrogram komputer, ini seperti, “Oh, saya tahu cara melakukannya, tetapi saya tidak ingat persis cara menggunakan pustaka ini. Saya akan pergi ke Google untuk itu. Saya akan pergi ke Stack overflow. Dan idenya adalah saat Anda melihat jawaban nomor tiga di Stack Over, Anda akan seperti, “Oh ya, benar. Itu yang saya mau." Ada seluruh alur kerja seperti itu yang menghabiskan banyak waktu programmer, dan Copilot itu datang dan ada akhirnya. Dan kemudian memformat ulang kode agar sesuai. Itu sangat kuat.

Kami mulai berbicara tentang, "Apa yang dimaksud dengan Copilot untuk dukungan pelanggan?" Kami memiliki prototipe dan ada banyak hal yang dapat Anda mainkan. Mungkin Anda tidak menjawab pertanyaan lengkap, Anda hanya memberikan jawaban dua atau tiga kata, menuliskannya, dan kemudian Anda memodifikasinya, dan Anda seperti, “Buat lebih formal, buat lebih panjang, buat yang lebih pendek.” Rasanya banyak yang bisa kita lakukan di sana.

Des: Dan apa yang kami kirim di bulan Januari?

Fergal: Harus menyensor bagian percakapan ini. Kami akan mengirimkan sesuatu.

Des: Ya, saya bertaruh. Oke. Ini luar biasa. Kami akan check-in, saya kira, dalam dua minggu lagi ketika semua dunia berubah lagi. Tapi kalau tidak, bisa beberapa bulan. Terima kasih banyak.

Fergal: Pada saat ini muncul di web, saya yakin ini sudah ketinggalan zaman dan terlihat bodoh. Tapi itulah sifat dari bisnis ini.

Des: Tentu saja. Itu sebabnya Anda sedang mengerjakannya.

Fergal: Itu sebabnya kami bekerja. Ini mengasyikkan.

Resolusi-Bot-Iklan