الاتصال الداخلي على المنتج: كيف غيّرت ChatGPT كل شيء
نشرت: 2022-12-10ربما تكون حقًا في الشبكات العصبية العميقة ومعالجة اللغة الطبيعية ، وربما تكون مجرد متحمس للتكنولوجيا - من المحتمل أنك قد تعثرت بالفعل عبر ChatGPT ، برنامج الدردشة الآلي الجديد لـ OpenAI. الضجيج آخذ في الازدياد ، لكن يبقى السؤال: هل حقًا سيغير قواعد اللعبة ، أم أنه من السابق لأوانه معرفة ذلك؟
في حلقة حديثة ، ألقى مدير التعلم الآلي لدينا ، Fergal Reid ، بعض الضوء على أحدث الإنجازات في تكنولوجيا الشبكة العصبية. تحدثنا حول DALL-E و GPT-3 وما إذا كان الضجيج المحيط بالذكاء الاصطناعي هو ذلك فقط أو إذا كان هناك شيء ما. أخبرنا أن الأمور بدأت في التوسع. وبهذه الطريقة ، نحن في ذلك مرة أخرى.
تم إطلاق ChatGPT ، النموذج الأولي لشات روبوت الذكاء الاصطناعي الخاص بـ OpenAI ، الأسبوع الماضي وكان يقوم بجولات في قاعات الإنترنت ، مما يلهم ردود فعل مذهلة من التقنيين الوضعيين المتعصبين إلى المشككين التقنيين الدائمين. يتم تشغيل الروبوت بواسطة GPT-3.5 ، وهو AI لإنشاء النصوص ، ووفقًا لـ OpenAI ، يمكنه إنشاء نص بتنسيق حوار ، مما "يجعل من الممكن الإجابة على أسئلة المتابعة ، والاعتراف بأخطائها ، وتحدي المباني غير الصحيحة ، و رفض الطلبات غير الملائمة ".
على الرغم من أنه لا يزال من المبكر رؤيته مطبقًا للاستخدامات الواقعية ، إلا أنه بلا شك واعد جدًا. في الواقع ، بالنسبة إلى Fergal Reid ، يشير التغيير في القدرة الذي شهدناه خلال العام الماضي إلى أن هذا الفضاء يمكن أن يكون "كبيرًا مثل الإنترنت." ولهذا السبب قررنا أن نقدم لك حلقة خاصة حول هذه التطورات الأخيرة في عالم الذكاء الاصطناعي ، وما تعنيه ، وما إذا كان الوقت قد حان لتطبيقها في سيناريوهات الحياة الواقعية مثل دعم العملاء.
فيما يلي بعض النقاط السريعة المفضلة لدينا من المحادثة:
- من خلال دفع المقياس وتدريب هذه النماذج بمزيد من البيانات ، بدأت هذه الروبوتات في إظهار تغييرات نوعية مثل تعلم المفاهيم المجردة دون التعلم الخاضع للإشراف.
- في الوقت الحالي ، يعمل ChatGPT بشكل أفضل في المشكلات حيث يكون من السهل التحقق من صحة الإجابة أو السياقات الإبداعية حيث لا يوجد شيء مثل الإجابة الصحيحة.
- بينما نرى قدرات تفكير أفضل بشكل كبير من هذه النماذج ، لا يزال لديهم مشاكل مع الهلوسة - إذا كانوا لا يعرفون شيئًا ، فإنهم يصنعونه.
- إذا قمت بتحفيز هذه النماذج بالموجه "دعنا نفكر خطوة بخطوة" ، ترتفع معدلات الدقة وتحصل على مدخلات أفضل من مجرد جعلها تعطي الإجابة على الفور.
- أصبحت واجهات التكنولوجيا الخاصة بنا تدريجيًا أكثر تخاطبًا ، وقد بدأنا للتو في رؤية جودة فهم اللغة الطبيعية تصبح جيدة بما يكفي لفتحها.
- هناك العديد من التطبيقات المثيرة لهذه التقنية في الدعم مثل زيادة الوكيل ، ولكن هناك عمل يجب القيام به قبل أن يتم نشرها.
إذا كنت تستمتع بمناقشتنا ، فاطلع على المزيد من حلقات البودكاست الخاص بنا. يمكنك المتابعة على iTunes أو Spotify أو YouTube أو الحصول على موجز RSS في المشغل الذي تختاره. ما يلي هو نسخة منقحة قليلاً من الحلقة.
الظهور الكبير لأول مرة في ChatGPT
ديس تراينور: مرحبًا ، فيرجال.
فيرغال ريد: مرحبًا يا رفاق. كيف تجري الامور؟ شكرا لاستضافتي
دي تراينور: جيد. من الجيد عودتك. لقد جعلناك منذ خمسة أسابيع فقط في البودكاست تتحدث عن الأشياء التي كانت تحدث مع الذكاء الاصطناعي. وعدت مرة أخرى لأن المزيد من الأشياء حدثت.
فيرغال ريد: لقد كانت خمسة أسابيع مزدحمة.
ديس تراينور: لقد كانت خمسة أسابيع مزدحمة وسبعة أيام مزدحمة. قبل سبعة أيام كان يوم الأربعاء ، 30 نوفمبر ، وتلقيت رسالة بريد إلكتروني بها دعوة إلى إصدار تجريبي مفتوح لشيء يسمى ChatGPT. ماذا حدث؟
"أصبح الأمر فيروسيًا ، وأصبح جامحًا ، وأصبح الجميع متحمسين حقًا"
فيرغال ريد: ماذا حدث؟ لذا ، فهو سؤال مثير للاهتمام. أصدرت شركة OpenAI أحدث نظام للتعلم الآلي ، وهو نظام الذكاء الاصطناعي ، وأصدروه علنًا للغاية ، وكان ChatGPT. وهي تشبه إلى حد كبير عروضهم الحالية ، GPT-3 ، و GPT-3.5 ، ولكن تمت تعبئتها بشكل مختلف ، ولم تكن بحاجة إلى وضع بطاقة ائتمان فيها ، وأعتقد أن الجميع قد رأوا للتو أن "رائع ، كان هناك تغير في القدرة هنا مؤخرًا ". وانتشر الأمر على نطاق واسع ، وأصبح جامحًا ، وتحمس الجميع حقًا. وفي نفس الوقت تقريبًا ، أطلقوا أحدث طراز GPT-3.5 ، مثل davinci-003 ، والذي يقوم بالكثير من الأشياء نفسها ، وربما يكون أقل جودة في قول ، "مرحبًا ، أنا نموذج لغوي كبير وأنا لا أستطيع أن أفعل ذلك من أجلك ". لكنها متشابهة من حيث القدرة.
ديس تراينور: لنقم ببعض التعريفات السريعة لإرضاء الجميع. من الواضح أن OpenAI هي المؤسسة التي تقوم بالكثير من العمل على الذكاء الاصطناعي والتعلم الآلي. قلت GPT: ما هو هذا الموقف؟
فيرغال ريد: في الواقع لا أتذكر. محولات الأغراض العامة أو شيء من هذا القبيل [المحولات التوليدية قبل التدريب].
ديس تراينور: لكن هل هذا الاسم يعني أي شيء؟
فيرغال ريد: نعم ، أعتقد أن القطعة الأساسية هي المحول. لفترة طويلة ، كان الناس يحاولون معرفة ، "مرحبًا ، ما هي أفضل طريقة لتدريب الشبكات العصبية التي تتعامل مع مهام معالجة النص واللغة الطبيعية؟" وقد مر وقت طويل ، كانت هناك LSTMs [الذاكرة طويلة المدى] التي تجمع بين البنية قصيرة المدى للنص الخاص بك والبنية طويلة المدى للجملة ونماذج التسلسل ، وكان الجميع يعملون على تلك .
"بينما تدفع المزيد والمزيد من بيانات التدريب ، يبدو أنهم يظهرون تغييرات نوعية من حيث ما يمكنهم فعله. لذلك ، يبدو الأمر مثل ، "مرحبًا ، يبدو أن هذا يفهمها نوعًا ما" "
وبعد ذلك ، نشرت Google بحثًا ثوريًا جدًا ، "الانتباه هو كل ما تحتاجه" ، مع أطروحة كبيرة جدًا: "مرحبًا ، بدلاً من نماذج التسلسل التقليدية هذه ، إليك طريقة جديدة للقيام بذلك ، نموذج جديد" ، والذي يسمونه نموذج المحولات أو بنية المحولات. عندما تنظر إلى كلمة معينة ، سيتعلم النموذج أجزاء أخرى من الجملة يجب أن تنظر إليها أيضًا مع تلك الكلمة. يمكنك تعلم الأشياء بشكل أكثر فاعلية قليلاً من نماذج التسلسل ، ويمكنك تدريبها بشكل أسرع وأكثر كفاءة وتوسيع نطاقها.
لذلك ، بدأ الجميع في استخدام المحولات لجميع أنواع بيانات التسلسل. وبعد ذلك ، كان الشيء الوحيد الذي ساهمت فيه OpenAI حقًا هو فكرة أنه يمكنك أن تأخذ هياكل المحولات هذه وترفع المقياس حقًا. يمكنك إضافة المزيد من بيانات التدريب ، وحسابها بطريقة أكثر. وربما من المدهش جدًا ، وأعتقد حقًا أن هذا هو الشيء الأساسي ، حيث أنك تدفع المزيد والمزيد من بيانات التدريب ، يبدو أنهم يظهرون تغييرات نوعية من حيث ما يمكنهم فعله. لذلك ، يبدو الأمر مثل ، "مرحبًا ، يبدو أن هذا يفهمها نوعًا ما." أو يمكنني أن أقول "اجعل هذا أكثر سعادة" أو "اجعل هذا أكثر حزنًا" ، وهو مفهوم مجرد للغاية. من أين تعلمت ذلك؟ لم نمنحها هذا التعلم الخاضع للإشراف حيث ترمز لتعريف الحزن أو السعادة. لقد بدأت للتو في تعلم هذه المفاهيم المجردة وهذه الأفكار التجريدية من مجموعات بيانات التدريب.
في الأساس ، قام OpenAI وبعض الآخرين فقط بدفع قطعة القياس هذه أكثر فأكثر. هناك أشياء أخرى كذلك. مع GPT-3.5 ، قاموا بتدريبه بشكل مختلف قليلاً لمحاولة محاذاته أكثر. لكن الشيء المهم هنا هو الحجم الكبير ، والكثير من بيانات التدريب ، وفي الواقع ، نوع من النماذج البسيطة. يمكنك القيام بأشياء رائعة كان الناس يقولون قبل 20 عامًا ، "حسنًا ، الكمبيوتر لن يفعل هذا أبدًا ؛ لن يتمكن أبدًا من كتابة أغنية "، والآن يبدو الأمر مثل ،" ما نوع الأغنية التي تفضلها؟ " "اجعل الصوت أكثر سعادة." لذا ، نعم ، إنه وقت رائع لأن الكثير من الأشياء التي اعتقدنا أنها مجال الذكاء البشري فقط تحتاج فقط إلى الكثير من بيانات التدريب ونموذج كبير.
هل يمكن أن تكون ChatGPT مبدعة؟
ديس: وبعد ذلك ، ما حدث منذ الأربعاء الماضي هو أن موقع تويتر - وبعد ذلك بسبعة أيام ، الإنترنت العام أو وسائل الإعلام - استحوذ على هذا الأمر. لقد رأيت كل أنواع الاستخدامات البارزة بصراحة من حيث أنني لم أستطع أن أتخيل أن هذا ممكن. رأيت "أكتب لي تعليمات لنسخ قرص DVD بأسلوب أغنية تايلور سويفت حيث تكون غاضبة لأنها انفصلت عن صديقها" أو شيء من هذا القبيل. لكنها في الواقع لديها تجربة. وبعد ذلك ، رأيت آخرين مثل ، "كيف تقوم بتثبيت Intercom على نظام iOS" وهذا صحيح نسبيًا أيضًا. وكل شيء بينهما. والشيء المجنون الذي رأيته هو ، بالنسبة لأي من هذه الأشياء ، يمكنك مضاعفة الأمر مرة أخرى وقول ، "الآن ، أعطني ذلك بأسلوب رجل عصابات من الأربعينيات وقوله باللغة الألمانية" ، و "الآن ترجم الألمانية إلى الإسبانية ، ولكن أيضًا تضيف المزيد من الغضب "أو أيا كان. وهي تقوم بكل هذه الأشياء على الفور ، في غضون تأخير مدته صفر ثانية تقريبًا ، وفي جميع الحالات ، يمكنك أن ترى ما الذي ستحدثه.
أحد الأمثلة الشخصية التي أستخدمها هو عندما تحاول إخبار قصة لطفلك قبل النوم ، يمكنك نفاد الزوايا. لا يوجد سوى العديد من الطرق المختلفة ، على سبيل المثال ، يمكن لثلاثة تنانين أن تذهب إلى الغابة وتضيع. ومع ذلك ، فإن GPT-3 رائع حقًا لإعطائي 10 قصص أخرى. ما لاحظته هو ، لأطول فترة ، مع قصة الذكاء الاصطناعي ، حتى في الآونة الأخيرة منذ سنوات ، كان الناس يقولون ، "إنه رائع لأشياء محددة ، ولكن لا توجد طريقة للتعامل مع الإبداع." هل من العدل أن نقول إننا نشعر وكأننا في الواقع في العالم المعكوس هنا؟
فيرجال: أجل. أعني ، عندما يتحدث الناس عن الذكاء الاصطناعي ، دائمًا ما يكون ، "حسنًا ، أول الأشياء التي ستفعلها هي تلك المهام اليدوية عن ظهر قلب." وبعد ذلك سيكون أمام البشر كل هذا الوقت للذهاب والقيام بهذه الأشياء الإبداعية للغاية-
Des: اذهب إلى غابة و-
Fergal: اصنع فنا طوال الوقت ، شعر جميل. وبعد ذلك ، يبدو الأمر كما لو ، "أوه ، واو. تتطلب هذه المهام اليدوية رؤية صعبة للغاية ومعالجة الأشياء لحلها. لكن الإبداع ، حيث لا توجد إجابة خاطئة ، ولا توجد عقوبة لفهمها بشكل خاطئ ... نعم ، القصيدة ليست مثالية تمامًا ، لكنها لا بأس بها ، وقد لا تكون صورة DALL · E 2 التي تم عرضها بالضبط ما كنت تفكر فيه ، لكنها لا تزال صورة جميلة ويمكنك اختيار 1 من 10 ، هذه الأشياء تعمل.
"هذا الشيء يبدو أنه جيد جدًا في هذا النوع من القطعة البديهية ، وهو جيد جدًا في خداع مقطوعتنا البديهية. لذلك عندما تنظر إليه في لمحة ، يبدو صحيحًا "
Des: ويمكنك أن ترى ما الذي يحدث أيضًا. أعتقد أن شيئًا واحدًا لا يدركه الناس هو أنه يعيد لك ما كان على الأرجح في رأسك لأنك ستراه على أي حال. عندما أقول ، "أعطني تعليمات لفتح حساب مصرفي بأسلوب أغنية Rage Against the Machine ،" أرى ، "نعم ، سنقاتل من أجل فتح الحساب ، وسنستفز جميعًا ليل." ويمكنني أن أرى ما يفعله. أنا لا أقوم بتطبيق مقياس الدقة هناك ، أنا فقط مثل ، "آه ، لقد نجحت ،" وأنت تمنحه الفضل في ذلك.
فيرجال: نعم ، أعتقد أن هذا صحيح على الأرجح. إلى أي مدى نحن جيدون في الحكم على الأخطاء الوشيكة من حيث المعلومات غير الواقعية؟ ربما نحن لسنا على هذا النحو الجيد في ذلك. ربما لا نهتم به بشدة. وأعني ، سيتعين علينا الخوض في مسألة الواقعية هذه ، ولكن حتى عندما تطرح عليها سؤالًا واقعيًا ... لنفترض أنك تطرح عليه سؤالًا عن دعم العملاء. لقد سألت أحدهم مؤخرًا عن المصادقة ذات العاملين ، "كيف تعيد تعيين المصادقة الثنائية الخاصة بالاتصال الداخلي؟" والإجابة التي تلقيتها كانت ، "واو ، هذه إجابة رائعة." وأنا أنظر إليه و "انتظر ، هذه ليست الطريقة التي تعيد بها ضبط 2FA." وهو عنوان URL جميل ، يحتوي على مرجع لمقال مركز المساعدة الخاص بنا ، وقد تم اختلاقه أيضًا.
"أعتقد أن معظم الناس ، بما في ذلك نحن ، الذين أذهلتهم عقولهم ، يدفعونهم إلى التفكير في المعقول للوهلة الأولى"
يتحدث الناس عن البشر والأدمغة البشرية ، ولدينا هذا الجزء البديهي الذي يعد جيدًا حقًا في التعرف على الأنماط ، ومن ثم لدينا الجزء المنطقي والتحليلي والمنطقي الذي يكون أبطأ وأكثر دقة. يبدو هذا الشيء وكأنه جيد جدًا في هذا النوع من القطع البديهية ، وهو جيد جدًا في خداع مقطوعة بديهية. لذلك عندما تنظر إليه في لمحة ، يبدو صحيحًا ، وحتى تقوم بتطبيق تفكيرك النظامي الأبطأ ، قد يكون من الصعب رؤية ذلك. وأعتقد أن هذه القطعة البديهية ، تلك التخمينات ، هي على الأرجح ما نعتمد عليه أكثر للحكم على المساعي الإبداعية ، والفن ، والصور ، والسوناتات. في البداية على الأقل. وبالتالي ، فهي جيدة جدًا في توليد الأشياء المعقولة للوهلة الأولى ، ولكن ربما بعد ذلك ، عندما تأخذ وقتًا في التفكير في الأمر ،
Des: انظر إلى المشاكل. وكونك معقولاً للوهلة الأولى هو أمر مهم حقًا لأنني أعتقد أن معظم الناس ، بما فيهم نحن ، الذين يفجرون عقولهم ، يجعلونهم ينفجرون بفكرة المعقول للوهلة الأولى. أنت تمنحه الكثير من الفضل في ذلك على الرغم من حقيقة أنه قد لا يكون لديه الكثير من قابلية التطبيق في العالم الحقيقي. لن تقوم أبدًا بتعليق هذه اللوحة في متحف ، ولن تقرأ أبدًا ذلك مهما كانت السوناتة ، ولن تفوز أبدًا بجائزة عن تلك الرواية.
أرى الكثير من الأشخاص مثل مسوقي المحتوى يقولون أشياء مثل ، "هذا سيغير وظيفتي إلى الأبد." وأنا مثل ، "نعم ، ولكن ربما ليس بالطريقة التي تعتقدها. إذا كنت تعتقد أن وظيفتك ستكون ببساطة كتابة المطالبات وضرب علامة التبويب ، فمن المحتمل أن وظيفتك قد لا تكون موجودة ". وبالمثل ، أرى المديرين على Twitter يقولون ، "أوه ، هذا سيجعل موسم مراجعة الأداء أسهل بكثير." في كل هذه الحالات ، أنا مثل-
فيرجال: هناك شيء خاطئ في ذلك.
"من الممكن أن تكون المساهمة الكبيرة حقًا التي تقدمها هذه التقنية للإنسانية هي محادثة صادقة حول حجم العمل الذي يمكننا التخلص منه"
ديس: بالضبط. إنك جميعًا تقول الهدوء بصوت عالٍ هنا ، إذا كانت وظيفتك تتضمن بالفعل كتابة BS مزيفة يمكن أن تكون-
Fergal: لماذا تفعل ذلك في المقام الأول؟
Des: ماذا تفعل؟ بالضبط. أفهم أنه في حالة التسويق بالمحتوى ، قد تكون هناك أسباب تجعلك تحتاج فقط إلى الترتيب لكلمات معينة ، لكن لا تخطئ في ذلك من أجل حرفة الكتابة الفعلية.
فيرغال: أعني ، من الممكن أن يكون هذا أمرًا جيدًا. من المحتمل أن الوظائف الهراء ، الأشياء التي يشعر الشخص أنها لا قيمة لها ، مثل مراجعات الأداء هذه ، يمكنها فقط تسليمها إلى GPT. وبعد ذلك ، بعد فترة ، يدرك الجميع نوعًا ما أن هذا ما يحدث ، والشخص الموجود على الجانب الآخر يقول ، "حسنًا ، سأسلمه إلى GPT لتحليله." وربما بعد ذلك يمكننا إجراء محادثة صادقة حول ما هي النواة التي هي في الواقع ذات قيمة وكيفية التخلص من العمل.
Des: لماذا نفعل كل هذا الهراء الأدائي؟
فيرجال: نعم ، من الممكن أن تكون المساهمة الكبيرة حقًا التي تقدمها هذه التقنية للإنسانية هي محادثة صادقة حول مقدار العمل الذي يمكننا التخلص منه. وهذا يمكن أن يكون رائعا. هذا يمكن أن يكون تحولا هائلا.
مشكلة هلوسة روبوتات الدردشة
ديس: بالحديث عن التطبيقات الفعلية ، الشيء الذي يدور في خاطري ، على الأقل تجربتي معها بشكل مباشر ، وحتى ما قلته عن حالة استخدام المصادقة الثنائية ، هو أنه لا يمكنك نشرها بشكل مباشر اليوم في الكثير من المجالات حيث يوجد شيء نهائي الإجابة الصحيحة ، خاصة إذا كانت مخاطر إعطاء إجابة خاطئة عالية جدًا. لذا فأنت لا تريد أن يستهلك هذا الشيء السجلات الطبية ويطلق التشخيصات لأنني أستطيع أن أضمن لك أن التشخيص سيكون مكتوبًا بشكل جيد حقًا ، وسيله تصديقه لشخص عادي ، وربما يكون احتمال دقته منخفضًا. لا نعرف احتمالية الدقة ، لكنها ستختلف بناءً على المدخلات.
فيرغال: بالتأكيد سيخيفني كثيرًا إذا جاءني أحدهم وقال ، "مرحبًا ، فيرغال ، نريد أن يبدأ فريقك في استخدام هذا للتشخيص الطبي. سيكون أمرا رائعا." سيكون ذلك مخيفا للغاية.
"شيء واحد هو أن هذه التقنية لديها مشاكل بالتأكيد مع ما يسميه الكثير من الناس الهلوسة ، حيث إذا لم تكن تعرف شيئًا ما ، فإنها تختلقه فقط"
ديس: ولكن هناك حالات استخدام أخرى ربما تكون أقل خطورة ، ولكنها غير دقيقة بنفس القدر ، حيث يمكنك استخدامها لتشخيص نتيجة في قضية قانونية. مرة أخرى ، أنا متأكد من أنه سيبدو جيدًا ، وسيغلفه بكل لغة النمذجة الصحيحة ، لكنه لا يزال في النهاية لا يعرف ما يقوله. لقد طلبت منه أن يعطيني أفكارًا حول كيفية إنشاء عميل بريد إلكتروني حديث للمنافسة والفوز في مساحة الإنتاجية. وهي تقرأ جيدًا حقًا ، ولكن فقط عندما تخدشها تدرك أنه لا يوجد شيء في الواقع. إنها مجرد كلمة لطيفة بعد كلمة ذات صوت جميل بدون آراء حادة بشكل خاص. هذا ، بالنسبة لي ، يجعلني أتساءل عن الطرق التي يمكننا بها جعل هذا أكثر قابلية للتطبيق.
فيرجال: قبل أن ندخل في هذا الموضوع ، هناك شيئان أعتقد أنهما مفيدان في استفزازهما هنا. شيء واحد هو أن هذه التقنية لديها بالتأكيد مشاكل مع ما يسميه الكثير من الناس الهلوسة ، حيث إذا لم تكن تعرف شيئًا ، فإنها تختلقها فقط. هذا ضار ، وهناك الكثير من المجالات التي يكون فيها احتمال حدوث هلوسة بنسبة 1٪ بمثابة كسر للصفقة. وكلنا نحب إذا كان هذا الاحتمال صفراً. ولكن في الوقت نفسه ، ارتفعت الدقة مقارنة بما كان عليه الحال قبل عام مضى ، مقابل ما كان عليه قبل ثلاث سنوات. من الأفضل تمامًا إعطائك الإجابة الصحيحة في كثير من الأحيان أيضًا. إنه أفضل بشكل كبير في "الفهم". أجد صعوبة في القول ، "أوه ، إنه مجرد التعرف على الأنماط ، ولا يفهم أي شيء" ، أو على الأقل ، أجد صعوبة في قول ذلك بدون ، "ماذا تقصد بالفهم؟"
نحن بالتأكيد على مسار حيث ، في حين أنها ستظل تصنع الأشياء ، وهذه مشكلة كبيرة ، إنها تتحسن وتتحسن في إعطائك الإجابة الصحيحة عندما يكون لديها الإجابة الصحيحة. وهكذا ، كيف يبدو هذا المنحنى؟ من الصعب التفريغ في الوقت الحالي ، لكننا نحصل على نماذج أفضل بشكل كبير والتي هي أفضل بكثير في فعل الشيء الصحيح بينما لا نزال نقوم في بعض الأحيان بأمر خاطئ بشكل كارثي. يجب أن ننتبه إلى هذين الأمرين. نعم ، من الصعب جدًا نشر هذا في الكثير من إعدادات الإنتاج في الوقت الحالي ، على الأقل بدون بعض التعتيم أو بعض التكاليف من حوله ، ولكنه أيضًا يتحسن كثيرًا. إذا سألت عنه شيئًا تمت تغطيته جيدًا على ويكيبيديا ، فسيتحسن الأمر.
وخير مثال على ذلك هو برمجة الكمبيوتر. يمكنك أن تطلب منه تحديًا برمجيًا لم يسبق له مثيل ، وإذا طلبت منه إنشاء وحدة أو نظام كامل ، فهذا نوع من الكفاح ، لديك نوع من نقطة الانهيار. ولكن إذا طلبت منها كتابة دالة ، حتى لو كانت جديدة ، مكونة ، خارج العينة ، فقد تعطيك إجابة خاطئة ، لكن فرص إعطائك شيئًا مفيدًا قد تطورت كثيرًا.
ديس: كنت تقول من قبل ، إنها اجتازت بشكل أساسي المرحلة الأولى في مقابلة البرمجة الخاصة بنا ، نوعًا ما من الأسئلة القائمة على المصفوفة. انها مجرد مسامير.
"يبدأ الجميع في الحديث عن أن القواعد اللغوية للكلب ليست جيدة جدًا ، وهذا أمر مهم للغاية ، ولكن لا تغفل حقيقة أن الكلب يتحدث"
فيرجال: أجل. بالضبط. لدينا تحدي برمجة لحل المشكلات للمهندسين القادمين إلى Intercom. كان علي أن أجلسهم بنفسي قبل بضع سنوات ، ونحاول جاهدين التأكد من عدم توفر ذلك على الإنترنت. وإذا كان الأمر كذلك ، فإننا نحاول تكرارها وتغييرها. ونحن لا نرقى إلى مستوى السرعة ، لذا لا يمكنني ضمان عدم وجودها. لكن هذا الشيء أوجد حلاً أتى به للتو ، وهو مشكلة من نوع "كبير المهندسين على السبورة البيضاء لمدة نصف ساعة". وهي تحصل عليه في طلقة واحدة ، دفعة واحدة.
ديس: صفر ثواني.
Fergal: صفر ثواني. وهذا مثير للإعجاب. ومثل نصف بقية العالم ، كنت ألعب أيضًا مع ChatGPT أو GPT-3.5 ، وأعطيته الكثير من أسئلة مسابقة البرمجة أو أسئلة البرمجة الأخرى ، والتي أنا متأكد من أنها خارج العينة ، ويقوم بعمل جيد للغاية. وهذا تغيير نوعي في الدقة. يجب عليك التحقق من التعليمات البرمجية الخاصة بك والتأكد من أنها ليست خاطئة ، ولكن هذا مثير للاهتمام ومثير للغاية.
من المثير أيضًا أن فكرة أنه يمتلك على الأقل قدرات استبطان بدائية. إذا كتبت خطأ ، يمكنك أن تقول ، "مرحبًا ، هناك خطأ. يمكنك إصلاحه؟" وأحيانًا ، يقدم لك شرحًا جميلًا لذلك. وكل هذه النماذج مدربة على القيام بها هي التنبؤ بالرموز. توقع الكلمات القليلة التالية. تقليديًا على الأقل ، لأنني أعتقد أنه تغير قليلاً في العام الماضي ، لكن الجزء الأكبر من التدريب هو فقط للتنبؤ بالرمز التالي ، والتنبؤ بالكلمة التالية. وهناك شيء مذهل يحدث هنا - بمجرد القيام بذلك على نطاق واسع ، تصل إلى مستوى معين من الفهم.
لا أريد أن يضيع هذا في النقاش الأوسع حول الهلوسة ، وهو أمر حقيقي ، وربما لم ينتبه الناس إليه الأسبوع الماضي. لكن هناك هذه الاستعارة ، ولا أتذكر من جاء بها ، عن كلب ناطق ، ويخبرك أحدهم أنه يريدك أن تذهب لمقابلة كلبه المتكلم الجديد ، وأنت مثل ، "الكلاب لا تستطيع التحدث. " لكنك وصلت إلى الكلب والكلب يجري محادثة معك. يبدأ الجميع في الحديث عن أن قواعد الكلب ليست جيدة جدًا ، وهذا مهم جدًا ، لكن لا تغفل حقيقة أن الكلب يتحدث. الشيء بالنسبة لي هو الهلوسة. يبدو هذا وكأنه تغيير كبير - ربما لا يمكننا إدخاله في الإنتاج ، ولكن من يدري أين سيكون في غضون عام أو عامين أو ثلاث سنوات.
"هذا مثل شيء السيارة ذاتية القيادة ، أليس كذلك؟ يجب أن تكون مستعدًا لتولي المسؤولية في أي وقت "
ديس: نعم ، الهلوسة بالنسبة لي لا تجعلها عديمة الفائدة على الإطلاق. ولنكن متشائمين ونقول إنه بالنظر إلى وصف مكون من خمس فقرات للمريض ، فإنه يمكن أن يمنحك تشخيصًا دقيقًا بنسبة 70٪ على الفور. وفي معظم أسئلة التشخيص هذه ، هناك بعض الاختبارات السريعة التي يمكنها التحقق مما إذا كان هذا صحيحًا أم لا ، كما هو الحال في ، "يبدو أن لديك X ، هذا هو الاختبار السريع لـ X" ، واتضح ما إذا كان صحيحًا أم خاطئًا - لا يزال هذا يمثل تغييرًا هائلاً في الإنتاجية. إذا افترضنا أن الشيء لا يزال معيبًا ولكن حاولنا الاستفادة من دقة 70٪ ، فربما لا تزال هناك أشياء يمكنه فعلها وستكون ذات قيمة كبيرة.
فيرجال: لدي فكرتان في ذلك. الفكرة الأولى هي أن شخصًا ما سيحتاج إلى دراسة ذلك لأنه من الممكن أن يكون هذا الشيء صافًا سلبيًا ، وأن النظام الجديد مع الإنسان في الحلقة ، الطبيب والذكاء الاصطناعي ، لديه احتمالية أكبر لخطأ كارثي لأن المتعب ، المرهق لا يقوم الطبيب أحيانًا باجتهادهم ، ولكن أمامهم نظام جذاب ولكنه غير صحيح. هذا مثل شيء السيارة ذاتية القيادة ، أليس كذلك؟ يجب أن تكون مستعدًا لتولي المسؤولية في أي وقت. قد تكون هناك مناطق في ذلك النظام يكون فيها النظام ككل مع الإنسان في الواقع أسوأ من مجرد-
Des: يمكن للناس في الواقع أن يفرطوا في الثقة.
فيرغال: يمكن للناس أن يفرطوا في الثقة. ماذا يسمونه؟ تطبيع الانحراف. يدرس الناس هذا في سياق كوارث وأشياء المفاعلات النووية. ماذا حصل؟ "أوه ، لقد اعتدنا على هذا الاختصار ، والاختصار لم يكن دائمًا صالحًا ،" وما إلى ذلك. هذا شيء أود قوله. ولكن بعد ذلك ، فإن النقطة المقابلة ، عندما نفكر في الأشياء الطبية ، هي أن جزءًا من العالم لا يستطيع الوصول إلى طبيب. لذلك لا أعرف أين أرسم تلك الحدود. من الصعب رسم الحدود. في النهاية ، على المسار ، من المحتمل أن تتحسن هذه الأشياء وأفضل ، وجيدة بما يكفي ، في النهاية ، ككل ، يتفوق النظام على كل ما لديه حاليًا.
تدريب روبوتات المحادثة خطوة بخطوة
ديس: كنت تقول أنه عندما ينشئ رمزًا ، يمكنك أن تقول ، "مرحبًا ، هذا الرقصة." مثال آخر رأيته كان شائعًا على Twitter لفترة من الوقت هو "تحدث معي من خلال تفكيرك سطرًا بسطر" ، أو أيًا كان. يبدو الأمر كما لو كنت تخبره بكيفية التفكير في الأشياء ، أو أنك تقدم له معلومات جديدة ثم لا تجبره على إعادة النظر في رأيه. ما يحدث هناك؟
فيرغال: أعتقد أن هناك شيئًا رائعًا يحدث هناك ، ويجب أن نتحدث هنا تمامًا. هذا تخمين وأنا متفرج - أنا لا أقوم بهذا العمل. أعتقد أن Google نشرت مقالة مؤخرًا حول كيف يمكن للنماذج اللغوية الكبيرة أن تحسن نفسها بنفسها ، لذلك أعتقد أن هناك شيئًا رائعًا يستحق التفريغ.
أول شيء هو أنه ربما قبل حوالي عام ، اكتشف الناس أنه على الرغم من أن هذه النماذج ستخطئ كثيرًا ، إلا أنه يمكنك حثهم على "دعنا نفكر خطوة بخطوة". سيكون لديك نموذج ويمكن أن تطرح عليه سؤالًا بسيطًا في الرياضيات مثل "لدى أليس وبوب ثلاث قطع شوكولاتة ويعطيان ثلاثة لحواء" أو شيء من هذا القبيل. "كم بقي منهم؟" هذه الأشياء تصارع مع الرياضيات الأساسية ، لذلك غالبًا ما تحصل على أشياء مثل هذه بشكل خاطئ. لكن يمكنك أن تقول شيئًا مثل ، "لنفكر خطوة بخطوة" ، وهذا أجبرها على إخراج منطقها خطوة بخطوة على طول الطريق. وارتفعت معدلات الدقة عندما فعلت ذلك ، وهذا أمر منطقي. تم تدريبه على إكمال النص. وهكذا ، خطوة بخطوة ، تم تصميم كل خطوة ...
ديس: يبدو الأمر كما لو أنك لا تضاعف احتمالية الفشل. لأنه بعد ذلك ، إذا كنت تقوم بتشغيل كل خطوة مع احتمال أن تكون 90٪ صحيحة ، وفي خمس خطوات ، فجأة ، فإن الاحتمال يكون صحيحًا بنسبة 50٪ فقط.
فيرجال: ربما. أعني ، من الصعب التكهن بما يحدث داخليًا بالضبط ، ولكن ربما شيء من هذا القبيل. ولكن كان هناك بحث مثير للاهتمام مؤخرًا حيث كان مثل ، "مرحبًا ، نعلم أنه يمكننا تحسين الدقة بالقول ،" لنفكر خطوة بخطوة. "ويمكننا استخدام ذلك للحصول على مخرجات أفضل من مجرد الحصول عليها بشكل حدسي ، تعطي الجواب على الفور. يمكنك استخدام ذلك لإنشاء مجموعة بيانات تدريب جديدة وإعادة تدريب النموذج لتحسين دقته. هذا ، بالنسبة لي ، رائع لأن هذه الأشياء يمكن أن تتحسن ذاتيًا ، على الأقل إلى حد ما.
"هناك عالم مثير للاهتمام هنا حيث بدأت نماذج اللغة و NLP في الظهور إلى حد ما مثل عالم AlphaGo. أعتقد أنه وقت مثير للغاية ومن الصعب جدًا تحديد الحدود هنا "
لقد شاهدت عرضًا توضيحيًا مؤخرًا في حدث Microsoft حيث عرضوا Copilot أو أحد هذه النماذج ، ربما davinci ، لم يحددوا ، يفعلون شيئًا باستخدام موجه Python حيث أعطوه مشكلة لغة طبيعية ، مثل مشكلة برمجة الاتصال الداخلي لدينا ، ثم طلب من النظام تجميع الكود ووضع الكود في موجه Python ، وعندما أخطأ ، حاول النظام تنفيذ الكود ورأى أنه خطأ ، لذلك استغرق الأمر مرة أخرى وأخرى حتى حصل عليه حقا. هناك عالم مثير للاهتمام هنا حيث بدأت نماذج اللغة و البرمجة اللغوية العصبية أن تبدو أكثر قليلاً مثل عالم AlphaGo. أعتقد أنه وقت مثير للغاية ومن الصعب تحديد الحدود هنا.
أعتقد أن هناك الكثير من الأشياء التي ، لوقت طويل ، كان الناس في علم اللغة أو شيء ما سيقولون ، "في الذكاء الاصطناعي ، لن نتمكن أبدًا من الإجابة عن هذه الأسئلة وفقًا لمخطط كبير ،" أو شيء من هذا القبيل. مثل "نزل الجرار على الطريق وتحول إلى حقل. يرجى شرح ما حدث في تلك النكتة ". كانت أجهزة الكمبيوتر سيئة في ذلك تاريخيًا. "الجرار السحري نزل على الطريق وتحول إلى حقل." معدل طفيف مثل هذا يغير المعنى. وقد أصبح جيدًا حقًا في ذلك في بعض المجالات. يمكنك طرح أسئلة دلالية أساسية عليها أو طرحها للتكهن. حتى قبل عامين أو ثلاثة أعوام تقريبًا ، كلما رأيت نظامًا جديدًا للتعلم الآلي ، كان دائمًا يبدو ساحرًا ومدهشًا في البداية ، وكلما دخلت فيه وتحت غطاء المحرك ، كنت مثل ، "أوه ، إنه مجرد انحدار لوجستي . " بمجرد أن فهمت ذلك ، كان الأمر أقل إثارة للإعجاب. وأنا أكافح من أجل القيام بذلك هنا. ربما يكون ذلك بسبب صعوبة فهم تعقيد النموذج. لكن هذه الأشياء تبدو كأنها قدرات مختلفة نوعيًا عما كانت لدينا.
روبوتات الذكاء الاصطناعي مقابل جوجل
ديس: قبل أن نحصل على الدعم ، والذي سنتعمق فيه ، رأيت تعليقات تقول إن هذه لحظة كبيرة للإنترنت مثل Google. لقد رأيت أيضًا ، كما يمكنني القول ، أخذ الماء البارد ، وهو ، "لا تنخدع ، فإن إنشاء كلمات الأغاني العشوائية هو وسيلة للتحايل في أحسن الأحوال." ومن الواضح أن هناك طيفًا من الشهية يعتمد على ما إذا كنت تقنيًا وضعيًا أم لا. ما رأيك في شيء Google؟ هل من المحتمل أن يكون هذا بحجم Google؟ هل هذا تهديد لجوجل؟ أفكار حول كيفية رد فعل Google؟
فيرغال: حسنًا ، سأكون مضاربًا للغاية هنا ، وسأدخل في مستقبل كامل وأشياء. أنا متفائل جدًا بشأن الذكاء الاصطناعي والتعلم الآلي. أشعر أن التغيير في القدرات الذي شهدناه خلال العام الماضي ، وبالتأكيد إذا استقررت لعام أو عامين آخرين ، سيكون كبيرًا مثل الإنترنت. القدرة. وسيتعين علينا معرفة كيفية تحويل هذه الأشياء إلى منتجات. يجب القيام بالكثير من العمل حول كيفية تقييدهم للإجابة من قاعدة المعرفة وما إلى ذلك. لكن إجمالي القدرات الجديدة التي حصلنا عليها والتي من المحتمل أن نشعر بها ، بالنسبة لي ، كبيرة مثل الإنترنت. قد أكون مخطئا ، ولكن هذا حيث سأفعل-
Des: هذا هو ترتيب الحجم. لذلك ، أكبر من جوجل.
"أعتقد أنها لحظة سبوتنيك - سينظر الناس إلى هذا ويذهبون ، واو ، شيء ما سيصل هنا"
فيرغال: أجل ، أعتقد ذلك. ليس فقط ChatGPT ، الذي صدر الأسبوع الماضي. لكن التقدم الكلي يبدو وكأننا نرى قدرات أفضل بشكل كبير في التفكير والاستدلال والتفكير الأولي يمكن أن يكون خاطئًا ، ولكن في بعض الأحيان مقنع تمامًا. لم أكن لأصدق ذلك لو أخبرتني بنجاحها في تحديات البرمجة قبل خمس سنوات. لذلك أعتقد أن هناك شيئًا كبيرًا هنا. هناك الكثير من الإنتاجية التي يمكن إطلاقها ، ومن الصعب جدًا تحديد أين سيتوقف ذلك. وأيضًا ، أعتقد أن هناك حلقات للتعليقات هنا. أشعر أن هذه لحظة سبوتنيك. باستخدام ChatGPT ، يمكنك أن تقول ، "مرحبًا ، التكنولوجيا ليست أفضل بكثير" ، أو "إنها تضخم" ، لكن لا تقلل من أهمية قدرة الاحتكاك المنخفض على الدخول في شيء ما واللعب به. يمكن للجميع فعل ذلك. وأعتقد أنها لحظة سبوتنيك - سينظر الناس إلى هذا ويقولون ، "واو ، هناك شيء ما قادم هنا."
ديس: إشارة سبوتنيك هنا ، آسف.
فيرغال: كان هذا يا إلهي في الخمسينيات. وضع الروس هذا القمر الصناعي في الفضاء الذي يدور حول الأرض ويبث إشارات الراديو. ويمكن للناس في جميع أنحاء العالم فجأة ضبط الراديو الخاص بهم والحصول على هذه الإشارة القادمة من سبوتنيك. وهذه هي الرواية التي تُروى بشكل عام في الغرب. استيقظ الناس فجأة وكانوا مثل ، "واو ، هناك تغيير في القدرة هنا لم نكن على علم به." وبعد ذلك ، من المفترض أن هذا تسبب في سباق الفضاء وأبولو وكل تلك الأشياء. لذلك أشعر نوعًا ما أنه ربما لا يزال رد الفعل مستمرًا ، لكنني أرى الكثير من الأشخاص الذين لم ينتبهوا حقًا إلى هذا والذين تحمسوا له فجأة. ربما سوف يتلاشى الضجيج. نحن في منتصفها ، لذلك من الصعب التنبؤ. ولكن إذا لم يكن الأمر كذلك ، فسيكون هناك شيء آخر قريبًا.
هل يمكن لـ ChatGPT دعم دعم العملاء؟
Des: ماذا عن دعم العملاء؟ يعد الاتصال الداخلي نظامًا أساسيًا لدعم العملاء ، وإمكانية أن GPTChat أو GPT-3.5 أو أي من هذه التقنيات يمكن أن تجعل الدعم أفضل أو أسرع أو أرخص أو أكثر نجاحًا أو أكثر من طرف إلى طرف هو شيء ننتهي منه دائمًا. أعلم أنك كنت تفكر في هذا من وجهة نظر الدعم. في وقت سابق ، تحدثنا عن كيفية وجود بيئات حيث تكون الإجابة غير الصحيحة سيئة للغاية ، وهناك بيئات يمكن تحملها تمامًا. لدينا 25000 عميل. بعضها بنوك ، ربما لا تستطيع تحمل كلفة واحدة. Other people would happily afford one because it means they can support all their customers faster. What do you think about this technology as it applies to support?
“We made a conscious design decision very early on that it would never say anything that hadn't been explicitly curated by the team”
Fergal: Yeah. We try and pay a lot of attention to changes in developments in this space. We were looking at GPT-3 pretty early, and our initial thoughts were that the accuracy was not quite there yet. The hallucination problem is a big problem to just nakedly say, “Hey, it has consumed the Intercom help center. Let's ask questions about resetting my two-factor authentication.” It just failed. We've been looking at the GPT-3.5 family and some other models recently. We have resolution bots in production. It's not using language models that are as large – they're maybe medium language models, embeddings, and so on. And it gets very good accuracy at the sort of thing it does. We made a conscious design decision very early on that it would never say anything that hadn't been explicitly curated by the team. I think that worked well for a lot of businesses because it might deliver the wrong answer sometimes – we try carefully to control that – but it's always going to deliver you a relevant answer or an answer that's not going to mislead you.
Des: Yeah, and specifically, the way in which it gets it wrong is it might give you a wrong correct answer. The thing it gives you will be something that somebody in your company has said: “This is a correct, cohesive piece of text.” It just might not be the right one for the question.
Fergal: And we encourage our customers to always write the answer in such a way that, “Oh, to reset your account, do the following thing.” So if it is delivered wrongly, at least the end user is not disoriented.
Des: Yes, they don't go and do it for no reason.
Fergal: They can go like, “Oh, this is a stupid bot. It gave me the wrong answer,” as opposed to, “I am misled, and I'm now going to waste a bunch of time…” So initially, with GPT-3, we were like, “Oh, it's really cool but difficult to see the end-to-end usage of this.” It's been a couple of years, and I'm not aware of anyone who has deployed GPT-3 in a total end-to-end way to answer the customer's questions.
Des: End-to-end meaning no agent in the mix. Because the risk there is that there'll be an unknown unknown. If someone goes to your business and asks a question that you didn't see because GPT dealt with it, gave it the wrong answer, and the customer goes off and does the wrong thing, no one actually knows what's happened except for the bot. And the bot doesn't even know it's wrong because it doesn't know if it's spoofing or not. So you end up in a potentially dangerous world.
Fergal: Exactly, and we've quite carefully designed the resolution bot to avoid getting into those situations. We calibrate it, we check that, when it says something helped the customer, it did help the customer, and we have ways of checking that between explicit and implicit customer feedback. But it's conservatively designed.
“The probability of giving the wrong answer and totally making stuff up is too high, at least to use it for end users in a naked way”
At some point, these open domain question-answering things or something you could build on the top of GPT-3.5 will get good enough that, for a certain portion of our customers, that equation changes where it's like, “Hey, I'm not answering medically critical things,” and the inaccuracy rate has fallen. It was 90% accurate; now it's 99% accurate; now it's 99.9%. How commonly it gives you the wrong answer will eventually fall below the critical threshold where it's like, “Hey, just being able to take this out of the box is worth it. I don't have to go and curate these answers.” So that will probably come. When will that come, is it here today, or has it come in the last few weeks with davinci-003 and ChatGPT is obviously something we've been assessing.
And it's certainly a work in progress because you always have to go and play with the prompts. When you interface with ChatGPT or GPT-3, we could take an end user's question and ramp it in something that says, “Hey, you're a very conservative customer support agent. If you don't know something or you're not completely sure, you always say, 'I don't know,'” and you reason with it step by step, and you're super conservative, and maybe we can wrap it to get the benefit of the deeper natural language understanding, which these models have, and the deeper ability to synthesize and rewrite text, which can be beautiful. It can be really nice. Maybe we can get those benefits and constrain the hallucinations and the errors enough.
Des: Is that another version of walking through this line by line?
Fergal: Yeah.
Des: Is that whole field what people call prompt engineering?
Fergal: Prompt engineering. We're joking that the machine learning team at Intercom is going to be a prompt engineering team, and we're joking about that as we play with it. But there are people who really sweat the prompts and have gotten really good at prompt engineering. It's a real thing, and it makes it difficult to say, “Oh, this new tech is definitely not good enough,” because what will the best prompts be in six months? That said, we don't think it's here yet. All the prompt engineering we've done on davinci in the last week can get it to be more conservative, but not enough. The probability of giving the wrong answer and totally making stuff up is too high, at least to use it for end users in a naked way.
Support agent augmentation
Des: We talked earlier about the doctor augmentation question. Is there a version of it where you can do it from the agent augmentation question?
Fergal: Well, at Intercom, we've been thinking about this area very deeply for an extended period, and in the last few months, we have had internal discussions about the future of the customer support inbox and generative models – models that generate stuff as opposed to just classify things – and we believe that their time is coming for support augmentation, and I think that seeing ChatGPT explode recently and all the excitement about it is evidence of that. It's evidence that these things are getting good. And there are a lot of things you can do in the inbox or in a context like the inbox to constrain and sand off the rougher edges of these things.
An example might be to curate the responses it's allowed to give and use the generative model to predict what should happen, but only actually allow the suggestion to present to the teammate, like a macro or a conversation response, and hopefully provide a beautiful interface to make it easy for them. Alternatively, to have it go and search for a new knowledge base, and there are techniques you can use to try and constrain it to that. And then, maybe show, “This is the answer that our bot wrote from your knowledge base,” and side by side with that, “Here is the original source article,” so that the customer support rep can look at them side by side-
Des: And see if it adds up.
Fergal: Yeah, and see if it adds up.
“They have to go and find the article themselves, then they have to read it and check the answer, and then they have to copy paste it and reformat it. So maybe there's a productivity boost”
Des: So there's an angle where the AI explains its epistemological basis for how it concludes this. And in that world, if you're a support rep, you don't even need to know if it's actually right – you just need to know if the logic stacks up. Obviously, it'd be better if you knew if it was right, as well. But if it says, “Hey, I read how to reset a 2FA article linked here. I suggest that this is how you reset 2FA,” you're probably, “That's the right article to read.”
Fergal: The problem is that when they get it wrong, they're so good at seeming right that they'll-
Des: Invent the idea of the article.
Fergal: Yeah, yeah, totally. And so, you might need to go beyond that. You might need to have the untrusted part of the interface, which is maybe the composer, and it pre-fills something, and there's also a trusted part of the interface beside that, maybe just above it, that shows the original source article, the relevant paragraph. And so, you can look at both.
Obviously, we study customer support flow very carefully and closely, and we absolutely have some support agents where it's like, “Okay, I got the question,” and they have to go and find an article themselves. Some expert ones know it, they're instantly there, and they know exactly where to go. Maybe they've got a macro that does it, but then maybe someone who's newer in the company and they're still being trained in, or maybe it's only part of their job, they have to go and find the article themselves, then they have to read it and check the answer, and then they have to copy paste it and reformat it. So maybe there's a productivity boost. Maybe you can make someone twice as efficient or something.
Des: All that agent behavior will also inform the system. If you put it live and agents are forever going “Wrong, right, wrong, right,” all that feeds back in, and then it gets better. Or, if they're rewriting the answer to be more accurate, I assume we can learn from that. And then, very quickly, the system converges on all the right answers.
“There are a lot of trade-offs. It's very easy to say we want a system that will learn in production. But then it's like okay, who has to maintain that? Who has to debug that?”
Fergal: We could certainly build a system that does all of those things. GPT-3.5 won't nakedly do it. If you decide to build on it as a building block, not even an assessment, is that the right system to build on? Its capability is very good, but it's not the only generative model in town. But whatever we build on, and we're getting really into the roadmap, we would potentially build a learning loop. With most of our tech at the moment where we do that, we absolutely gather feedback. There are some parts of the resolution bot like predictive answers, where it predicts things to end users, where it actually does use what the users say, like, “that helps” as a training signal, and potentially we can end up building that.
There are a lot of trade-offs. It's very easy to say, “We want a system that will learn in production. But then it's like, “Okay, who has to maintain that? Who has to debug that?” Sometimes it's easier to get it to a stable stage and then lock it. So, it depends. We did metrics and analytics whenever we upgrade. We're getting into the details of our models and how we check the accuracy and calibrate them, and stuff.
Des: I know our inbox has this feature where, based on what you've said before, if I jump in the inbox, before I've said anything to try and start a conversation, it'll say, “Hey, I'm Des, co-founder of Intercom, thrilled to be chatting with you.” Whatever my most common thing is, that's automatically pre-written for me.
Fergal: Yep. Smart replies.
Des: Am I right in saying that it's just the mini version in some sense of what we're describing here? Because we were really just going for salutations and maybe ends and maybe handoffs, and the common boilerplate of a support conversation should be there for you. And that, alone, is a productivity boost. But the idea that we could get one degree sharper, and somewhere in the middle of all that boilerplate is, “Here's the meat of the answer,” is where you're talking about going, right?
“We believe its time is coming, and we're trying to figure out the best ways to make people more efficient and to leverage it in a production setting that actually works for people”
Fergal: Yeah, totally. And again, to separate things out – there's just the change in the world, an increased capability, GPT-3.5, and then there's the stuff that we're working on as we grind away on this problem and try to deliver things that will make it better for our customers. I think the capabilities have really improved, but we're still figuring out if we can use this. Is there a shortcut to where we want to go? Maybe we can use these capabilities as building blocks, there are loads of ways to potentially use them as building blocks. But in terms of the direction we were going on already anyway, there are a lot of things agents do such as greetings where it's very obvious. We don't ever want to annoy people. We don't ever want to have an agent read through a bunch of text and then be like, “Oh, that's useless. Why did you do that?” It reduces their trust in the system. It slows them down. We want to help them out.
لذلك ، بالنسبة للردود الذكية ، بدأنا بالترحيب. كان مجرد شيء واضح يجب القيام به. يمكننا بسهولة معرفة متى تريد تحية على الأرجح - ستدخل في محادثة جديدة ولم يقل أي شخص أي شيء للمستخدم النهائي من قبل. من الواضح جدا. كانت تلك قطعة فاكهة معلقة. أحب الناس حقًا واجهة المستخدم. إنه سهل ، وهو منخفض الاحتكاك. الآن ، لا يمكننا سوى تقديم اقتراح واحد هناك ، وهناك بعض الأوقات التي يصعب على النظام تحديدها. في الوقت الحالي ، لدينا هذا التدفق الكلي ، ويستخدم الأشخاص وحدات الماكرو كثيرًا. عليهم اختيار أي من وحدات الماكرو. هل يجب أن نقترح هذه الوحدات على الأشخاص بشكل استباقي؟ ربما لا نريد ملء الملحن مسبقًا ، ربما نريد فقط عرض بعض اقتراحات الماكرو السياقية. هناك الكثير من التدفقات المتكررة. لقد عملنا على أشياء مثل اكتشاف التدفق ، ومحاولة فهم الخطوات الشائعة التي يمر بها الناس.
أعتقد أن الرسالة الكبيرة هي أننا نعتقد أن هذا النوع من التكنولوجيا التوليدية يجب أن يتم تشكيله وجعله جيدًا بحيث لا يكون مزعجًا ، بحيث لا يمنحك أشياء خاطئة ويضللك ، وبالتأكيد لا يدفع المزيد من العمل أو الضغط عليك مما كنت ستحصل عليه بدونها. نعتقد أن الوقت قد حان ، ونحاول اكتشاف أفضل الطرق لجعل الناس أكثر كفاءة والاستفادة منها في بيئة إنتاج تناسب الناس بالفعل.
AI-ML يتجاوز الدعم
Des: نحن نتحدث عن الدعم. ما هي الصناعات الأخرى التي تعتقد أنها سترى قيمة هذا في الأيام الأولى؟ يبدو أن الدعم بيئة غنية بالأهداف لهذا النوع من التكنولوجيا ، ولكن هل هناك غيرها؟
فيرغال: من الواضح أننا متفائلون بشأن الدعم. هناك الكثير من الأشياء التي تمت كتابتها. إنه مثل ، "أوه ، أدرك الوكيل مبكرًا أن هذه مشكلة من النوع التالي ،" مثل إعادة تعيين حسابي أو شيء من هذا القبيل. هناك الكثير من الهياكل في تلك المنطقة. هناك مزيج من هيكل مشكلة العميل الحقيقي الذي يلتقي بالتقنية الجيدة جدًا في التعامل مع اللغة الطبيعية وإعادة تشكيلها. يمكننا أن نرى زرًا يمكنك الضغط عليه لجعل ما في الملحن أكثر رسمية ، أو زرًا لجعله أكثر اعتذارًا ، أليس كذلك؟ نعتقد أنها منطقة مثيرة للغاية في الوقت الحالي. لا أريد الخوض في كل شيء بشكل تخميني تمامًا. ولكن حتى قبل ذلك ، كان فريق التعلم الآلي يعمل في هذا المجال. نحن نؤمن بشدة بالدعم.
الدعم الخارجي ، أي شيء يوجد به هيكل في المهمة وموافق بشري قادر على التمييز عندما تكون الإجابة صحيحة أو خاطئة. سيبدو هذا حدسًا غريبًا ، ولكن في علوم الكمبيوتر أو التشفير ، نولي اهتمامًا لأنواع معينة من المشكلات حيث يسهل التحقق من صحة الإجابة ، ولكن يصعب البحث عنها والعثور على هذه الإجابة. فصول التعقيد ، كل تلك الأشياء. لكن نعم ، الناس مهتمون بمشاكل من هذا القبيل. لا يسعني إلا أن أعتقد أن هناك حدسًا مشابهًا هنا. لديك تحدٍ حيث من السهل جدًا على الإنسان التحقق مما إذا كانت الإجابة صحيحة أم لا ، ولكن من الصعب عليهم البحث عن ذلك والبحث عن ذلك. أو ربما لا يهتم الفريق بما إذا كانت الإجابة صحيحة بما يكفي لأنه لا يوجد شيء اسمه صحيح ، مثل ، "اكتب لي قصيدة عن X ، Y".
ديس: فئة المشكلة حيث يكون التحقق من الإجابة رخيصًا جدًا ولكن إنشاءها مكلف جدًا ، أو لا توجد إجابة صحيحة.
فيرجال: وأيضًا ، قد تختلف الإجابة في ستة أشهر أو سنة. يمكن أن تكون الإجابة في غضون عام مثل ، "في أي وقت يمكن للكمبيوتر التحقق مما إذا كانت الإجابة صحيحة أم لا." أو قد يكون ذلك في أي وقت يكون فيه المجال بسيطًا بدرجة كافية ، فسيعطيك نظام التعلم الآلي بالتأكيد الإجابة الصحيحة أو من المحتمل جدًا أن يعطيك. إنه شيء متطور. أعتقد أنه من الصعب وضع حدود في الوقت الحالي.
"ما الذي نشحنه في يناير؟"
مجالات أخرى مثل برمجة الكمبيوتر ، على سبيل المثال. يجب على الشخص الجالس في المحطة الخاصة بهم مراجعة الكود على أي حال ، ويمكنهم القيام بذلك ، ويمكن أن يكون هناك خطأ خفي في مكان ما في التعليمات البرمجية الخاصة بك. في بعض الأحيان يكون من الأسهل كتابة الكود بنفسك بدلاً من تحديد خطأ خفي. لكن في كثير من الأحيان ، إذا نظرت إلى سير عمل مبرمج كمبيوتر ، فستجد أنه مثل ، "أوه ، أعرف كيف أفعل ذلك ، لكني لا أتذكر بالضبط كيفية استخدام هذه المكتبة. سأذهب إلى Google من أجل ذلك. سأذهب إلى Stack overflow ". والفكرة هي أنه عندما ترى الإجابة رقم ثلاثة في Stack Over ، ستقول ، "أوه نعم ، هذا صحيح. هذا ما اريد." هناك سير عمل كامل من هذا القبيل يشغل الكثير من وقت المبرمج ، وهذا المساعد يأتي ويوجد نهاية حول ذلك. ثم أعد تنسيق الكود ليناسب. هذا قوي للغاية.
بدأنا الحديث عن ، "ما هو برنامج Copilot لدعم العملاء؟" لدينا نماذج أولية وهناك الكثير يمكنك اللعب به. ربما لا تجيب على السؤال كاملاً ، بل تعطيه إجابة مكونة من كلمتين أو ثلاث كلمات ، ويكتبها ، ثم تعدلها ، فتقول ، "اجعل ذلك أكثر رسمية ، واجعله أطول ، واجعل هذا أقصر ". يبدو أن هناك الكثير الذي يمكننا القيام به هناك.
Des: وماذا نشحن في يناير؟
فيرغال: سأضطر إلى فرض رقابة على هذا الجزء من المحادثة. سنقوم بشحن شيء ما.
ديس: نعم ، أراهن. تمام. لقد كان هذا رائعًا. أعتقد أننا سنتحقق في غضون أسبوعين آخرين عندما تغير كل العالم مرة أخرى. ولكن إذا لم يكن الأمر كذلك ، فقد يستغرق الأمر بضعة أشهر. شكرا جزيلا.
Fergal: بحلول الوقت الذي ينتهي فيه الأمر على الويب ، أنا متأكد من أنه سيكون قديمًا وسيبدو أحمق. لكن هذه هي طبيعة هذا العمل.
ديس: بالتأكيد. لهذا السبب تعمل على ذلك.
فيرجال: لهذا نحن نعمل. انها مثيرة.