بعد إطلاق Gemini3، أدلى الفريق ببيان: ثلاث نقاط ابتكارية لا تزال قانون الحجم سارية.

金色财经_

2025-11-19 03:24:30

المؤلف: ووجي، مترجم خاص من تكنولوجيا تينسنت

بتوقيت بكين في 19 نوفمبر، بعد إصدار جوجل لنموذج سلسلة Gemini 3، أصدرت بودكاست التكنولوجيا “Hard Fork” التابع لصحيفة نيويورك تايمز حلقة خاصة، حيث أجرى المضيفان كيفن روز (Kevin Roose) وكيسي نيوتن (Casey Newton) مقابلة حصرية مع الرئيس التنفيذي لشركة DeepMind التابعة لجوجل ديميس هاسابيس (Demis Hassabis) ورئيس فريق Gemini في جوجل جوش وودوارد (Josh Woodward).

! CvRvOPvU1NPiq0pgWagbJg1eE6Ig1z0vIyfmcy1f.jpeg

تركزت هذه المقابلة على أحدث نموذج AI الرائد الذي أصدرته جوجل، وهو Gemini 3 (في الواقع الإصدار Pro من سلسلة Gemini 3.0)، وهو أول إصدار يعتبر نقطة تحول في استعادة جوجل لمكانتها الرائدة في التكنولوجيا والمنتجات بعد فشل Bard ومرحلة التنافس مع Gemini 1.x و2.x.

أوضح المسؤولان بالتفصيل الإنجازات التي حققها Gemini 3 في مجالات الاستدلال المتعدد الخطوات، وتوليد الشيفرة (خاصة في الواجهة الأمامية و"ترميز الأجواء")، وتوليد واجهات تفاعلية بشكل ديناميكي، مؤكدين أن جوجل قد دفعت بأقوى نموذج بسرعة إلى البحث، وGmail، وWorkspace وغيرها من المنتجات التي تخدم مليارات المستخدمين، مما أعاد تشكيل حواجز المنافسة.

النقاط الرئيسية في المقابلة:

تتوافق Gemini 3 تمامًا مع مسار التطوير المتوقع، لا يزال يتعين 5 إلى 10 سنوات و1 إلى 2 من الانفجارات البحثية الكبيرة للوصول إلى الذكاء الاصطناعي العام (AGI)؛
توفر جوجل مزايا شاملة في الكفاءة والتكلفة والتوزيع، مما يجعلها تفوز في أي بيئة سوقية؛
يوجد جزء من فقاعة الذكاء الاصطناعي، لكن لدى جوجل ضمان مزدوج لتحقيق العوائد على المدى القصير وإمكانية الوصول إلى مسارات جديدة على المليارات على المدى الطويل.

أدناه هو النسخة المختصرة من محتوى المقابلة

لودز: كايسي، نحن نقوم بإضافة حلقة خاصة اليوم، والموضوع هو إصدار جمنيني 3.

نيوتن: نعم، كيفن. لقد تم انتظار هذا النموذج في دوائر الذكاء الاصطناعي في وادي السيليكون لفترة طويلة، وأخيرًا سنختبر المنتج النهائي بأنفسنا.

رودز: السبب الذي جعلنا نكسر نمط إصدار يوم الجمعة هو أننا خصصنا هذه الحلقة لسببين رئيسيين. أولاً، حصلنا على فرصة لإجراء مقابلة خاصة مع اثنين من المسؤولين الرئيسيين في الذكاء الاصطناعي في جوجل (المدير التنفيذي لشركة DeepMind هاسابيس ونائب رئيس فريق Gemini وودوارد).

ثانياً، أثار إصدار Gemini 3 اهتماماً كبيراً في الصناعة. سمعنا من مصادر داخلية من عدة مختبرات أن هذا النموذج حقق اختراقات في بعض المجالات الرئيسية، مما قد يشكل تهديداً جوهرياً للمنافسين. على مدار العامين الماضيين، كانت جوجل تُعتبر متخلفة، والسؤال الآن هو: هل عادت إلى موقع الصدارة؟

نيوتن: قبل أن نبدأ المقابلة رسميًا، دعونا نقدم لمحة سريعة عن المعلومات المعروفة. عقدت جوجل مؤتمرًا مغلقًا قبل الإطلاق، ومن أبرز القدرات الجديدة لـ Gemini 3: تحسين كبير في قدرات الترميز و"ترميز الأجواء"؛ بالإضافة إلى وظيفة جديدة لإنشاء واجهات تفاعلية.

لم يعد الأمر يقتصر على إنتاج النصوص فقط، بل أصبح يقوم مباشرةً بإنشاء واجهات تفاعلية مخصصة للمستخدمين. على سبيل المثال، عندما يسأل المستخدم عن حياة فان جوخ، يقوم النموذج على الفور بإنشاء صفحة تعليمية كاملة تحتوي على صور، وخط زمني، وعناصر تفاعلية؛ كما أنه يولد حاسبة للرهن العقاري لعقارات تتجاوز قيمتها مليون دولار. هذه الميزات تُشير إلى الانتقال من “الإجابة على الأسئلة” إلى “بناء التجارب”.

رودس: في جميع الاختبارات المعيارية العامة، تفوقت Gemini 3 بشكل كبير على Gemini 2.5 Pro. على سبيل المثال، في مجموعة من المشاكل التي تُعرف باسم “اختبار البشرية النهائي” (Humanity's Last Exam) وهي مجموعة من التحديات ذات مستوى الدكتوراه عبر التخصصات، حصلت الأولى على درجة 21.6%، بينما تحسنت الثانية مباشرة إلى 37.5%. التصريح العام من Google هو: أي مهمة يمكنك إنجازها على ChatGPT أو Claude أو أي إصدار قديم من Gemini، يمكنك القيام بها بشكل أفضل على Gemini 3.

نيوتن: لقد عرضوا أيضًا العرض المبكر لوكيل جيميني: يمكن للنموذج الوصول بعمق إلى بريد المستخدم الإلكتروني، وفهم محتوى جميع الرسائل، وتصنيفها تلقائيًا، وصياغة الردود، وحتى مساعدة المستخدم في إفراغ صندوق الوارد تمامًا.

بالإضافة إلى ذلك، اعتبارًا من هذا الأسبوع، سيصل Gemini 3 إلى تطبيق Gemini ووضع الذكاء الاصطناعي في بحث Google؛ سيحصل طلاب الجامعات الأمريكية على وصول مجاني لمدة عام إلى النسخة المتميزة. الكلمة الرئيسية التي تكررها Google هي “تعلم أي شيء”، وهذا في الواقع يضع Gemini كأداة تعليمية مخصصة نهائية.

لودز: ديميس، جوش، مرحبًا بكم في “Hard Fork”. قبل عامين، قارن سوندار بيشاي (Sundar Pichai) Bard بـ “هوندا سيفيك المعدلة”، أثناء السباق على المضمار ضد منافسين أقوى. إذن، ما هي السيارة التي تمثل Gemini 3؟

هاسابيس: أريد أن تكون أسرع بكثير من هوندا سيفيك. لست معتادًا على استخدام السيارات كاستعارة، ربما تشبه أكثر سيارة سباق سحب احترافية. إنها ليست مصممة للقيادة اليومية أو حلبات السباق، بل تمتلك قوة هائلة مركزة تمامًا لهدف معين. إنها تمثل أفضل نتائج أبحاثنا مع الجمع المثالي لقوة الحوسبة على نطاق واسع، والهدف هو إظهار قدرة انفجار瞬ية لا مثيل لها في هذه المنافسة على حافة الذكاء.

لودز: هذا مثير للاهتمام. ما الذي يمكن لنموذج Gemini 3 فعله بشكل جديد على المستوى المحدد مقارنة بجميع نماذج الذكاء الاصطناعي السابقة؟ يرجى إعطائنا بعض الأمثلة الكمية والعملية.

وودوارد: هناك ثلاث نقاط بارزة. أولاً، في الاستدلال متعدد الخطوات، يمكنه التفكير في المزيد من الخطوات في وقت واحد، مما رفع موثوقيته إلى مستوى جديد تمامًا. غالبًا ما تفقد النماذج السابقة “فكرتها” أو تتخيل أشياء عندما تصل إلى خطوة 5 أو 6 من الاستدلال المنطقي المعقد، بينما يمكن أن يكمل Gemini 3 بشكل موثوق مهام الاستدلال المتسلسل التي تتكون من 10 إلى 15 خطوة، مثل التخطيط الضريبي المعقد، والتخطيط والحجز الشامل للسفر عبر الدول، أو تصحيح الأخطاء بشكل شامل في نظام ضخم يحتوي على ملايين الأسطر من الشيفرة.

ثانيًا، ستقوم بإنشاء واجهة تفاعلية جديدة على نطاق واسع لأول مرة. لم تعد احتياجات المستخدم تتمثل في إجابات نصية بسيطة، بل في مكونات برمجية مخصصة. على سبيل المثال، إذا سألتها: “ساعدني في تصميم لوحة تحكم يمكنها تتبع جميع محفظتي الاستثمارية”، ستقوم بإنشاء واجهة لوحة تحكم تفاعلية وقابلة للتشغيل في الوقت الفعلي، بدلاً من مجموعة من النصوص التي تصف كيفية إنشاء لوحة التحكم.

ثالثًا، نحن نستثمر موارد هائلة في قدرات الترميز، خاصة في واجهة المستخدم و"ترميز الأجواء"، مما يعني أنه يمكنه توليد رمز واجهة مستخدم كامل الوظائف وجميل التصميم استنادًا إلى مطالبات اللغة الطبيعية. ستظهر المنتجات الجديدة مثل Google Antigravity القادمة ذلك بالكامل، حيث يمكن للنموذج تغيير تخطيط وميزات واجهة المستخدم ديناميكيًا بناءً على السياق.

نيوتن: يعتقد الكثير من الناس أنه بالنسبة للمستخدمين العاديين، تم حل حالة “الدردشة” بشكل أساسي. إنهم حتى لا يستطيعون التفكير في أي مشاكل جديدة يمكن أن تجعل إجابات Gemini 3 تختلف نوعياً عن الأجيال السابقة. كيف ترى هذا الرأي؟

وودوارد: أفهم هذا الرأي. من الظاهر أن دقة الأسئلة والأجوبة الأساسية عالية بالفعل. لكن الفرق الحقيقي يكمن في الموثوقية، والتكامل، وطريقة تقديم المعلومات. ستكون إجابات Gemini 3 أكثر اختصارًا، وأكثر تعبيرًا، وطريقة تقديم المعلومات ستكون أسهل في الفهم، وهذا هو التغيير الذي يمكن أن يدركه معظم الناس على الفور.

الأهم من ذلك، بدأ النموذج في التكامل العميق مع مصادر بيانات المستخدم الأخرى، مثل الربط مع المنتجات الأخرى في بيئة جوجل، متجاوزاً حقاً نمط الأسئلة والأجوبة البسيط، ليصبح “مديرك الرقمي الكبير”. يمكنه فهم سياق بريدك الإلكتروني بالكامل، مما يسمح له عند صياغة الردود، بأن لا يجيب فقط على الأسئلة، بل يعدل النغمة والمحتوى بناءً على أسلوبك السابق وعلاقتك مع المستلم.

هاسابيس: أوافق تمامًا. تم صقل موثوقيتها وأسلوبها وشخصيتها بعناية، مما يجعلها أكثر دقة وتركيزًا. لقد تجاوزت المشاهد مثل “ترميز الأجواء” عتبة الفائدة العملية. إنها تحول من “مساعد ذكي” إلى “زميل ذكي”. أنا شخصيًا أعتزم استخدامها لاستئناف برمجة الألعاب خلال عطلة عيد الميلاد، فهي الآن لا تكتب فقط شفرة الوظائف، بل تقدم أيضًا اقتراحات هيكلية في المراحل الأولى من التصميم.

لودز: ديميس، عندما أجريت معك المقابلة في مايو من هذا العام، حكمت أن AGI لا يزال يحتاج من 5 إلى 10 سنوات، وقد يتطلب بعض الاختراقات الكبيرة. هل غيرت جمنّي 3 هذا الجدول الزمني؟

هاسابيس: لا على الإطلاق. إنه يتماشى تمامًا مع المسار الذي حددناه على مدى العامين الماضيين. في الواقع، منذ إطلاق سلسلة Gemini، كانت سرعتنا في التقدم هي الأسرع في الصناعة. Gemini 3 مذهلة، لكنها لا تزال ضمن التوقعات.

لا يزال يتعين تحقيق من 1 إلى 2 اختراقات رئيسية في التناسق وعمق الاستدلال وآلية الذاكرة ونمذجة العالم الفيزيائي (مثل مشروع SIMA ومشروع Genie الذي نحن بصدد تطويره) للوصول إلى الذكاء الاصطناعي العام الحقيقي. ما نقوم به الآن هو “تفكير النظام 1” (سريع، حدسي)، ولكن لتحقيق AGI، يجب علينا فتح “تفكير النظام 2” (بطيء، مدروس، تحليلي).

علاوة على ذلك، يحتاج النموذج إلى آلية ذاكرة طويلة الأمد انتقائية، قادرة على استرجاع وتطبيق محتوى التفاعلات المحددة من أسابيع أو أشهر مضت، وليس مقتصراً فقط على نافذة السياق المحدودة. لذلك، تبقى الأحكام التي تمتد من 5 إلى 10 سنوات دون تغيير.

نيوتن: حول شخصية النموذج وعلاقة المستخدمين، هناك نقاش ساخن في الصناعة حول “الرفاق الذكائيين”. ماذا تأمل أن تكون العلاقة بين المستخدم وGemini 3؟

وودوارد: هذه مسألة حساسة ولكنها مهمة للغاية. نحن نحددها كـ “أداة فائقة” بدلاً من رفيق عاطفي، والقيمة الأساسية هي مساعدة المستخدمين على إكمال المهام اليومية بكفاءة وزيادة الإنتاجية. نحن نركز داخليًا على مؤشر جديد: كم عدد المهام التي ساعدناك في إنجازها اليوم؟ هذا أقرب إلى القيمة الأساسية لجوجل في بداياتها - الكفاءة. نحن نعتقد أن دفع النموذج نحو تحديد رفيق عاطفي يحمل مخاطر أمنية، كما أنه يبتعد عن المهمة الأساسية لجوجل كمزود للمعلومات والأدوات.

رودز: هل تخليتم عن فرصة النمو الفيروسي لـ"شريك الإثارة"، هل كان ذلك خطأ استراتيجيًا كبيرًا؟

وودوارد: لا أستطيع الإفصاح عن ذلك. لدى فريق الأمن لدينا معايير وإرشادات صارمة بشأن هذا.

لوز: في الأسابيع القليلة الماضية، كان المنافسون متوترين بشكل ملحوظ. هل تعتقد أن جوجل تتصدر حاليًا في سباق الذكاء الاصطناعي؟

هاسابيس: البيئة الحالية هي أكثر المنافسات شدة في التاريخ. الشيء الوحيد الذي يهم حقًا هو سرعة التقدم، ونحن راضون جدًا عن ذلك. لم نفقد أبدًا ريادتنا في البحث، والآن فقط بدأت المنتجات في الوصول أخيرًا. المنافسون ممتازون في البحث، لكنهم غير قادرين على تكرار ميزتنا في التوزيع على نطاق واسع والتكامل الرأسي.

نحن ندمج Gemini في منتجات تضم مليارات المستخدمين مثل Maps و YouTube و Android و البحث و Workspace، وهذه الشبكة التوزيعية وحلقة ردود البيانات النهائية هي خندق لا يمكن تجاوزه. بالإضافة إلى ذلك، فإن ميزتنا الكاملة على رقائق TPU المخصصة تجعل تكاليف وكفاءة تدريبنا تتجاوز بكثير المنافسين الذين يعتمدون على موارد GPU الخارجية.

نيوتن: ما رأيك في الجدل حول قانون النطاق والعوائد المتناقصة؟ يعتقد البعض أنه كلما زاد حجم النموذج، قل العائد الهامش الناتج عن تحسين الأداء.

هاسابيس: هذه مناقشة مستمرة. نحن راضون للغاية عن التحسينات التي حققها Gemini 3 مقارنة بـ 2.5، وهي تتماشى تمامًا مع توقعاتنا. العوائد ليست مثل تلك التي كانت في وقت سابق، حيث كانت تنمو بشكل متسارع، ولكن الزيادة في الفائدة والموثوقية التي تجلبها لا تزال أعلى بكثير من تكاليفنا الحدية، ولا تزال تستحق استثمارنا الكامل. قبل أن تأتي 1 إلى 2 اختراق بحثي مطلوب للوصول إلى AGI، فإن دفع الأداء من خلال أكبر نموذج أساسي لا يزال هو الاستراتيجية الأكثر فعالية في الوقت الحالي. نحن نؤمن بأن قانون الحجم لا يزال ساري المفعول.

رودز: هل نحن في فقاعة الذكاء الاصطناعي؟

هاسابيس: هذه مسألة ثنائية للغاية. هناك بالفعل فقاعات في بعض المجالات (مثل الشركات التي حصلت على جولات تمويل أولى بمليارات الدولارات ولكن ليس لديها منتج فعلي، وتقتصر على التحدث عن المفاهيم) حيث أن التقييمات لا تتناسب مع الإيرادات الفعلية. ولكن لدى جوجل في الوقت نفسه إمكانية تحقيق العائدات على المدى القصير (البحث، Workspace، TPU السحابية) ومسارات جديدة طويلة الأجل بقيمة تريليون (الروبوتات، الألعاب، اكتشاف الأدوية، علوم المواد، إلخ).

على سبيل المثال، فإن نماذجنا المتخصصة مثل AlphaFold تحقق قيمة فعلية في مجال اكتشاف الأدوية، وهو سوق بقيمة تريليون دولار غير مرتبط بتقييمات الذكاء الاصطناعي الاستهلاكي. سواء كانت هناك فقاعات قصيرة الأجل أم لا، فإننا سننتصر: نغتنم الفرص في أوقات الازدهار، ونكون أكثر مرونة في أوقات الانكماش بفضل مزايانا الشاملة وتدفقاتنا النقدية القوية.

نيوتن: إذا كان الآن حفلة عيد الشكر وكان هناك من يرغب في تحويل الحديث إلى السياسة، ماذا ستقترح عليهم أن يظهروا من ميزات Gemini 3 لإبهار الجميع؟

وودوارد: لا أعلم إن كان بإمكانه إنقاذ عيد الشكر، لكنه يمكن أن يجلب الضحك. أخرج هاتفك المحمول لالتقاط سيلفي ثم دع Gemini 3 يعدل الصور بشكل جنوني.

نموذج الصور لدينا في Gemini لا يزال الأقوى على مستوى العالم. يمكنك تحويل صورة عائلية إلى أي مشهد أو نمط أو خلفية زمنية مضحكة على الفور. بالتأكيد سيثير ضحك الجميع. ثم، عندما تظهر لهم كيف يمكن أن يساعدك في كتابة خطاب استقالة مناسب أو إنشاء آلة حاسبة لوصفة عطلة مخصصة، فإنهم سيتجهون بالطبع لاستكشاف الميزات الجديدة الأخرى.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.