Після випуску Gemini3 команда висловилася: три основні інновації, закон масштабу залишається дійсним.

金色财经_

2025-11-19 03:24:30

Автор: Уцзі, спеціальний переклад Tencent Technology

19 листопада за пекінським часом, після випуску серії моделей Gemini 3 компанією Google, технологічний подкаст «Hard Fork», що належить The New York Times, випустив спеціальний випуск, в якому ведучі Кевін Руз (Kevin Roose) та Кейсі Ньютон (Casey Newton) провели ексклюзивне інтерв'ю з генеральним директором Google DeepMind Демісом Хасабісом (Demis Hassabis) та керівником команди Google Gemini Джошем Вудвордом (Josh Woodward).

! CvRvOPvU1NPiq0pgWagbJg1eE6Ig1z0vIyfmcy1f.jpeg

Ця інтерв'ю зосереджено на новітній флагманській AI моделі Google Gemini 3 (насправді Pro версія з серії Gemini 3.0), що стало першим визнаним в галузі етапом повернення Google до технологічної та продуктової переваги після провалу Bard та етапів наздоганяння Gemini 1.x та 2.x.

Двоє відповідальних осіб детально описали прориви Gemini 3 у багатоступеневому міркуванні, генерації коду (особливо в фронтенді та “атмосферному кодуванні”), динамічній генерації інтерфейсів взаємодії тощо, підкреслюючи, що Google швидко впровадив найсильнішу модель у продукти для мільярдів користувачів, такі як пошук, Gmail, Workspace, тим самим перетворивши конкурентні бар'єри.

Основні моменти інтерв'ю:

Gemini 3 повністю відповідає очікуваній траєкторії розвитку, до загального штучного інтелекту (AGI) ще потрібно 5-10 років та 1-2 значних наукових прориви;
Переваги Google в ефективності, витратах та розподілі забезпечують йому перемогу в будь-якому ринковому середовищі;
Частина AI-бульбашки існує, але Google одночасно має подвійне забезпечення короткострокової монетизації та довгострокової трильйонної нової траси.

Нижче наведено скорочену версію інтерв'ю.

Лодз: Кейсі, сьогодні ми терміново запускаємо спеціальний випуск, тема якого – випуск Gemini 3.

Ньютон: Так, Кевін. Ця модель давно очікується в AI-колах Силіконової долини, і ми нарешті зможемо особисто випробувати справжній продукт.

Розділ: Чому ми вирішили порушити звичайний ритм випусків у п'ятницю і спеціально записати цей епізод, є дві основні причини. По-перше, ми отримали можливість провести ексклюзивне інтерв'ю з двома ключовими керівниками AI компанії Google (Генеральним директором DeepMind Демісом Хасабісом та віце-президентом команди Gemini Вудвордом).

По-друге, випуск Gemini 3 викликав сильну зацікавленість у галузі. Ми чули з внутрішніх джерел кількох лабораторій, що ця модель досягла прориву в деяких ключових сферах, що може становити суттєву загрозу для конкурентів. Протягом останніх двох років Google вважався наздоганяючим, тепер питання в тому: чи повернулися вони на позицію лідера?

Ньютон: Перед тим, як офіційно розпочати інтерв'ю, ми спочатку коротко представимо відомості. Google провела закриту брифінг-зустріч перед випуском, найяскравішими новими можливостями Gemini 3 є: значне покращення можливостей кодування та «атмосферного кодування»; а також зовсім нова функція генерації інтерактивного інтерфейсу.

Він більше не просто виводить текст, а безпосередньо генерує індивідуалізований інтерактивний інтерфейс для користувачів. Наприклад, коли користувач запитує про життя Ван Гога, модель миттєво створює повну навчальну сторінку, що містить зображення, часову лінію та інтерактивні елементи; або, наприклад, генерує калькулятор іпотеки для нерухомості вартістю понад мільйон доларів. Ці функції позначають перехід від “відповідей на запитання” до “створення досвіду”.

Родж: У всіх публічних бенчмарках Gemini 3 значно перевищує Gemini 2.5 Pro. Наприклад, у наборі міждисциплінарних докторських задач, відомому як “Остаточний іспит людства” (Humanity's Last Exam), перший набрав лише 21.6%, тоді як другий піднявся до 37.5%. Загальна позиція Google така: будь-яке завдання, яке ви можете виконати в ChatGPT, Claude або інших старих версіях Gemini, можна виконати в Gemini 3 ще краще.

Ньютон: Вони також продемонстрували ранню версію Gemini Agent: модель може глибоко взаємодіяти з електронною поштою користувача, розуміти весь вміст листів, автоматично класифікувати, складати відповіді та навіть допомагати користувачеві повністю очистити папку вхідних повідомлень.

Крім того, з цього тижня Gemini 3 з'явиться в додатку Gemini та в AI Mode на Google Search; студенти в США отримають річний безкоштовний доступ до преміум-версії. Ключове слово, яке Google підкреслює, - це “Learn Anything” (вчити все), що насправді позиціонує Gemini як остаточний інструмент персоналізованого навчання.

Розділ: Деміс, Джоші, ласкаво просимо до “Hard Fork”. Два роки тому Сундар Пічаї порівняв Bard з “переробленим Honda Civic”, змагаючись на трасі з більш потужними суперниками. То яка ж машина Gemini 3?

Хасабіс: Я сподіваюся, що він буде набагато швидшим за Honda Civic. Я не дуже звик використовувати автомобілі для метафор, можливо, це більше схоже на професійний драг-рейсер. Він не призначений для повсякденного водіння або кільцевих гонок, він має чисту, величезну силу, зосереджену на конкретній меті. Він представляє собою ідеальне поєднання наших найкращих досліджень та масштабованих обчислювальних потужностей, мета якого полягає в тому, щоб продемонструвати безпрецедентну миттєву потужність у цій гонці на передовій інтелекту.

Родж: Це дуже цікаво. Які нові конкретні речі може зробити Gemini 3 в порівнянні з усіма попередніми AI моделями? Будь ласка, надайте нам кілька кількісних, практичних прикладів.

Вудворд: Є три найважливіші моменти. По-перше, у багатоступеневому міркуванні він може одночасно продумувати більше етапів, ми підняли його надійність на абсолютно новий рівень. Попередні моделі часто «втрачали думку» або генерували ілюзії на 5-6 кроці складного логічного висновку, тоді як Gemini 3 здатен надійно виконувати завдання з послідовного міркування на 10-15 етапах, наприклад, складне податкове планування, загальне планування та бронювання міжнародних поїздок або повну налагодження великої системи з мільйонами рядків коду.

По-друге, він вперше в великому масштабі створить новий інтерактивний інтерфейс. Користувачам більше не потрібні прості текстові відповіді, а потрібні налаштовані програмні компоненти. Наприклад, якщо ви запитаєте його: «Допоможи мені спроектувати панель приладів, яка може відстежувати всі мої інвестиційні портфелі», він в реальному часі згенерує інтерактивний, керований інтерфейс панелі, а не купу описів того, як створити панель приладів.

По-перше, ми інвестували величезні ресурси в кодинг, особливо в фронтенд та “атмосферне кодування”, що означає, що воно може генерувати повнофункціональний, естетично привабливий код інтерфейсу користувача на основі підказок природної мови. Невдовзі запущені нові продукти, такі як Google Antigravity, також повністю продемонструють це, модель зможе динамічно змінювати макет та функції інтерфейсу користувача в залежності від контексту.

Ньютон: Багато людей вважають, що для звичайних користувачів випадок «чату» вже в принципі вирішено. Вони навіть не можуть уявити, які нові питання могли б зробити відповіді Gemini 3 qualitatively відмінними від попередників. Як ви ставитеся до цієї думки?

Вудворд: Я розумію цю точку зору. На перший погляд, точність базових відповідей вже дуже висока. Але справжня різниця полягає в надійності, інтеграції та способі подання інформації. Відповіді Gemini 3 будуть більш лаконічними, виразними та легшими для розуміння, і це зміна, яку більшість людей зможе помітити одразу.

Більш важливо, що модель починає глибоко інтегруватися з іншими джерелами даних користувача, наприклад, взаємодіючи з іншими продуктами в екосистемі Google, справді перевершуючи просту модель запитань і відповідей, ставши «цифровим домашнім помічником» користувача. Вона може зрозуміти контекст вашої електронної пошти, таким чином, під час складання відповіді не лише відповідає на запитання, але й може налаштувати тон і зміст відповідно до вашого минулого стилю та ваших відносин з отримувачем.

Хасабіс: Я повністю згоден. Його надійність, стиль та особистість ретельно відшліфовані, він став більш лаконічним і влучним. У сценах на кшталт “атмосферного кодування” він вже переступив межу практичності. Це перехід від “інтелектуального асистента” до “інтелектуального колеги”. Я сам планую використати його для повернення до програмування ігор під час різдвяних канікул, він тепер не тільки може писати функціональний код, але й надавати архітектурні рекомендації на ранніх етапах дизайну.

Розд: ДеМіс, коли ти давав нам інтерв'ю в травні цього року, ти вважав, що AGI все ще потребуватиме 5-10 років і, можливо, кількох значних проривів. Чи змінив Gemini 3 цей графік?

Хасабіс: Зовсім ні. Це повністю відповідає курсу, який ми встановили протягом останніх двох років. Насправді, з моменту запуску серії Gemini наша швидкість прогресу є найшвидшою в галузі. Gemini 3 вражає, але залишається в межах очікувань.

Щоб досягти справжнього загального штучного інтелекту, необхідно зробити 1-2 ключові прориви в таких аспектах, як узгодженість, глибина розумування, механізми пам'яті та моделювання фізичного світу (як це робиться в проектах SIMA та Genie, над якими ми працюємо). Те, що ми зараз робимо, - це “мислення системи 1” (швидке, інтуїтивне), але для досягнення AGI ми повинні розблокувати “мислення системи 2” (повільне, обдумане, аналітичне).

Крім того, модель повинна мати довгостроковий, вибірковий механізм пам'яті, здатний пригадувати та використовувати конкретний вміст взаємодії, що відбулася кілька тижнів або місяців тому, а не лише обмежуватися вузьким контекстом. Отже, оцінка на 5-10 років залишається незмінною.

Ньютон: Щодо індивідуальності моделей та відносин з користувачами, у галузі активно обговорюється «AI-партнер». Які відносини ви хотіли б, щоб користувачі встановили з Gemini 3?

Вудворд: Це дуже чутливе, але важливе питання. Ми позиціонуємо це як “суперінструмент”, а не емоційного партнера; основна цінність — допомогти користувачам ефективно виконувати щоденні завдання, підвищуючи продуктивність. Усередині ми більше зосереджені на новому показнику: скільки завдань ми допомогли вам виконати сьогодні? Це ближче до основної цінності початкового пошуку Google — ефективності. Ми вважаємо, що позиціонування моделі як емоційного партнера не лише має ризики безпеки, але й віддаляється від основної місії Google як постачальника інформації та інструментів.

Родз: Ви відмовилися від можливості вірусного зростання “еротичного партнера”, чи це велика стратегічна помилка?

Вудвард: Немає коментарів. Наша команда безпеки має строгі норми та керівні принципи щодо цього.

Розд: Протягом останніх кількох тижнів конкуренти явно нервують. Як ви вважаєте, чи компанія Google наразі є лідером у змаганні з ШІ?

Хасабіс: Поточне середовище є найбільш жорсткою конкуренцією в історії. Єдине, що насправді важливо, це швидкість прогресу, і ми дуже задоволені цим. Ми ніколи не втрачали лідерство в дослідженнях, зараз просто реалізація продукту нарешті наздоганяє. Конкуренти відмінні в дослідженнях, але в масштабному розподілі та вертикальній інтеграції вони не можуть відтворити нашу перевагу.

Ми впроваджуємо Gemini в десятки мільярдів користувацьких продуктів, таких як Maps, YouTube, Android, пошук, Workspace тощо. Ця мережа розподілу та зворотний зв'язок з даними терміналів є непереборною бар'єрною зоною. Крім того, наша повна перевага в кастомізованих чіпах TPU дозволяє знизити витрати на навчання та підвищити ефективність, значно перевищуючи конкурентів, які покладаються на зовнішні ресурси GPU.

Ньютон: Як ти ставишся до суперечок щодо закону масштабу та зменшення доходу? Дехто вважає, що чим більша модель, тим нижчою є гранична вигода від підвищення її продуктивності.

Хасабіс: Це постійна дискусія. Ми дуже задоволені покращенням Gemini 3 в порівнянні з 2.5, воно повністю відповідає нашим очікуванням. Віддача не зростає експоненційно так, як раніше, але приріст корисності та підвищення надійності все ще значно перевищують наші граничні витрати, тому ми все ще вважаємо, що варто вкласти в це всі сили. До моменту, коли відбудуться 1-2 дослідницькі прориви, необхідні для досягнення AGI, продовжувати підвищувати продуктивність через масштабування базових моделей залишається найефективнішою стратегією. Ми віримо, що закони масштабу все ще діють.

Родж: Чи знаходимося ми в бульбашці штучного інтелекту?

Хасабіс: Це занадто бінарне питання. У певних сферах (наприклад, компанії з мільярдними посівними раундами, але без реального продукту, які тільки говорять про концепції) дійсно існує бульбашка, оцінка не пропорційна реальному доходу. Але Google одночасно має короткострокову монетизацію (пошук, Workspace, хмарний TPU) та довгострокові трильйонні нові напрями (робототехніка, ігри, відкриття ліків, матеріалознавство тощо).

Наприклад, наші професійні моделі, такі як AlphaFold, створюють реальну цінність у сфері відкриття ліків, це трильйонний ринок, який не пов'язаний з оцінкою споживчого ШІ. Незалежно від того, чи існує короткостроковий бульбашка, ми переможемо: у процвітанні використовуємо можливості, а в періоди спаду завдяки повному стеку переваг і глибокому грошовому потоку стаємо більш стійкими.

Ньютон: Якщо зараз День подяки, і хтось хоче змінити політичну тему, що б ви порадили їм показати з Gemini 3, щоб вразити всіх?

Вудворд: Я не знаю, чи зможе це врятувати День подяки, але це може принести сміх. Вийміть телефон, щоб зробити селфі, а потім дайте Gemini 3 божевільно відредагувати фотографії.

Наші моделі зображень у Gemini залишаються найсильнішими у світі. Ви можете миттєво перетворити сімейне фото на будь-яку кумедну сцену, стиль або епоху. Це безсумнівно викликатиме сміх у всіх. Потім, коли ви покажете, як це може допомогти вам написати ввічливу відмову чи згенерувати індивідуальний калькулятор святкового рецепту, вони, звичайно, почнуть досліджувати інші нові функції.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.