Escaneie para baixar o app da Gate
qrCode
Mais opções de download
Não me lembre de novo hoje

Após o lançamento do Gemini3, a equipe se manifestou: três pontos de inovação, a lei de escala ainda é válida.

Autor: Wuji, tradução especial da Tencent Technology

No horário de Pequim, em 19 de novembro, após o lançamento da série de modelos Gemini 3 pelo Google, o podcast de tecnologia “Hard Fork” do New York Times lançou um episódio especial, onde os apresentadores Kevin Roose e Casey Newton entrevistaram o CEO da DeepMind do Google, Demis Hassabis, e o líder da equipe do Google Gemini, Josh Woodward.

CvRvOPvU1NPiq0pgWagbJg1eE6Ig1z0vIyfmcy1f.jpeg

Esta entrevista foca no mais recente modelo de IA de topo da Google, o Gemini 3 (na verdade, a versão Pro da série Gemini 3.0), que é amplamente considerado pela indústria como um lançamento marcante que permite à Google recuperar a liderança tecnológica e de produtos após as falhas do Bard e as fases de recuperação do Gemini 1.x e 2.x.

Os dois responsáveis detalharam as inovações do Gemini 3 em áreas como raciocínio em múltiplas etapas, geração de código (especialmente no frontend e “codificação de atmosfera”), e geração dinâmica de interfaces interativas, enfatizando que o Google rapidamente levou o modelo mais forte para produtos usados por bilhões de usuários, como busca, Gmail e Workspace, reformulando as barreiras competitivas.

Pontos-chave da entrevista:

  • Gemini 3 está completamente de acordo com a trajetória de desenvolvimento esperada, sendo necessário ainda de 5 a 10 anos e de 1 a 2 grandes avanços de pesquisa para alcançar a inteligência artificial geral (AGI);
  • As vantagens de pilha completa da Google em eficiência, custos e distribuição garantem que ela se destaque em qualquer ambiente de mercado;
  • Existe uma parte da bolha de IA, mas o Google possui simultaneamente garantias de monetização a curto prazo e uma nova faixa de trilhões a longo prazo.

Abaixo está a versão resumida do conteúdo da entrevista.

Rodz: Kacey, hoje vamos fazer uma emissão especial temporária, com o tema do lançamento do Gemini 3.

Newton: Sim, Kevin. Este modelo tem sido aguardado há muito tempo na comunidade de IA do Vale do Silício, e finalmente vamos ter a oportunidade de experimentar o verdadeiro produto.

Rodz: A razão pela qual quebramos o ritmo habitual de lançamentos às sextas-feiras e gravamos este episódio especialmente tem dois motivos. Primeiro, tivemos a oportunidade de uma entrevista exclusiva com duas figuras-chave da AI do Google (o CEO da DeepMind, Demis Hassabis, e o vice-presidente da equipe Gemini, Woodward).

Em segundo lugar, o lançamento do Gemini 3 gerou forte atenção na indústria. Recebemos informações internas de vários laboratórios que afirmam que este modelo fez avanços em algumas áreas-chave, podendo representar uma ameaça substancial para os concorrentes. Nos últimos dois anos, o Google foi visto como um perseguidor, agora a questão é: eles já retornaram à liderança?

Newton: Antes de começarmos a entrevista, vamos apresentar brevemente as informações conhecidas. O Google realizou uma reunião fechada antes do lançamento, e as novas capacidades mais impressionantes do Gemini 3 incluem: uma capacidade de codificação e “codificação de atmosfera” significativamente melhorada; e uma nova função de geração de interface interativa.

Ele não se limita mais a produzir texto, mas gera diretamente interfaces interativas personalizadas para os usuários. Por exemplo, quando um usuário pergunta sobre a vida de Van Gogh, o modelo gera instantaneamente uma página de aprendizado completa que inclui imagens, uma linha do tempo e elementos interativos; assim como gera uma calculadora de hipoteca para propriedades acima de um milhão de dólares. Essas funcionalidades marcam a transição de “responder perguntas” para “construir experiências”.

Lodz: Em todos os benchmarks públicos, o Gemini 3 superou amplamente o Gemini 2.5 Pro. Por exemplo, em um conjunto de problemas de doutorado interdisciplinar conhecido como “O Último Exame da Humanidade” (Humanity's Last Exam), o primeiro obteve apenas 21,6%, enquanto o segundo subiu diretamente para 37,5%. A declaração geral do Google é: qualquer tarefa que você consiga realizar no ChatGPT, Claude ou em outras versões antigas do Gemini, pode ser feita melhor no Gemini 3.

Newton: Eles também mostraram uma demonstração inicial do Gemini Agent: o modelo pode acessar profundamente o e-mail do usuário, compreender todo o conteúdo das mensagens, classificar automaticamente, redigir respostas e até ajudar o usuário a esvaziar completamente a caixa de entrada.

Além disso, a partir desta semana o Gemini 3 será lançado no Gemini App e no Modo AI da pesquisa do Google; estudantes universitários nos EUA terão acesso gratuito à versão premium por um ano. A palavra-chave que o Google enfatiza repetidamente é “Learn Anything”, o que, na verdade, posiciona o Gemini como a ferramenta de educação personalizada definitiva.

Rodz: Demis, Josh, bem-vindos ao “Hard Fork”. Há dois anos, Sundar Pichai comparou o Bard a “um Honda Civic modificado”, competindo em uma pista contra concorrentes mais fortes. Então, que tipo de carro é o Gemini 3?

Hassabis: Eu espero que seja muito mais rápido do que um Honda Civic. Não estou muito acostumado a usar carros como metáfora, talvez seja mais como um carro de arrasto profissional (Drag Racer). Não foi projetado para condução diária ou corridas em circuito, tem um poder imenso, puramente concentrado em um objetivo específico. Ele representa a perfeita combinação dos nossos mais avançados resultados de pesquisa com poder computacional em escala, com o objetivo de mostrar uma explosão instantânea incomparável nesta corrida na vanguarda da inteligência.

Róz: Isso é interessante. Em comparação com todos os modelos de IA anteriores, o que exatamente o Gemini 3 pode fazer de novo em termos concretos? Por favor, dê-nos alguns exemplos quantitativos e práticos.

Woodward: Há três pontos mais destacados. Primeiro, na inferência em múltiplas etapas, ele consegue pensar simultaneamente em mais etapas, elevando sua confiabilidade a um novo patamar. Modelos anteriores costumavam “perder o fio da meada” ou gerar alucinações ao realizar deduções lógicas complexas nas etapas 5 e 6, enquanto o Gemini 3 consegue completar de forma confiável tarefas de raciocínio coerente de 10 a 15 etapas, como planejamento tributário complexo, planejamento e reserva de viagens internacionais, ou depuração abrangente de um sistema grande com milhões de linhas de código.

Em segundo lugar, ele irá gerar pela primeira vez uma nova interface interativa em larga escala. As necessidades dos usuários não são mais apenas respostas em texto simples, mas sim componentes de software personalizados. Por exemplo, se você perguntar: “Ajude-me a projetar um painel que possa rastrear todos os meus investimentos”, ele gerará em tempo real uma interface de painel interativa e acionável, em vez de um monte de texto descrevendo como criar um painel.

Em terceiro lugar, investimos enormes recursos na capacidade de codificação, especialmente na codificação de “ambiente”, o que significa que pode gerar código de interface de usuário completo e esteticamente agradável com base em sugestões de linguagem natural. Os novos produtos que estão prestes a ser lançados, como o Google Antigravity, também mostrarão isso plenamente, com o modelo sendo capaz de mudar dinamicamente o layout e a funcionalidade da interface de usuário com base no contexto.

Newton: Muitas pessoas acreditam que, para o utilizador comum, o caso de uso “chat” já está basicamente resolvido. Elas nem conseguem imaginar que novas questões poderiam fazer com que as respostas do Gemini 3 se distinguem qualitativamente das suas antecessoras. Qual é a sua opinião sobre esta perspectiva?

Woodward: Eu entendo esse ponto de vista. À primeira vista, a taxa de precisão das perguntas e respostas básicas já é bastante alta. Mas a verdadeira diferença está na confiabilidade, integração e na forma como a informação é apresentada. As respostas do Gemini 3 serão mais concisas, mais expressivas e a forma como a informação é apresentada será mais fácil de entender, uma mudança que a maioria das pessoas consegue perceber imediatamente.

Mais importante ainda, o modelo começa a integrar-se profundamente com outras fontes de dados dos utilizadores, como a interacção com outros produtos dentro do ecossistema do Google, superando verdadeiramente o simples modo de perguntas e respostas, tornando-se o “gerente digital” do utilizador. Ele consegue entender o contexto de todo o seu e-mail, permitindo que, ao redigir respostas, não apenas responda a perguntas, mas também ajuste o tom e o conteúdo com base no seu estilo passado e na relação que tem com o destinatário.

Hassabis: Eu concordo plenamente. A sua fiabilidade, estilo e personalidade foram cuidadosamente refinados, tornando-se mais conciso e mais direto ao ponto. Em cenários como a “codificação de ambiente”, já superou a barreira da utilidade. É uma mudança de um “assistente inteligente” para um “colega inteligente”. Pessoalmente, planejo usá-lo para retomar a programação de jogos durante as férias de Natal; agora ele não só consegue escrever código funcional, mas também pode fornecer sugestões de arquitetura desde o início do design.

Lodz: Demis, quando você nos entrevistou em maio deste ano, você avaliou que a AGI ainda precisaria de 5 a 10 anos e talvez de algumas grandes inovações. O Gemini 3 mudou esse cronograma?

Hassabis: De forma alguma. Está totalmente de acordo com a trajetória que definimos nos últimos dois anos. Na verdade, desde o lançamento da série Gemini, a nossa velocidade de progresso tem sido a mais rápida da indústria. O Gemini 3 é impressionante, mas ainda está dentro do esperado.

Para alcançarmos a verdadeira inteligência artificial geral, ainda precisamos fazer de 1 a 2 avanços críticos em consistência, profundidade de raciocínio, mecanismos de memória e modelagem do mundo físico (como os projetos SIMA e Genie que estamos promovendo). O que estamos fazendo agora é o “pensamento do sistema 1” (rápido, intuitivo), mas para realizarmos a IAG, precisamos desbloquear o “pensamento do sistema 2” (lento, reflexivo, analítico).

Além disso, o modelo precisa ter um mecanismo de memória seletiva de longo prazo, capaz de recordar e aplicar conteúdos de interações específicas de semanas ou meses atrás, e não se limitar apenas a uma janela de contexto restrita. Portanto, o julgamento de 5 a 10 anos permanece inalterado.

Newton: Sobre a personalidade do modelo e a relação com os usuários, a indústria está a debater “companheiros de IA”. Que tipo de relação você gostaria que os usuários estabelecessem com o Gemini 3?

Woodward: Esta é uma questão muito sensível, mas importante. Nós a posicionamos como uma “super ferramenta” em vez de um companheiro emocional; o valor central é ajudar os usuários a concluir tarefas diárias de maneira eficiente e aumentar a produtividade. Internamente, estamos mais focados em um novo indicador: quantas tarefas conseguimos ajudar você a concluir hoje? Isso se aproxima mais do valor central do primeiro Google Search - eficiência. Acreditamos que posicionar o modelo como um companheiro emocional traz riscos de segurança e desvia da missão central do Google como provedor de informação e ferramentas.

Rodz: Vocês desistiram da oportunidade de crescimento viral “parceiro erótico”, isso é um erro estratégico grave?

Woodward: Sem comentário. A nossa equipa de segurança tem normas e diretrizes rigorosas sobre isso.

Rodz: Nas últimas semanas, os concorrentes estão claramente tensos. Você acha que o Google já está à frente na corrida da IA?

Hassabis: O ambiente atual é a competição mais feroz da história. A única coisa realmente importante é a velocidade de progresso, e estamos muito satisfeitos com isso. Nunca perdemos nossa posição de liderança em pesquisa, agora apenas os produtos finalmente estão acompanhando. Os concorrentes são excelentes em pesquisa, mas na distribuição em escala e na integração vertical, eles não conseguem replicar nossas vantagens.

Estamos injetando o Gemini em produtos com bilhões de usuários, como Maps, YouTube, Android, pesquisa e Workspace. Esta rede de distribuição e o ciclo de feedback de dados do terminal são uma barreira intransponível. Além disso, nossa vantagem total em chips TPU personalizados faz com que nossos custos e eficiência de treinamento sejam muito superiores aos concorrentes que dependem de recursos de GPU externos.

Newton: Qual a sua opinião sobre a controvérsia entre a lei de escala e o retorno decrescente? Há quem acredite que, quanto maior o tamanho do modelo, menor é o benefício marginal do aumento de desempenho.

Hassabis: Este é um debate contínuo. Estamos muito satisfeitos com a melhoria do Gemini 3 em relação ao 2.5, que correspondeu totalmente às nossas expectativas. O retorno não é mais explosivo como era nos primeiros tempos, mas o aumento de utilidade e a melhoria de confiabilidade que ele traz ainda superam em muito o nosso custo marginal, ainda valendo nosso total empenho. Até que ocorram uma ou duas quebras de pesquisa necessárias para alcançar a AGI, continuar a impulsionar o desempenho através de modelos fundamentais em grande escala continua a ser a estratégia mais eficaz atualmente. Acreditamos que a lei de escala ainda é válida.

Rodz: Estamos nós dentro de uma bolha de IA?

Hassabis: Esta é uma questão demasiado binária. Existem bolhas em certos setores (como empresas que arrecadam bilhões de dólares em rodadas de investimento, mas não têm produtos reais e apenas falam de conceitos), onde a avaliação não se alinha com a receita real. No entanto, o Google possui simultaneamente monetização a curto prazo (buscas, Workspace, cloud TPU) e novas áreas trilionárias a longo prazo (robótica, jogos, descoberta de medicamentos, ciência dos materiais, etc.).

Por exemplo, nossos modelos profissionais como o AlphaFold estão criando valor real no campo da descoberta de medicamentos, que é um mercado de trilhões que não está relacionado à avaliação da IA do consumidor. Independentemente de haver uma bolha de curto prazo, nós prevaleceremos: aproveitando as oportunidades durante a prosperidade e sendo mais resilientes durante a retração, graças à nossa vantagem de pilha completa e ao forte fluxo de caixa.

Newton: Se agora fosse uma festa de Ação de Graças e alguém quisesse mudar de assunto político, que funcionalidade sugeriria que usassem o Gemini 3 para impressionar a todos?

Woodward: Não sei se isso pode salvar o Dia de Ação de Graças, mas pode trazer risos. Pegue o telefone e tire uma selfie, depois deixe o Gemini 3 editar as fotos de forma louca.

O nosso modelo de imagem no Gemini continua a ser o mais forte em todo o mundo. Você pode instantaneamente transformar uma foto em família em qualquer cena engraçada, estilo ou época. Com certeza vai provocar risadas por toda a parte. Depois, quando você mostrar como ele pode ajudá-lo a escrever uma carta de demissão adequada ou gerar uma calculadora de receitas personalizadas para as festas, eles naturalmente explorarão outras novas funcionalidades.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
0/400
Sem comentários
  • Marcar
Negocie criptomoedas a qualquer hora e em qualquer lugar
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)