2026-04-10 12:04:04

Gemma 4 en llama.cpp finalmente estable

El 2 de abril Google lanzó Gemma 4, el primer día ya tenía soporte para llama.cpp pero con muchos errores. Ahora todos los problemas están solucionados
E2B, E4B, MoE 26B, Dense 31B
El 31B ocupa el tercer lugar en la clasificación de Arena AI, el 26B ocupa el sexto
El equipo de modelos de código abierto más fuerte
Usa --chat-template-file para cargar la plantilla intercalada
Se recomienda activar --cache-ram 2048
La longitud del contexto depende de la memoria de la tarjeta gráfica
El mejor modelo local del año pasado fue Llama 3.1 70B cuántico, que apenas se podía usar
Ahora Gemma 4 31B Q5 funciona fluidamente en Mac Studio, cerca del nivel de GPT-4
Las aplicaciones de IA que no dependen de API comienzan a tener viabilidad comercial. Los datos no salen del equipo, el costo es cero, la latencia es muy baja
Para una empresa unipersonal, el modelo local es la verdadera infraestructura. Mientras los competidores pagan por API, tu costo marginal es la factura de electricidad
Gemma 4 + llama.cpp = la solución óptima para inferencia local, puede pasar a producción

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

1 me gusta