Alibaba Cloud ha abierto el código de sus modelos de IA Qwen3-ASR y Qwen3-ForcedAligner, ofreciendo un rendimiento de reconocimiento de voz y alineación forzada de última generación en múltiples idiomas y condiciones acústicas desafiantes.
Alibaba Cloud anunció que ha puesto a disposición pública sus modelos de IA Qwen3-ASR y Qwen3-ForcedAligner, proporcionando herramientas avanzadas para reconocimiento de voz y alineación forzada.
La familia Qwen3-ASR incluye dos modelos todo en uno, Qwen3-ASR-1.7B y Qwen3-ASR-0.6B, que soportan identificación de idioma y transcripción en 52 idiomas y acentos, aprovechando datos de voz a gran escala y el modelo base Qwen3-Omni.
Las pruebas internas indican que el modelo de 1.7B ofrece precisión de última generación entre los sistemas ASR de código abierto, mientras que la versión de 0.6B equilibra rendimiento y eficiencia, capaz de transcribir 2,000 segundos de voz en un segundo con alta concurrencia.
El modelo Qwen3-ForcedAligner-0.6B utiliza un enfoque de LLM no autoregresivo para alinear texto y voz en 11 idiomas, superando a las principales soluciones de alineación forzada en velocidad y precisión.
Alibaba Cloud también ha lanzado un marco de inferencia integral bajo la licencia Apache 2.0, que soporta transmisión en tiempo real, procesamiento por lotes, predicción de marcas de tiempo y ajuste fino, con el objetivo de acelerar la investigación y las aplicaciones prácticas en comprensión de audio.
Los modelos Qwen3-ASR y Qwen3-ForcedAligner demuestran precisión y eficiencia líderes en su clase
Alibaba Cloud ha publicado resultados de rendimiento de sus modelos Qwen3-ASR y Qwen3-ForcedAligner, demostrando precisión y eficiencia líderes en diversas tareas de reconocimiento de voz.
El modelo Qwen3-ASR-1.7B logra resultados de última generación entre los sistemas de código abierto, superando a las API comerciales y otros modelos de código abierto en reconocimiento de inglés, multilingüe y dialectos chinos, incluyendo cantonés y 22 variantes regionales.
Mantiene una precisión confiable en condiciones acústicas desafiantes, como entornos con baja relación señal-ruido, voz infantil o de ancianos, e incluso transcripción de voz cantada, alcanzando tasas de error de palabras promedio del 13.91% en chino y 14.60% en inglés con música de fondo.
El más pequeño Qwen3-ASR-0.6B equilibra precisión y eficiencia, ofreciendo alto rendimiento y baja latencia bajo alta concurrencia, capaz de transcribir hasta cinco horas de voz en modo asincrónico en línea con una concurrencia de 128.
Mientras tanto, el Qwen3-ForcedAligner-0.6B supera a los principales modelos de alineación forzada de extremo a extremo, incluyendo Nemo-Forced-Aligner, WhisperX y Monotonic-Aligner, ofreciendo una cobertura de idiomas superior, precisión en marcas de tiempo y soporte para diferentes longitudes de voz y audio.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
Qwen abre el código de modelos avanzados de ASR y alineación forzada con capacidades multilingües
En Resumen
Alibaba Cloud ha abierto el código de sus modelos de IA Qwen3-ASR y Qwen3-ForcedAligner, ofreciendo un rendimiento de reconocimiento de voz y alineación forzada de última generación en múltiples idiomas y condiciones acústicas desafiantes.
Alibaba Cloud anunció que ha puesto a disposición pública sus modelos de IA Qwen3-ASR y Qwen3-ForcedAligner, proporcionando herramientas avanzadas para reconocimiento de voz y alineación forzada.
La familia Qwen3-ASR incluye dos modelos todo en uno, Qwen3-ASR-1.7B y Qwen3-ASR-0.6B, que soportan identificación de idioma y transcripción en 52 idiomas y acentos, aprovechando datos de voz a gran escala y el modelo base Qwen3-Omni.
Las pruebas internas indican que el modelo de 1.7B ofrece precisión de última generación entre los sistemas ASR de código abierto, mientras que la versión de 0.6B equilibra rendimiento y eficiencia, capaz de transcribir 2,000 segundos de voz en un segundo con alta concurrencia.
El modelo Qwen3-ForcedAligner-0.6B utiliza un enfoque de LLM no autoregresivo para alinear texto y voz en 11 idiomas, superando a las principales soluciones de alineación forzada en velocidad y precisión.
Alibaba Cloud también ha lanzado un marco de inferencia integral bajo la licencia Apache 2.0, que soporta transmisión en tiempo real, procesamiento por lotes, predicción de marcas de tiempo y ajuste fino, con el objetivo de acelerar la investigación y las aplicaciones prácticas en comprensión de audio.
Los modelos Qwen3-ASR y Qwen3-ForcedAligner demuestran precisión y eficiencia líderes en su clase
Alibaba Cloud ha publicado resultados de rendimiento de sus modelos Qwen3-ASR y Qwen3-ForcedAligner, demostrando precisión y eficiencia líderes en diversas tareas de reconocimiento de voz.
El modelo Qwen3-ASR-1.7B logra resultados de última generación entre los sistemas de código abierto, superando a las API comerciales y otros modelos de código abierto en reconocimiento de inglés, multilingüe y dialectos chinos, incluyendo cantonés y 22 variantes regionales.
Mantiene una precisión confiable en condiciones acústicas desafiantes, como entornos con baja relación señal-ruido, voz infantil o de ancianos, e incluso transcripción de voz cantada, alcanzando tasas de error de palabras promedio del 13.91% en chino y 14.60% en inglés con música de fondo.
El más pequeño Qwen3-ASR-0.6B equilibra precisión y eficiencia, ofreciendo alto rendimiento y baja latencia bajo alta concurrencia, capaz de transcribir hasta cinco horas de voz en modo asincrónico en línea con una concurrencia de 128.
Mientras tanto, el Qwen3-ForcedAligner-0.6B supera a los principales modelos de alineación forzada de extremo a extremo, incluyendo Nemo-Forced-Aligner, WhisperX y Monotonic-Aligner, ofreciendo una cobertura de idiomas superior, precisión en marcas de tiempo y soporte para diferentes longitudes de voz y audio.