Qwen abre el código de modelos avanzados de ASR y alineación forzada con capacidades multilingües

robot
Generación de resúmenes en curso

En Resumen

Alibaba Cloud ha abierto el código de sus modelos de IA Qwen3-ASR y Qwen3-ForcedAligner, ofreciendo un rendimiento de reconocimiento de voz y alineación forzada de última generación en múltiples idiomas y condiciones acústicas desafiantes.

Qwen Open-Sources Advanced ASR And Forced Alignment Models With Multi-Language Capabilities

Alibaba Cloud anunció que ha puesto a disposición pública sus modelos de IA Qwen3-ASR y Qwen3-ForcedAligner, proporcionando herramientas avanzadas para reconocimiento de voz y alineación forzada.

La familia Qwen3-ASR incluye dos modelos todo en uno, Qwen3-ASR-1.7B y Qwen3-ASR-0.6B, que soportan identificación de idioma y transcripción en 52 idiomas y acentos, aprovechando datos de voz a gran escala y el modelo base Qwen3-Omni.

Las pruebas internas indican que el modelo de 1.7B ofrece precisión de última generación entre los sistemas ASR de código abierto, mientras que la versión de 0.6B equilibra rendimiento y eficiencia, capaz de transcribir 2,000 segundos de voz en un segundo con alta concurrencia.

El modelo Qwen3-ForcedAligner-0.6B utiliza un enfoque de LLM no autoregresivo para alinear texto y voz en 11 idiomas, superando a las principales soluciones de alineación forzada en velocidad y precisión.

Alibaba Cloud también ha lanzado un marco de inferencia integral bajo la licencia Apache 2.0, que soporta transmisión en tiempo real, procesamiento por lotes, predicción de marcas de tiempo y ajuste fino, con el objetivo de acelerar la investigación y las aplicaciones prácticas en comprensión de audio.

Los modelos Qwen3-ASR y Qwen3-ForcedAligner demuestran precisión y eficiencia líderes en su clase

Alibaba Cloud ha publicado resultados de rendimiento de sus modelos Qwen3-ASR y Qwen3-ForcedAligner, demostrando precisión y eficiencia líderes en diversas tareas de reconocimiento de voz.

El modelo Qwen3-ASR-1.7B logra resultados de última generación entre los sistemas de código abierto, superando a las API comerciales y otros modelos de código abierto en reconocimiento de inglés, multilingüe y dialectos chinos, incluyendo cantonés y 22 variantes regionales.

Mantiene una precisión confiable en condiciones acústicas desafiantes, como entornos con baja relación señal-ruido, voz infantil o de ancianos, e incluso transcripción de voz cantada, alcanzando tasas de error de palabras promedio del 13.91% en chino y 14.60% en inglés con música de fondo.

El más pequeño Qwen3-ASR-0.6B equilibra precisión y eficiencia, ofreciendo alto rendimiento y baja latencia bajo alta concurrencia, capaz de transcribir hasta cinco horas de voz en modo asincrónico en línea con una concurrencia de 128.

Mientras tanto, el Qwen3-ForcedAligner-0.6B supera a los principales modelos de alineación forzada de extremo a extremo, incluyendo Nemo-Forced-Aligner, WhisperX y Monotonic-Aligner, ofreciendo una cobertura de idiomas superior, precisión en marcas de tiempo y soporte para diferentes longitudes de voz y audio.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
0/400
Sin comentarios
  • Anclado

Opera con criptomonedas en cualquier momento y lugar
qrCode
Escanea para descargar la aplicación de Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)