Alibaba Cloud a rendu open source ses modèles d’IA Qwen3-ASR et Qwen3-ForcedAligner, offrant des performances de reconnaissance vocale et d’alignement forcé de pointe dans plusieurs langues et conditions acoustiques difficiles.
Alibaba Cloud a annoncé avoir rendu open source ses modèles d’IA Qwen3-ASR et Qwen3-ForcedAligner, proposant des outils avancés pour la reconnaissance vocale et l’alignement forcé.
La famille Qwen3-ASR comprend deux modèles tout-en-un, Qwen3-ASR-1.7B et Qwen3-ASR-0.6B, qui prennent en charge l’identification de la langue et la transcription dans 52 langues et accents, en utilisant des données vocales à grande échelle et le modèle de fondation Qwen3-Omni.
Les tests internes indiquent que le modèle 1.7B offre une précision de pointe parmi les systèmes ASR open source, tandis que la version 0.6B équilibre performance et efficacité, capable de transcrire 2 000 secondes de parole en une seconde avec une forte concurrence.
Le modèle Qwen3-ForcedAligner-0.6B utilise une approche LLM non autoregressive pour aligner texte et parole en 11 langues, surpassant les solutions d’alignement de force leaders en termes de vitesse et de précision.
Alibaba Cloud a également publié un cadre d’inférence complet sous licence Apache 2.0, supportant le streaming, le traitement par lots, la prédiction de timestamp et le fine-tuning, visant à accélérer la recherche et les applications pratiques en compréhension audio.
Les modèles Qwen3-ASR et Qwen3-ForcedAligner démontrent une précision et une efficacité de premier ordre
Alibaba Cloud a publié les résultats de performance de ses modèles Qwen3-ASR et Qwen3-ForcedAligner, démontrant une précision et une efficacité de premier ordre dans diverses tâches de reconnaissance vocale.
Le modèle Qwen3-ASR-1.7B atteint des résultats de pointe parmi les systèmes open source, surpassant les API commerciales et autres modèles open source en reconnaissance de l’anglais, du multilingue et des dialectes chinois, y compris le cantonais et 22 variantes régionales.
Il maintient une précision fiable dans des conditions acoustiques difficiles, telles que les environnements à faible rapport signal-bruit, la parole d’enfants ou de personnes âgées, et même la transcription de voix chantée, avec un taux d’erreur moyen en mots de 13,91 % en chinois et 14,60 % en anglais avec musique de fond.
Le plus petit Qwen3-ASR-0.6B équilibre précision et efficacité, offrant un débit élevé et une faible latence en mode asynchrone en ligne avec une forte concurrence, capable de transcrire jusqu’à cinq heures de parole en mode asynchrone en ligne à une concurrence de 128.
Par ailleurs, le Qwen3-ForcedAligner-0.6B dépasse les modèles d’alignement de force de bout en bout leaders, tels que Nemo-Forced-Aligner, WhisperX et Monotonic-Aligner, offrant une meilleure couverture linguistique, une précision de timestamp supérieure et un support pour des longueurs variées de parole et d’audio.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Qwen ouvre en open source des modèles avancés de reconnaissance automatique de la parole (ASR) et d'alignement forcé avec des capacités multilingues
En Bref
Alibaba Cloud a rendu open source ses modèles d’IA Qwen3-ASR et Qwen3-ForcedAligner, offrant des performances de reconnaissance vocale et d’alignement forcé de pointe dans plusieurs langues et conditions acoustiques difficiles.
Alibaba Cloud a annoncé avoir rendu open source ses modèles d’IA Qwen3-ASR et Qwen3-ForcedAligner, proposant des outils avancés pour la reconnaissance vocale et l’alignement forcé.
La famille Qwen3-ASR comprend deux modèles tout-en-un, Qwen3-ASR-1.7B et Qwen3-ASR-0.6B, qui prennent en charge l’identification de la langue et la transcription dans 52 langues et accents, en utilisant des données vocales à grande échelle et le modèle de fondation Qwen3-Omni.
Les tests internes indiquent que le modèle 1.7B offre une précision de pointe parmi les systèmes ASR open source, tandis que la version 0.6B équilibre performance et efficacité, capable de transcrire 2 000 secondes de parole en une seconde avec une forte concurrence.
Le modèle Qwen3-ForcedAligner-0.6B utilise une approche LLM non autoregressive pour aligner texte et parole en 11 langues, surpassant les solutions d’alignement de force leaders en termes de vitesse et de précision.
Alibaba Cloud a également publié un cadre d’inférence complet sous licence Apache 2.0, supportant le streaming, le traitement par lots, la prédiction de timestamp et le fine-tuning, visant à accélérer la recherche et les applications pratiques en compréhension audio.
Les modèles Qwen3-ASR et Qwen3-ForcedAligner démontrent une précision et une efficacité de premier ordre
Alibaba Cloud a publié les résultats de performance de ses modèles Qwen3-ASR et Qwen3-ForcedAligner, démontrant une précision et une efficacité de premier ordre dans diverses tâches de reconnaissance vocale.
Le modèle Qwen3-ASR-1.7B atteint des résultats de pointe parmi les systèmes open source, surpassant les API commerciales et autres modèles open source en reconnaissance de l’anglais, du multilingue et des dialectes chinois, y compris le cantonais et 22 variantes régionales.
Il maintient une précision fiable dans des conditions acoustiques difficiles, telles que les environnements à faible rapport signal-bruit, la parole d’enfants ou de personnes âgées, et même la transcription de voix chantée, avec un taux d’erreur moyen en mots de 13,91 % en chinois et 14,60 % en anglais avec musique de fond.
Le plus petit Qwen3-ASR-0.6B équilibre précision et efficacité, offrant un débit élevé et une faible latence en mode asynchrone en ligne avec une forte concurrence, capable de transcrire jusqu’à cinq heures de parole en mode asynchrone en ligne à une concurrence de 128.
Par ailleurs, le Qwen3-ForcedAligner-0.6B dépasse les modèles d’alignement de force de bout en bout leaders, tels que Nemo-Forced-Aligner, WhisperX et Monotonic-Aligner, offrant une meilleure couverture linguistique, une précision de timestamp supérieure et un support pour des longueurs variées de parole et d’audio.