Qwen 開源先進的語音識別（ASR）和強制對齊模型，具備多語言能力

Mpost Media Group · 2026-01-29T14:41:12+00:00

阿里雲已開源其 Qwen3-ASR 和 Qwen3-ForcedAligner 模型，在具有挑戰性的條件下，以高精度和高效率實現了52種語言的先進語音識別與對齊。

2026-01-29 14:41:12

摘要生成中

簡要介紹

阿里雲已開源其 Qwen3-ASR 和 Qwen3-ForcedAligner AI 模型，實現多語言和挑戰性聲學條件下的最先進語音識別與強制對齊性能。

阿里雲宣布已將其 Qwen3-ASR 和 Qwen3-ForcedAligner AI 模型開源，提供先進的語音識別與強制對齊工具。

Qwen3-ASR 系列包括兩款全能模型，Qwen3-ASR-1.7B 和 Qwen3-ASR-0.6B，支持52種語言和口音的語言識別與轉錄，利用大規模語音數據和 Qwen3-Omni 基礎模型。

內部測試顯示，1.7B 模型在開源語音識別系統中達到最先進的準確率，而 0.6B 版本則在性能與效率之間取得平衡，能在一秒內轉錄2000秒的語音，並具有高併發能力。

Qwen3-ForcedAligner-0.6B 模型採用非自回歸大型語言模型（LLM）方法，在11種語言中進行文本與語音的對齊，速度與準確率均優於領先的強制對齊解決方案。

阿里雲還發布了一個基於 Apache 2.0 許可的全面推理框架，支持串流、批次處理、時間戳預測和微調，旨在加速音頻理解的研究與實踐應用。

Qwen3-ASR 和 Qwen3-ForcedAligner 模型展現領先的準確率與效率

阿里雲已發布其 Qwen3-ASR 和 Qwen3-ForcedAligner 模型的性能結果，展現多樣語音識別任務中的領先準確率與效率。

Qwen3-ASR-1.7B 模型在開源系統中達到最先進的結果，在英語、多語言和中文方言識別方面超越商業API和其他開源模型，包括粵語和22個地區變體。

在低信噪比、兒童或老年人語音，甚至歌聲轉錄等挑戰性聲學條件下，仍能保持可靠的準確率，中文平均字錯誤率為13.91%，英文為14.60%，背景有音樂。

較小的 Qwen3-ASR-0.6B 在準確率與效率之間取得平衡，在高併發下提供高吞吐量和低延遲，能在128併發的線上非同步模式下轉錄長達五小時的語音。

同時，Qwen3-ForcedAligner-0.6B 在語言覆蓋範圍、時間戳準確率和支持多樣語音與音頻長度方面，超越包括 Nemo-Forced-Aligner、WhisperX 和 Monotonic-Aligner 在內的領先端到端強制對齊模型。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

留言

0/400

暫無留言