Gate 广場「創作者認證激勵計畫」優質創作者持續招募中!
立即加入,發布優質內容,參與活動即可瓜分月度 $10,000+ 創作獎勵!
認證申請步驟:
1️⃣ 打開 App 首頁底部【廣場】 → 點擊右上角頭像進入個人首頁
2️⃣ 點擊頭像右下角【申請認證】,提交申請等待審核
立即報名:https://www.gate.com/questionnaire/7159
豪華代幣獎池、Gate 精美周邊、流量曝光等超過 $10,000 的豐厚獎勵等你拿!
活動詳情:https://www.gate.com/announcements/article/47889
Qwen 開源先進的語音識別(ASR)和強制對齊模型,具備多語言能力
簡要介紹
阿里雲已開源其 Qwen3-ASR 和 Qwen3-ForcedAligner AI 模型,實現多語言和挑戰性聲學條件下的最先進語音識別與強制對齊性能。
阿里雲宣布已將其 Qwen3-ASR 和 Qwen3-ForcedAligner AI 模型開源,提供先進的語音識別與強制對齊工具。
Qwen3-ASR 系列包括兩款全能模型,Qwen3-ASR-1.7B 和 Qwen3-ASR-0.6B,支持52種語言和口音的語言識別與轉錄,利用大規模語音數據和 Qwen3-Omni 基礎模型。
內部測試顯示,1.7B 模型在開源語音識別系統中達到最先進的準確率,而 0.6B 版本則在性能與效率之間取得平衡,能在一秒內轉錄2000秒的語音,並具有高併發能力。
Qwen3-ForcedAligner-0.6B 模型採用非自回歸大型語言模型(LLM)方法,在11種語言中進行文本與語音的對齊,速度與準確率均優於領先的強制對齊解決方案。
阿里雲還發布了一個基於 Apache 2.0 許可的全面推理框架,支持串流、批次處理、時間戳預測和微調,旨在加速音頻理解的研究與實踐應用。
Qwen3-ASR 和 Qwen3-ForcedAligner 模型展現領先的準確率與效率
阿里雲已發布其 Qwen3-ASR 和 Qwen3-ForcedAligner 模型的性能結果,展現多樣語音識別任務中的領先準確率與效率。
Qwen3-ASR-1.7B 模型在開源系統中達到最先進的結果,在英語、多語言和中文方言識別方面超越商業API和其他開源模型,包括粵語和22個地區變體。
在低信噪比、兒童或老年人語音,甚至歌聲轉錄等挑戰性聲學條件下,仍能保持可靠的準確率,中文平均字錯誤率為13.91%,英文為14.60%,背景有音樂。
較小的 Qwen3-ASR-0.6B 在準確率與效率之間取得平衡,在高併發下提供高吞吐量和低延遲,能在128併發的線上非同步模式下轉錄長達五小時的語音。
同時,Qwen3-ForcedAligner-0.6B 在語言覆蓋範圍、時間戳準確率和支持多樣語音與音頻長度方面,超越包括 Nemo-Forced-Aligner、WhisperX 和 Monotonic-Aligner 在內的領先端到端強制對齊模型。