Qwen 开源先进的自动语音识别（ASR）和强制对齐模型，具备多语言能力

2026-01-29 14:41:12

摘要生成中

简要介绍

阿里云已开源其 Qwen3-ASR 和 Qwen3-ForcedAligner AI 模型，在多种语言和复杂声学条件下实现了最先进的语音识别和强制对齐性能。

阿里云宣布已将其 Qwen3-ASR 和 Qwen3-ForcedAligner AI 模型开源，提供用于语音识别和强制对齐的先进工具。

Qwen3-ASR 系列包括两个一体化模型，Qwen3-ASR-1.7B 和 Qwen3-ASR-0.6B，支持52种语言和口音的语言识别和转录，利用大规模语音数据和 Qwen3-Omni 基础模型。

内部测试显示，1.7B 模型在开源语音识别系统中实现了最先进的准确率，而 0.6B 版本在性能与效率之间取得平衡，能够在一秒内转录2000秒的语音，并支持高并发。

Qwen3-ForcedAligner-0.6B 模型采用非自回归大型语言模型（LLM）方法，在11种语言中实现文本与语音的对齐，在速度和准确性方面优于领先的强制对齐解决方案。

阿里云还发布了基于 Apache 2.0 许可证的全面推理框架，支持流式处理、批处理、时间戳预测和微调，旨在加速音频理解的研究与实际应用。

Qwen3-ASR 和 Qwen3-ForcedAligner 模型展现出领先的准确率和效率

阿里云发布了其 Qwen3-ASR 和 Qwen3-ForcedAligner 模型的性能结果，展示了在多样的语音识别任务中领先的准确率和效率。

Qwen3-ASR-1.7B 模型在开源系统中实现了最先进的效果，在英语、多语种和中文方言识别方面优于商业API和其他开源模型，包括粤语和22个地区变体。

它在复杂声学条件下保持可靠的准确性，例如低信噪比环境、儿童或老年人语音，甚至歌声转录，在背景音乐下的中文平均词错误率为13.91%，英文为14.60%。

较小的 Qwen3-ASR-0.6B 在准确性和效率之间取得平衡，在高并发下实现高吞吐和低延迟，能够在128并发的在线异步模式下转录多达五小时的语音。

同时，Qwen3-ForcedAligner-0.6B 在性能上优于 Nemo-Forced-Aligner、WhisperX 和 Monotonic-Aligner 等领先的端到端强制对齐模型，提供更广泛的语言覆盖、更高的时间戳准确性，并支持多样的语音和音频长度。

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

0/400

暂无评论