Alibaba Cloud выпустила в открытый доступ свои AI-модели Qwen3-ASR и Qwen3-ForcedAligner, обеспечивая передовые показатели распознавания речи и принудительного выравнивания для нескольких языков и сложных акустических условий.
Alibaba Cloud объявила, что сделала свои AI-модели Qwen3-ASR и Qwen3-ForcedAligner открытым исходным кодом, предоставляя передовые инструменты для распознавания речи и принудительного выравнивания.
Семейство Qwen3-ASR включает две универсальные модели, Qwen3-ASR-1.7B и Qwen3-ASR-0.6B, которые поддерживают определение языка и транскрипцию на 52 языках и диалектах, используя крупномасштабные данные о речи и базовую модель Qwen3-Omni.
Внутренние тесты показывают, что модель 1.7B обеспечивает передовую точность среди систем ASR с открытым исходным кодом, в то время как версия 0.6B балансирует производительность и эффективность, способна транскрибировать 2000 секунд речи за одну секунду при высокой параллельности.
Модель Qwen3-ForcedAligner-0.6B использует неавторегрессивный подход LLM для выравнивания текста и речи на 11 языках, превосходя ведущие решения по скорости и точности принудительного выравнивания.
Alibaba Cloud также выпустила комплексную инфраструктурную платформу под лицензией Apache 2.0, поддерживающую потоковую обработку, пакетную обработку, предсказание временных меток и донастройку, что направлено на ускорение исследований и практических приложений в области аудио понимания.
Модели Qwen3-ASR и Qwen3-ForcedAligner демонстрируют передовую точность и эффективность
Alibaba Cloud опубликовала результаты производительности своих моделей Qwen3-ASR и Qwen3-ForcedAligner, демонстрирующие ведущую точность и эффективность в различных задачах распознавания речи.
Модель Qwen3-ASR-1.7B достигает передовых результатов среди систем с открытым исходным кодом, превосходя коммерческие API и другие модели с открытым исходным кодом в распознавании английского, мультиязычного и китайского диалектов, включая кантонский и 22 региональных варианта.
Она сохраняет надежную точность в сложных акустических условиях, таких как низкий уровень сигнала и шума, речь детей или пожилых людей, а также транскрипцию пения, достигая средних показателей ошибок слов 13,91% на китайском и 14,60% на английском при фоновом музыкальном сопровождении.
Меньшая модель Qwen3-ASR-0.6B балансирует точность и эффективность, обеспечивая высокую пропускную способность и низкую задержку при высокой параллельности, способна транскрибировать до пяти часов речи в онлайн-асинхронном режиме при параллельности 128.
Модель Qwen3-ForcedAligner-0.6B превосходит ведущие модели принудительного выравнивания end-to-end, такие как Nemo-Forced-Aligner, WhisperX и Monotonic-Aligner, предлагая расширенное покрытие языков, точность временных меток и поддержку различных длины речи и аудио.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Qwen открывает исходный код передовых моделей ASR и принудительного выравнивания с многоязычными возможностями
Кратко
Alibaba Cloud выпустила в открытый доступ свои AI-модели Qwen3-ASR и Qwen3-ForcedAligner, обеспечивая передовые показатели распознавания речи и принудительного выравнивания для нескольких языков и сложных акустических условий.
Alibaba Cloud объявила, что сделала свои AI-модели Qwen3-ASR и Qwen3-ForcedAligner открытым исходным кодом, предоставляя передовые инструменты для распознавания речи и принудительного выравнивания.
Семейство Qwen3-ASR включает две универсальные модели, Qwen3-ASR-1.7B и Qwen3-ASR-0.6B, которые поддерживают определение языка и транскрипцию на 52 языках и диалектах, используя крупномасштабные данные о речи и базовую модель Qwen3-Omni.
Внутренние тесты показывают, что модель 1.7B обеспечивает передовую точность среди систем ASR с открытым исходным кодом, в то время как версия 0.6B балансирует производительность и эффективность, способна транскрибировать 2000 секунд речи за одну секунду при высокой параллельности.
Модель Qwen3-ForcedAligner-0.6B использует неавторегрессивный подход LLM для выравнивания текста и речи на 11 языках, превосходя ведущие решения по скорости и точности принудительного выравнивания.
Alibaba Cloud также выпустила комплексную инфраструктурную платформу под лицензией Apache 2.0, поддерживающую потоковую обработку, пакетную обработку, предсказание временных меток и донастройку, что направлено на ускорение исследований и практических приложений в области аудио понимания.
Модели Qwen3-ASR и Qwen3-ForcedAligner демонстрируют передовую точность и эффективность
Alibaba Cloud опубликовала результаты производительности своих моделей Qwen3-ASR и Qwen3-ForcedAligner, демонстрирующие ведущую точность и эффективность в различных задачах распознавания речи.
Модель Qwen3-ASR-1.7B достигает передовых результатов среди систем с открытым исходным кодом, превосходя коммерческие API и другие модели с открытым исходным кодом в распознавании английского, мультиязычного и китайского диалектов, включая кантонский и 22 региональных варианта.
Она сохраняет надежную точность в сложных акустических условиях, таких как низкий уровень сигнала и шума, речь детей или пожилых людей, а также транскрипцию пения, достигая средних показателей ошибок слов 13,91% на китайском и 14,60% на английском при фоновом музыкальном сопровождении.
Меньшая модель Qwen3-ASR-0.6B балансирует точность и эффективность, обеспечивая высокую пропускную способность и низкую задержку при высокой параллельности, способна транскрибировать до пяти часов речи в онлайн-асинхронном режиме при параллельности 128.
Модель Qwen3-ForcedAligner-0.6B превосходит ведущие модели принудительного выравнивания end-to-end, такие как Nemo-Forced-Aligner, WhisperX и Monotonic-Aligner, предлагая расширенное покрытие языков, точность временных меток и поддержку различных длины речи и аудио.